Callisto
Projets Ressources Communauté Contribuer

Sélectionnez votre langue

  • Français
  • Occitan
  • Accueil
  • A disposition
      • Back
      • La sélection de la Farga
      • API occitanes
      • Inventaire des ressources numériques
      • Nouveautés
      • Standards
      • Lexiques techniques
      • Tutoriels
  • Participez
      • Back
      • Pour commencer
      • Appels à contributions
      • J'ai un projet
      • Notices
      • Serveur Discord
  • La Farga numerica
      • Back
      • Présentation
      • Actualités
      • Notre discord
  • État des lieux
      • Back
      • Les grands domaines
      • Acteurs institutionnels
      • Les grands projets
      • Personnes ressources
      • Publications

Dernières nouvelles :
Jeudi 10 octobre a été officiellement inauguré le portail La Farga numerica.
Participez à la traduction en occitan de Minecraft, le jeu vidéo très apprécié par les adolescents.
Lo Congrès met à disposition trois corpus textuels bilingues et un corpus audio aligné.
Enregistrez des phrases en occitan aranais pour aider au développement de la reconnaissance vocale.
MinT, le traducteur automatique multilingue de la fondation Wikimedia, intègre l'occitan.
  1. État des lieux
  2. Les grands domaines

Etat des lieux

Le TAL (traitement automatique du langage) et les technologies de la langue en occitan ont connu des avancées majeures ces dernières années. La feuille de route pour le développement du numérique occitan, en 2014, avait fixé des objectifs dont la plupart ont été complétés. L'occitan dispose aujourd'hui d'un bon nombre d'outils de traitement automatique du langage, mais il reste encore du travail.

Nous vous proposons ici un état des lieux, outil par outil et ressource par ressource, de ce qui existe pour l'occitan, de ce qui reste à construire et des ressources qui existent pour ce faire.

Nous avons essayé d'être exhaustifs, mais si vous avez connaissance d'une information qui nous a échappé, n'hésitez pas à nous contacter grâce au bouton en bas de page.

Traduction automatique

Traduction automatique

  • outils
  • traduction automatique
  • Congrès
  • Apertium
  • Elhuyar

Le traducteur automatique occitan qui a servi de base à la plupart des autres est le traducteur libre Apertium. C'est à partir de celui-ci qu'ont été construits Revirada du Congrès (en partenariat avec Elhuyar), celui de Softcatalà, celui de la Generalitat de Catalunya et celui d'Opentrad.

Lire la suite...

Synthèse vocale

Synthèse vocale

  • outils
  • synthèse vocale
  • Congrès
  • Elhuyar

La seule synthèse vocale occitane qui existe à l'heure actuelle est Votz, la synthèse vocale pour l'occitan gascon et l'occitan languedocien du Congrès, développée en partenariat avec Elhuyar. Elle a été réalisée dans le cadre du projet européen Linguatec. Le projet Linguatec AI, ouvert depuis 2024, a pour objectif de l'améliorer et d'y intégrer l'occitan aranais grâce à un travail du Congrès, d'Elhuyar, de Col·lectivaT et de SoGeL.

Reconnaissance vocale

Reconnaissance vocale

  • outils
  • reconnaissance vocale
  • Congrès
  • corpus de la parole
  • Elhuyar

Un premier moteur de reconnaissance vocale (occitan gascon et occitan languedocien) a été développé par le Congrès et Elhuyar dans le cadre du projet ReVoc, mais l'outil ne dispose pas encore d'une interface utilisateur. Le projet Linguatec AI a pour but d'y remmédier, et d'ajouter l'occitan aranais aux variétés prises en charge.

Lire la suite...

Correcteur orthographique

Correction orthographique

Il existe plusieurs correcteurs orthographiques pour l'occitan : le Dicodòc du Congrès (fait en partenariat avec Elhuyar), celui créé grâce à Dicollecte et l'Aranese spell checker sont les plus connus, mais il en existe d'autres. La plupart fonctionnent pour LibreOffice, Firefox, Chrome et Mozilla Thunderbird.

Lire la suite...

Clavier prédictif

Claviers prédictifs

  • outils
  • clavier prédictif
  • Congrès
  • CLLE
  • Elhuyar

Les claviers prédictifs en occitan n'existent que pour Android (car le code source pour faire des claviers iPhone n'est pas public, contrairement à celui d'Android).Il n'existe pour le moment que le clavier Swiftkey et le GBoard de Google qui intègrent l'occitan, mais ils ne prennent pas en compte la variété et proposent essentiellement des mots languedociens.

Lire la suite...

OCR

OCR

  • outils
  • OCR
  • CLLE

CLLE a réalisé des modèles d'entraînement pour deux outils de reconnaissance de l'écriture (OCR) : Jochre e Tesseract. Quentin Pagès propose également des modèles pour Tesseract, PaddleOCR et EasyOCR.

Lire la suite...

Détection de langue

Détection de langue (et de variété)

  • outils
  • détecteur de langue
  • détecteur de variété

De nombreux outils permettent de détecter la langue d'un texte écrit, et la plupart prennent en compte l'occitan. Pour ce qui est de la reconnaissance orale, il existe au moins un outil qui sait reconnaître l'occitan. Et pour différencier les variétés de l'occitan, il n'y a qu'un programme en développement.

Lire la suite...

Segmenteur de mots (tokenizer)

Segmenteur de mots (tokenizer) et de phrases

  • outils
  • tokenizer
  • segmentation de phrases
  • API
  • Congrès
  • CLLE

CLLE a réalisé un tokenizer qu'elle a intégré dans son analyseur syntaxique Talismane. Il existe aussi le tokenizer octokenize et Lo Congrès est en train de construire le sien, qui sera accessible grâce à une API.

Page 1 sur 3

  • 1
  • 2
  • 3
  • A propos de La Farga
  • Informations légales
  • Crédits
  • Droits d'utilisation
  • Données personnelles
  • Plan du site
  • Contact
© 2025 La Farga - Lo Congres

Ce projet est issu du projet Linguatec AI.
Développement des connaissances en intelligence artificielle pour la numérisation de l’aragonais, du catalan, du basque et de l’occitan.
Linguatec IA et CG64