Callisto
Projets Ressources Communauté Contribuer

Sélectionnez votre langue

  • Français
  • Occitan
  • Accueil
  • A disposition
      • Back
      • La sélection de la Farga
      • API occitanes
      • Inventaire des ressources numériques
      • Nouveautés
      • Standards
      • Lexiques techniques
      • Tutoriels
  • Participez
      • Back
      • Pour commencer
      • Appels à contributions
      • J'ai un projet
      • Notices
      • Serveur Discord
  • La Farga numerica
      • Back
      • Présentation
      • Actualités
      • Notre discord
  • État des lieux
      • Back
      • Les grands domaines
      • Acteurs institutionnels
      • Les grands projets
      • Personnes ressources
      • Publications

Dernières nouvelles :
Jeudi 10 octobre a été officiellement inauguré le portail La Farga numerica.
Participez à la traduction en occitan de Minecraft, le jeu vidéo très apprécié par les adolescents.
Lo Congrès met à disposition trois corpus textuels bilingues et un corpus audio aligné.
Enregistrez des phrases en occitan aranais pour aider au développement de la reconnaissance vocale.
MinT, le traducteur automatique multilingue de la fondation Wikimedia, intègre l'occitan.
  1. État des lieux
  2. Les grands domaines

Etat des lieux

Le TAL (traitement automatique du langage) et les technologies de la langue en occitan ont connu des avancées majeures ces dernières années. La feuille de route pour le développement du numérique occitan, en 2014, avait fixé des objectifs dont la plupart ont été complétés. L'occitan dispose aujourd'hui d'un bon nombre d'outils de traitement automatique du langage, mais il reste encore du travail.

Nous vous proposons ici un état des lieux, outil par outil et ressource par ressource, de ce qui existe pour l'occitan, de ce qui reste à construire et des ressources qui existent pour ce faire.

Nous avons essayé d'être exhaustifs, mais si vous avez connaissance d'une information qui nous a échappé, n'hésitez pas à nous contacter grâce au bouton en bas de page.

Analyse morphosyntaxique

Analyseur morphosyntaxique (PoS-tagger) et lemmatiseur

  • outils
  • pos-tagger
  • analyse morpho-syntaxique
  • traduction automatique
  • analyse syntaxique
  • Congrès
  • CLLE
  • Apertium

Les traducteurs automatique Apertium et Revirada (Lo Congrès) intègrent tous les deux des analyseurs morphosyntaxiques / lemmatiseurs. Il y en a également un dans l'analyseur syntaxique Talismane de CLLE.

Analyseur syntaxique

Analyseur syntaxique (parser)

  • outils
  • analyse syntaxique
  • CLLE

Le seul analyseur syntaxique pour l'occitan est Talismane, développé par CLLE. Mais ils ont également créé un corpus annoté libre, le Linguatec Tolosa Treebank, qui pourra servir de base à la création d'autres outils.

Lexiques bilingues

Lexiques monolingues

  • lexic monolingüe
  • ressources
  • traduction automatique
  • lexiques
  • API
  • Congrès
  • CLLE
  • Apertium
  • lexique flexionnel

Parmi les lexiques flexionnels de l'occitan, on peut noter ceux du traducteur automatique Apertium, ceux faits dans le cadre du projet Lexics du Congrès, le dictionnaire collaboratif Dicollecte, le conjugueur de Verbix et celui de Per Noste. À noter également le lexique Loflòc en travail, une œuvre de CLLE et du Congrès.

Lire la suite...

Lexiques bilingues

Lexiques bilingues

  • ressources
  • lexique bilingue
  • traduction automatique
  • lexiques
  • Congrès
  • Apertium

Les seuls lexiques bilingues libres formatés pour le traitement automatique de la langue sont ceux du traducteur automatique libre Apertium. Il en existe pour les paires occitan-français, occitan-catalan et occitan-espagnol.

Lire la suite...

Corpus monolingues

Corpus monolingues

  • ressources
  • corpus
  • Congrès
  • Wikimedia
  • CLLE
  • corpus monolingue

La quantité de textes occitans produits chaque année n'est pas négligeable. Cependant, il n'existe pas beaucoup de corpus monolingues structurés, en particulier au niveau de l'étiquetage de la variété ou de l'étiquetage morphosyntaxique et syntaxique.

Lire la suite...

Corpus bilingues

Corpus bilingues

S'il existe un grand nombre de contenus occitans traduits en français (sites web, livres, documents officiels ou de communication...), les corpus parallèles alignés restent rares. On peut noter deux initiatives qui ont pour but d'y remédier : le projet ParCoLaF du laboratoire CLLE et le projet Còrpus du Congrès.

Lire la suite...

Corpus de la parole

Corpus de la parole

  • ressources
  • corpus
  • reconnaissance vocale
  • Congrès
  • corpus de la parole

Les corpus audio en occitan sont nombreux, notamment grâce aux nombreuses campagnes de collectage de la langue qui ont été menées par différents acteurs. Mais les corpus ayant une transcription écrite de leur contenu sont plus rares, et ceux dont la transcription est alignée le sont encore plus. Cependant, c'est en train de changer depuis quelques années.

Lire la suite...

Base de connaissances

Base de connaissances

  • ressources
  • base de connaissance
  • Wikimedia

La seule base de connaissances sur laquelle l'occitan peut s'appuyer pour le moment est Wikidata, la base de connaissance libre et collaborative de la fondation Wikimedia. Elle compte quasiment 100 millions de concepts et ceux-ci peuvent avoir des labels en occitan.

Lire la suite...

Page 2 sur 3

  • 1
  • 2
  • 3
  • A propos de La Farga
  • Informations légales
  • Crédits
  • Droits d'utilisation
  • Données personnelles
  • Plan du site
  • Contact
© 2025 La Farga - Lo Congres

Ce projet est issu du projet Linguatec AI.
Développement des connaissances en intelligence artificielle pour la numérisation de l’aragonais, du catalan, du basque et de l’occitan.
Linguatec IA et CG64