Le TAL (traitement automatique du langage) et les technologies de la langue en occitan ont connu des avancées majeures ces dernières années. La feuille de route pour le développement du numérique occitan, en 2014, avait fixé des objectifs dont la plupart ont été complétés. L'occitan dispose aujourd'hui d'un bon nombre d'outils de traitement automatique du langage, mais il reste encore du travail.
Nous vous proposons ici un état des lieux, outil par outil et ressource par ressource, de ce qui existe pour l'occitan, de ce qui reste à construire et des ressources qui existent pour ce faire.
Nous avons essayé d'être exhaustifs, mais si vous avez connaissance d'une information qui nous a échappé, n'hésitez pas à nous contacter grâce au bouton en bas de page.
Les traducteurs automatique Apertium et Revirada (Lo Congrès) intègrent tous les deux des analyseurs morphosyntaxiques / lemmatiseurs. Il y en a également un dans l'analyseur syntaxique Talismane de CLLE.
Le seul analyseur syntaxique pour l'occitan est Talismane, développé par CLLE. Mais ils ont également créé un corpus annoté libre, le Linguatec Tolosa Treebank, qui pourra servir de base à la création d'autres outils.
Parmi les lexiques flexionnels de l'occitan, on peut noter ceux du traducteur automatique Apertium, ceux faits dans le cadre du projet Lexics du Congrès, le dictionnaire collaboratif Dicollecte, le conjugueur de Verbix et celui de Per Noste. À noter également le lexique Loflòc en travail, une œuvre de CLLE et du Congrès.
Les seuls lexiques bilingues libres formatés pour le traitement automatique de la langue sont ceux du traducteur automatique libre Apertium. Il en existe pour les paires occitan-français, occitan-catalan et occitan-espagnol.
La quantité de textes occitans produits chaque année n'est pas négligeable. Cependant, il n'existe pas beaucoup de corpus monolingues structurés, en particulier au niveau de l'étiquetage de la variété ou de l'étiquetage morphosyntaxique et syntaxique.
S'il existe un grand nombre de contenus occitans traduits en français (sites web, livres, documents officiels ou de communication...), les corpus parallèles alignés restent rares. On peut noter deux initiatives qui ont pour but d'y remédier : le projet ParCoLaF du laboratoire CLLE et le projet Còrpus du Congrès.
Les corpus audio en occitan sont nombreux, notamment grâce aux nombreuses campagnes de collectage de la langue qui ont été menées par différents acteurs. Mais les corpus ayant une transcription écrite de leur contenu sont plus rares, et ceux dont la transcription est alignée le sont encore plus. Cependant, c'est en train de changer depuis quelques années.
La seule base de connaissances sur laquelle l'occitan peut s'appuyer pour le moment est Wikidata, la base de connaissance libre et collaborative de la fondation Wikimedia. Elle compte quasiment 100 millions de concepts et ceux-ci peuvent avoir des labels en occitan.