Le TAL (traitement automatique du langage) et les technologies de la langue en occitan ont connu des avancées majeures ces dernières années. La feuille de route pour le développement du numérique occitan, en 2014, avait fixé des objectifs dont la plupart ont été complétés. L'occitan dispose aujourd'hui d'un bon nombre d'outils de traitement automatique du langage, mais il reste encore du travail.
Nous vous proposons ici un état des lieux, outil par outil et ressource par ressource, de ce qui existe pour l'occitan, de ce qui reste à construire et des ressources qui existent pour ce faire.
Nous avons essayé d'être exhaustifs, mais si vous avez connaissance d'une information qui nous a échappé, n'hésitez pas à nous contacter grâce au bouton en bas de page.
Les traducteurs automatiques basés sur Apertium intègrent la reconnaissance de quelques types d'entités nommées, comme les sites web et les mails. Il y en a d'autres dans les logiciels de synthèse et de reconnaissance vocale (dates, heures, sites web, mails...).
La plupart des outils de base du traitement automatique du langage pour l'occitan sont construits ou sont sur le point de l'être. Les grands chantiers, pour l'avenir, sont de les améliorer, de les étendre à toutes les variétés, de les socialiser et de les utiliser dans de nouveaux outils, en les combinant ou en les enrichissant.