Le TAL (traitement automatique du langage) et les technologies de la langue en occitan ont connu des avancées majeures ces dernières années. La feuille de route pour le développement du numérique occitan, en 2014, avait fixé des objectifs dont la plupart ont été complétés. L'occitan dispose aujourd'hui d'un bon nombre d'outils de traitement automatique du langage, mais il reste encore du travail.
Nous vous proposons ici un état des lieux, outil par outil et ressource par ressource, de ce qui existe pour l'occitan, de ce qui reste à construire et des ressources qui existent pour ce faire.
Nous avons essayé d'être exhaustifs, mais si vous avez connaissance d'une information qui nous a échappé, n'hésitez pas à nous contacter grâce au bouton en bas de page.
Le traducteur automatique occitan qui a servi de base à la plupart des autres est le traducteur libre Apertium. C'est à partir de celui-ci qu'ont été construits Revirada du Congrès (en partenariat avec Elhuyar), celui de Softcatalà, celui de la Generalitat de Catalunya et celui d'Opentrad.
La seule synthèse vocale occitane qui existe à l'heure actuelle est Votz, la synthèse vocale pour l'occitan gascon et l'occitan languedocien du Congrès, développée en partenariat avec Elhuyar. Elle a été réalisée dans le cadre du projet européen Linguatec. Le projet Linguatec AI, ouvert depuis 2024, a pour objectif de l'améliorer et d'y intégrer l'occitan aranais grâce à un travail du Congrès, d'Elhuyar, de Col·lectivaT et de SoGeL.
Un premier moteur de reconnaissance vocale (occitan gascon et occitan languedocien) a été développé par le Congrès et Elhuyar dans le cadre du projet ReVoc, mais l'outil ne dispose pas encore d'une interface utilisateur. Le projet Linguatec AI a pour but d'y remmédier, et d'ajouter l'occitan aranais aux variétés prises en charge.
Il existe plusieurs correcteurs orthographiques pour l'occitan : le Dicodòc du Congrès (fait en partenariat avec Elhuyar), celui créé grâce à Dicollecte et l'Aranese spell checker sont les plus connus, mais il en existe d'autres. La plupart fonctionnent pour LibreOffice, Firefox, Chrome et Mozilla Thunderbird.
Les claviers prédictifs en occitan n'existent que pour Android (car le code source pour faire des claviers iPhone n'est pas public, contrairement à celui d'Android).Il n'existe pour le moment que le clavier Swiftkey et le GBoard de Google qui intègrent l'occitan, mais ils ne prennent pas en compte la variété et proposent essentiellement des mots languedociens.
CLLE a réalisé des modèles d'entraînement pour deux outils de reconnaissance de l'écriture (OCR) : Jochre e Tesseract. Quentin Pagès propose également des modèles pour Tesseract, PaddleOCR et EasyOCR.
De nombreux outils permettent de détecter la langue d'un texte écrit, et la plupart prennent en compte l'occitan. Pour ce qui est de la reconnaissance orale, il existe au moins un outil qui sait reconnaître l'occitan. Et pour différencier les variétés de l'occitan, il n'y a qu'un programme en développement.
CLLE a réalisé un tokenizer qu'elle a intégré dans son analyseur syntaxique Talismane. Il existe aussi le tokenizer octokenize et Lo Congrès est en train de construire le sien, qui sera accessible grâce à une API.