Détection de langue (et de variété)

De nombreux outils permettent de détecter la langue d'un texte écrit, et la plupart prennent en compte l'occitan. Pour ce qui est de la reconnaissance orale, il existe au moins un outil qui sait reconnaître l'occitan. Et pour différencier les variétés de l'occitan, il n'y a qu'un programme en développement.

Parmi les détecteurs de langue open source qui savent reconnaître l'occitan à l'écrit, LangID pour Python a été testé, il reconnaît 90% des textes occitans qui lui sont présentés et ne reconnaît pas comme occitan des textes qui n'en sont pas.

D'autres détecteurs libres comptent l'occitan parmi les langues qu'ils reconnaissent :

⇒ Voir la liste dans l'inventaire

Pour ce qui est de la reconnaissance orale, l'outil lang-id-voxlingua107-ecapa prend en compte l'occitan et a des résultats plutôt fiables. Facebook a lui aussi développé des modèles d'identification de langue parlée, Fairseq MMS LID, qui sont disponible sous la MIT License.

Au niveau de la différenciation entre les variétés de l'occitan, les outils généraux de détection de langues (basés sur des N-grammes) ne fonctionnent pas, car les variétés sont trop proches entre elles. Il faut donc développer des méthodes spécifiques. Ève Séguier est en train d'en développer une, qui est encore en travaux.

Etat des lieux

Détection de langue (et de variété)