Detector de lenga

Nombroses otisses permeton de detectar la lenga d'un tèxte escriut, e la màger part prenon en compte l'occitan. Per çò qu'es de la reconeissença orala, existís almens un otís que sap reconéisser l'occitan. E per diferenciar las varietats de l'occitan, i a sonque un programa en desvolopament.

Demest los detectors de lenga open source que sabon reconéisser l'occitan a l'escriut, LangID per Python es estat testat. Reconeis 90% dels tèxtes occitans que li son presentats e reconeis pas coma occitan de tèxtes que ne son pas.

D'autres detectors liures an l'occitan demest las lengas que reconeisson :

⇒ Véser la lista dins l'inventari

Per çò que pertòca la reconeissença orala, l'otís lang-id-voxlingua107-ecapa pren en compte l'occitan e a de resultats puslèu fisables. Facebook a el tanben desvolopat de modèles d'identificacion de lenga parlada, Fairseq MMS LID, que son disponible amb la MIT License.

Al nivèl de la diferenciacion entre las varietats de l'occitan, los otisses generals de deteccion de lengas (basats sus de N-gramas) foncionan pas, que las varietats son tròp pròchas entre elas. Cal doncas desvolopar de metòdes especifics. Eve Séguier es a ne desvolopar un, qu'es encara en òbras.