Lo TAL (tractament automatic del lengatge) e las tecnologias de la lenga en occitan an conegut d'avançadas màgers aquestas darrièras annadas. La fuèlha de rota pel desvolopament del numeric occitan, en 2014, aviá fixat d'objectius que la màger part son estats completats. L'occitan a uèi un bon nombre d'otisses de tractament automatic del lengatge, mas de trabalh demòra encara a far.
Vos prepausam aquí un estat dels luòcs, otís per otís e ressorsa per ressorsa, de çò qu'existís per l'occitan, de çò que demòra a bastir e de las ressorsas qu'existisson per çò far.
Avèm ensajat d'èstre exaustius, mas se avètz coneissença d'una informacion que nos a escapat, esitatz pas a nos contactar mercés al boton en bas de pagina.
Los traductors automatic Apertium e Revirada (Lo Congrès) intègran totes dos d'analisators morfosintaxics / lematizaires. N'i a tanben un dins l'analisator sintaxic Talismane de CLLE.
Lo sol analisator sintaxic per l'occitan es Talismane, desvolopat per CLLE. Mas an tanben creat un còrpus annotat liure, lo Linguatec Tolosa Treebank, que poirà servir de basa a la creacion d'autres otisses.
Demest los lexics flexionals de l'occitan, podèm notar los del traductor automatic Apertium, los fargats dins l'encastre del projècte Lexics del Congrès, lo diccionari collaboratiu Dicollecte, lo conjugador de Verbix e lo de Per Noste. De notar tanben lo lexic Loflòc en trabalh, una òbra de CLLE e del Congrès.
Los sols lexics bilingües liures formatats pel tractament automatic de la lenga son los del traductor automatic liure Apertium. N'existisson pels parelhs occitan-francés, occitan-catalan e occitan-castelhan.
La quantitat de tèxtes occitans produsits cada annada es pas negligible. Pasmens, existisson pas fòrça còrpus monolingües estructurats, en particular al nivèl de l'etiquetatge de la varietat o de l'etiquetatge morfosintaxic e sintaxic.
Se existís un grand nombre de contenguts occitans revirats en francés (sites web, libres, documents oficials o de comunicacion...), los còrpus parallèles alinhats demòron rares. Se pòdon notar doas iniciativas qu'an per mira d'i remediar : lo projècte ParCoLaF del laboratòri CLLE e lo projècte Còrpus del Congrès.
Los còrpus audio en occitan son nomboses, mai que mai mercé a las nombrosas campanhas de collectatge de la lenga que son estadas menadas per diferents actors. Mas los còrpus qu'an una transcripcion escriuta de lor contengut son mai rares, e los qu'an una transcripcion alinhada qu'o son encara mai. Çaquelà, aquò es a cambiar dempuèi qualques annadas.
La sola basa de coneissença sus la quala l'occitan se pòt apuejar pel moment es Wikidata, la basa de coneissença liura e collaborativa de la fondacion Wikimedia. Compta quasi 100 milions de concèptes e aqueles pòdon aver de labèls en occitan.