Còrpus

D'estructuras que fargan de còrpus pel tractament automatic del lengatge, coma Lo Congrès o CLLE, an totjorn besonh de matèria occitana que pòsca enriquesir lors còrpus. Los contenguts pòdon èstre de tota mena, se son numerizats. Son primordials per bastir d'otisses coma la reconeissença vocala, la traduccion automatica, la deteccion de varietat...

Pels còrpus monolingües, se pòdon balhar de contenguts de sites web e blògs, lo tèxte d'un libre (format doc, odt, docx, txt), de compte-renduts, de dossièrs de premsa, d'actualitats o d'articles de premsa... Aqueles contenguts seràn encara mai interessants s'an de traduccions dins d'autras lengas, que permetràn d'enriquesir tanben los còrpus bilingües.

Pels còrpus de la paraula, son interessants las vidèos (sostitoladas o transcriutas quand es possible), los collectatges transcriuts, las emissions de ràdio (amb lor transcripcion s'es possible), los libres audios...

Cal saber que los còrpus de TAL son pas publics. Servisson a entraïnar una intelligéncia artificiala, mas fan pas partida de l'otís qu'es publicat al final. Lo material qu'es estat balhat demòra privat, degun o pòt pas recuperar per lo tornar utilizar d'una faiçon que fariá concurréncia als autors originals.

Se avètz aquela mena de material e que ne volriatz balhar de còpias per ajudar a bastir los otisses de TAL de deman, esitatz pas a nos contactar amb lo boton en bas d'aquesta pagina.