Le projet Còrpus du Congrès a pour but la constitution d'un ensemble de corpus pour le développement d'outils de traitement automatique du langage. Il a un double objectif de quantité (pour pouvoir entraîner des intelligences artificielles) et de représentativité de la diversité de l'espace linguistique occitan.
Il est le fruit d'un partenariat avec plusieurs structures occitanes (associations, collectivités, institutions...) de tout le territoire. À l'heure actuelle, il contient :
- Un corpus monolingue de plus de 8,5 millions de mots
- Un corpus parallèle occitan-français de plus d'un million de mots
- Des petits corpus parallèles de l'occitan vers d'autres langues, pour un total de plus de 300 000 mots
- Un corpus audio aligné de plus de 250 heures pour presque 1,5 million de mots
⇒ En savoir plus sur le projet Còrpus