Lo projècte Còrpus del Congrès a per tòca la constitucion d'un ensemble de còrpus pel desvolopament d'otisses de tractament automatic del lengatge. A un doble objectiu de quantitat (per poder entraïnar d'intelligéncias artificialas) e de representativitat de la diversitat de l'espaci lingüistic occitan.
Es la frucha d'un partenariat amb mantuna estructura occitanas (associacions, collectivitats, institucions...) de tot lo territòri. A l'ora d'ara, conten :
- Un còrpus monolingüe de mai de 8,5 milions de mots
- Un còrpus parallèle occitan-francés de mai d'un milion de mots
- De petits còrpus parallèles de l'occitan de cap a d'autras lengas, per un total de mai de 300 000 mots
- Un còrpus audio alinhat de mai de 250 oras per quasi 1,5 milion de mots
⇒ Ne saber mai sul projècte Còrpus