Còrpus

ressources
corpus bilingue
corpus
Congrès
corpus de la parole
corpus monolingue

Le projet Còrpus du Congrès a pour but la constitution d'un ensemble de corpus pour le développement d'outils de traitement automatique du langage. Il a un double objectif de quantité (pour pouvoir entraîner des intelligences artificielles) et de représentativité de la diversité de l'espace linguistique occitan.

Il est le fruit d'un partenariat avec plusieurs structures occitanes (associations, collectivités, institutions...) de tout le territoire. À l'heure actuelle, il contient :

Un corpus monolingue de plus de 8,5 millions de mots
Un corpus parallèle occitan-français de plus d'un million de mots
Des petits corpus parallèles de l'occitan vers d'autres langues, pour un total de plus de 300 000 mots
Un corpus audio aligné de plus de 250 heures pour presque 1,5 million de mots

⇒ En savoir plus sur le projet Còrpus

Les grands projets

Còrpus