Còrpus

Lo projècte Còrpus del Congrès a per tòca la constitucion d'un ensemble de còrpus pel desvolopament d'otisses de tractament automatic del lengatge. A un doble objectiu de quantitat (per poder entraïnar d'intelligéncias artificialas) e de representativitat de la diversitat de l'espaci lingüistic occitan.

Es la frucha d'un partenariat amb mantuna estructura occitanas (associacions, collectivitats, institucions...) de tot lo territòri. A l'ora d'ara, conten :

  • Un còrpus monolingüe de mai de 8,5 milions de mots
  • Un còrpus parallèle occitan-francés de mai d'un milion de mots
  • De petits còrpus parallèles de l'occitan de cap a d'autras lengas, per un total de mai de 300 000 mots
  • Un còrpus audio alinhat de mai de 250 oras per quasi 1,5 milion de mots

⇒ Ne saber mai sul projècte Còrpus