Corpus bilingue

Lo Congrès met à disposition trois corpus textuels bilingues et un corpus audio aligné qu'il a formatés dans le cadre de son projet Còrpus : l'un tiré des actualités de son site locongres.org, un tiré de tous les contenus de ses sites multilingues (interfaces et articles), un autre issu de la compilation de traductions de logiciels libres et enfin, les phrases enregistrées par des locuteurs variés sur la plateforme ReVoc.

Le premier, intitulé « Occitan Corpus from Lo Congrès news », contient des articles bilingues occitan-français alignés au niveau de la phrase, dans les six grandes variétés de l'occitan (occitan auvergnat, occitan gascon, occitan limousin, occitan languedocien, occitan provençal, occitan vivaro-alpin). Il contient quasiment 100 000 mots. Vous pouvez le télécharger sur Zenodo : https://zenodo.org/record/8411197.

Le second, intitulé « SoftwaresOccitanTranslations corpus », a été constitué à partir de la traduction d'une centaine de logiciels libres. Il propose des phrases occitanes (pour un total d'environ 450 000 mots) alignées avec leur traduction dans plus de 500 langues, un corpus bivariété constitué à partir des traductions du logiciel SPIP dans plusieurs variétés de l'occitan (5000 mots), ainsi qu'un corpus textuel monolingue qui contient seulement les phrases en occitan (450 000 mots). On peut le trouver à l'adresse https://zenodo.org/record/8411351.

Le troisième, intitulé « Lo Congrès websites Corpus », est compilé automatiquement à partir des différents sites du Congrès (locongres.org, dicodoc.eu, revirada.eu, votz.eu, lengasocietat.eu, lafarga.eu, ninon.eu, api.locongres.com, afichas.locongres.com, premsa.locongres.com e d'unes otisses privats). Il propose quasiment 20 000 phrases alignées occitan-français (en occitan aranais, auvergnat, cisalpin, gascon, limousin, languedocien, provençal et vivaro-alpin) et plus de 5 000 phrases alignées occitan-anglais (en occitan gascon et languedocien). On peut le télécharger à l'adresse https://zenodo.org/records/12192029.

Enfin, le « ReVoc Corpus » propose 40 000 phrases lues par des locuteurs variés, avec pour chacune sa transcription, la date d'enregistrement, la variété de l'occitan, l'âge et le genre du locuteur. La plupart des enregistrements sont en occitan gascon (hors aranais) et en languedocien, mais il y en a aussi en occitan aranais, auvergnat, limousin, provençal général et nissart, et vivaro-alpin. Ils ont été réalisés par des centaines de locuteurs différents et peuvent être utilisés, par exemple, pour entraîner des reconnaissances vocales. Ce corpus est lui aussi disponible sur Zenodo : https://zenodo.org/records/11566430.

Ces deux corpus sont distribués sous la licence Creative Commons Attribution (CC-BY). Leur formatage en CSV a été réalisé dans le cadre du projet Còrpus du Congrès, qui a pour but la constitution d'un ensemble de corpus pour le développement d'outils de traitement automatique du langage.