Còrpus bilingües

Lo Congrès met a disposicion tres còrpus textuals bilingües e un còrpus audio alinhat qu'a formatats dins l'encastre de son projècte Còrpus : un tirat de las actualitats de son site locongres.org, un tirat de totes los contenguts de sos sites multilingües (interfàcia e articles), un autre eissit de la compilacion de traduccions de logicials liures e enfin, las frasas enregistradas per de locutors variats sus sa plataforma ReVoc.

Lo primièr còrpus bilingüe, titolat « Occitan Corpus from Lo Congrès news », conten d'articles bilingües occitan-francés alinhats al nivèl de la frasa, dins las sièis grandas varietats de l'occitan (occitan auvernhat, occitan gascon, occitan lemosin, occitan lengadocian, occitan provençal, occitan vivaroalpenc). Conten quasi 100 000 mots. Lo podètz teledescargar sus Zenodo : https://zenodo.org/record/8411197.

Lo segond, titolat « SoftwaresOccitanTranslations corpus », es estat fargat a partir de la traduccion d'un centenat de logicials liures. Prepausa de frasas occitanas (per un total de mai o mens 450 000 mots) alinhadas amb lor traduccion dins mai de 500 lengas, un còrpus bivarietat constituït a partir de las traduccions del logicial SPIP dins mantuna varietat de l'occitan (5000 mots), atal coma un còrpus textual monolingüe que conten sonque las frasas en occitan (450 000 mots). Se pòt trobar a l'adreça https://zenodo.org/record/8411351.

Lo tresen, titolat « Lo Congrès websites Corpus », es compilat automaticament a partir dels diferents sites del Congrès (locongres.org, dicodoc.eu, revirada.eu, votz.eu, lengasocietat.eu, lafarga.eu, ninon.eu, api.locongres.com, afichas.locongres.com, premsa.locongres.com e d'unes otisses privats). Prepausa quasi 20 000 frasas alinhadas occitan-francés (en occitan aranés, auvernhat, cisalpenc, gascon, lemosin, lengadocian, provençal e vivaroalpenc) e mai de 5 000 frasas alinhadas occitan-anglés (en occitan gascon e lengadocian). Se pòt teledescargar a l'adreça https://zenodo.org/records/12192029.

Enfin lo « ReVoc Corpus » prepausa 40 000 frasas legidas per de locutors variats, amb per caduna sa transcripcion, la data d'enregistrament, la varietat de l'occitan, l'edat del locutor e son genre. La màger part dels enregistraments son en occitan gascon (fòra aranés) e lengadocian, mas n'i a tanben en occitan aranés, auvernhat, lemosin, provençal general e niçard, e vivaroalpenc. Son estats realizats per de centenats de locutors diferents e pòdon èstre utilizats, per exemple, per entraïnar de reconeissenças vocalas. Aquel còrpus es tanben disponible sus Zenodo : https://zenodo.org/records/11566430.

Aqueles quatre còrpus son distribuïts amb la licéncia Creative Commons Attribution (CC-BY). Lor formatatge en CSV foguèt fait dins l'encastre del projècte Còrpus del Congrès, qu'a per tòca la constitucion d'un ensemble de còrpus pel desvolopament d'otisses de tractament automatic del lengatge.