Corpus bilingues

S'il existe un grand nombre de contenus occitans traduits en français (sites web, livres, documents officiels ou de communication...), les corpus parallèles alignés restent rares. On peut noter deux initiatives qui ont pour but d'y remédier : le projet ParCoLaF du laboratoire CLLE et le projet Còrpus du Congrès.

ParCoLaF a pour objectif de développer une plateforme pour la constitution, la diffusion et l'interrogation de corpus parallèles avec des textes en français et en langues régionales de France, notamment l'occitan qui sert de langue pilote. On y trouve des textes occitans alignés avec leur traduction en français et/ou espagnol et/ou anglais.

Dans le cadre de la construction de son traducteur automatique Revirada et de son projet Còrpus, Le Congrès a constitué un corpus de textes parallèles alignés entre l'occitan et le français pour les variétés languedocienne et gasconne dans un premier temps, qui a été ensuite - et continuera ensuite à être - élargi à toutes les variétés.

On peut également trouver des corpus parallèles générés automatiquement ou semi-automatiquement, mis à dispositions par des organisations qui les ont constitués pour entraîner des réseaux de neurones.

⇒ Voir tous les corpus parallèles dans l'inventaire