Corpus de la parole

Les corpus audio en occitan sont nombreux, notamment grâce aux nombreuses campagnes de collectage de la langue qui ont été menées par différents acteurs. Mais les corpus ayant une transcription écrite de leur contenu sont plus rares, et ceux dont la transcription est alignée le sont encore plus. Cependant, c'est en train de changer depuis quelques années.

On peut tout d'abord noter le gros chantier que Lo Congrès est en train de mener dans le cadre des projets ReVoc de reconnaissance vocale en occitan et Còrpus de constitution de corpus occitans multimodaux. Dans ce cadre, il est en train de construire un corpus audio transcrit et aligné pour les variétés gasconne et languedocienne qui compte plus de 250 heures d'audio alignées à leur transcription (1,5 millions de mots). Ce corpus sera constitué de ressources récoltées auprès de partenaires variés (éditeurs, médias, centres de formation, institutions...) et d'enregistrements audios faits par la communauté avec l'outil collaboratif créé pour l'occasion.

Mozilla Common Voice, le projet de base de données libre pour la reconnaissance de la parole, propose aussi d'enregistrer des phrases en occitan pour constituer un corpus audio aligné que chacun peut télécharger. Pour le moment, la variété n'y est pas prise en compte et il est dédié au seul occitan aranais, mais c'est quelque chose qui devrait arriver.

D'autres initiatives au contenu en accès libre peuvent également être signalées :

  • Le corpus OcOr, réalisé par Janice Carruthers et Marianne Vergez-Couret, a un objectif plus linguistique mais est formaté en XML
  • Lingua Libre, la médiathèque collaborative de Wikimedia France, contient les enregistrements de plus de 20 000 mots en occitan
  • Le programme Corpus de la parole du Ministère de la Culture et de la Communication, qui donne accès à des fonds sonores dans les langues de France, numérisés et transcrits
  • Audio-lingua, une base de données collaborative de fichiers audios authentiques développée par le CRDP de l'Académie de Versailles, avec des fichiers occitans
  • CoCoON, « COllections de COrpus Oraux Numériques », une plateforme technique qui accompagne les producteurs de ressources orales pour créer, structurer et archiver leurs corpus

⇒ Voir tous les corpus de la parole dans l'inventaire