Don de corpus

Lo Congrès lance un appel à corpus, surtout pour les variétés aranaise, auvergnate, limousine, provençale et vivaro-alpine de l'occitan. Si vous avez des textes, de la matière audio (transcrite ou non), des vidéos en occitan et que vous êtes propriétaire des droits, vous pouvez les lui donner. Cela servira à entraîner des intelligences artificielles pour des outils comme la reconnaissance vocale.

Le Congrès a construit un outil de reconnaissance vocale (qui passe la voix en écrit) pour l'occitan languedocien et l'occitan gascon, et il a ouvert le chantier pour l'occitan aranais. Il a aussi pour projet de développer un outil qui reconnaît automatiquement la variété d'un texte occitan. Cet outil permettrait d'élargir les corpus à partir de sources où les variétés sont mélangées, comme la Wikipèdia. Il souhaite aussi essayer la traduction automatique via les réseaux de neurones.

Pour faire tout cela, il faut une grande quantité de données, autant textuelles qu'audio. Grâce à des financements eurorégionaux, régionaux et départementaux, une belle quantité de matière a été amassée pour l'occitan gascon et languedocien. Mais il manque des données pour les autres variétés.

Pour lancer les chantiers qui pourraient ouvrir les outils déjà développés à l'occitan aranais, auvergnat, limousin, provençal et vivaroalpin, le Congrès lance un appel à corpus. Si vous êtes propriétaire des droits de quelque matière que ça soit, vous pouvez la donner. Pour ce qui est des données textuelles, il peut s'agir du contenu de sites webs et de blogs, des textes de livres (notamment au format doc, odt, docx ou txt), des compte-rendus, des dossiers de presse, des actualités ou des articles de presse. Concernant les données multimédia, sont intéressants les vidéos (sous-titrées ou transcrites quand c'est possible), les collectages transcrits, les émissions radio (avec leur transcription si elle existe), les livres audios...

À noter que tout ce contenu ne sera pas diffusé. Il sert à entraîner des intelligences artificielles, mais il ne fait pas partie de l'outil qui est publié au final. Le matériel qui a été donné reste privé, personne ne peut le récupérer pour le réutiliser, l'auteur original ne risque aucune concurrence.

Si vous avez ce type de contenu et que vous souhaitez le donner au Congrès pour l'aider à développer des outils pour toutes les variétés de l'occitan, vous pouvez écrire à ou téléphoner au 05 32 00 00 64.