Des structures qui construisent des corpus pour le traitement automatique du langage, comme Le Congrès ou CLLE, ont toujours besoin de matière occitane qui puisse enrichir leurs corpus. Les contenus peuvent être de toutes sortes, s'ils sont numérisés. Ils sont primordiaux pour construire des outils comme la reconnaissance vocale, la traduction automatique, la détection de variété...
Pour les corpus monolingues, on peut donner des contenus de sites webs et de blogs, le texte d'un livre (format doc, odt, docx, txt), des compte-rendus, des dossiers de presse, des actualités ou des articles de presse... Ces contenus seront encore plus intéressants s'ils ont des traductions dans d'autres langues, car ils permettront d'enrichir aussi les corpus bilingues.
Pour les corpus de la parole, ce qui est intéressant, ce sont les vidéos (sous-titrées ou transcrites quand c'est possible), les collectages transcrits, les émissions radio (avec leur transcription si c'est possible), les livres audios...
Il faut savoir que les corpus de TAL ne sont pas publics. Ils servent à entraîner une intelligence artificielle, mais ne font pas partie de l'outil qui est publié au final. Le matériel qui a été donné reste privé, personne ne peut le récupérer pour le réutiliser d'une façon qui ferait concurrence aux auteurs originaux.
Si vous possédez ce type de matériel et que vous voudriez en donner des copies pour aider à construire les outils de TAL de demain, n'hésitez pas à nous contacter avec le bouton en bas de cette page.