Et plus tard...

La plupart des outils de base du traitement automatique du langage pour l'occitan sont construits ou sont sur le point de l'être. Les grands chantiers, pour l'avenir, sont de les améliorer, de les étendre à toutes les variétés, de les socialiser et de les utiliser dans de nouveaux outils, en les combinant ou en les enrichissant.

Combiner les outils

Par exemple, si on lie ensemble la reconnaissance vocale et la traduction automatique, on pourrait obtenir un logiciel de sous-titrage automatique (c'est un projet du Congrès). En y branchant, en plus, la synthèse vocale, on pourrait faire un traducteur simultané automatique. Pour ce faire, il faudra probablement améliorer la qualité de ces trois logiciels, car les erreurs sont exponentielles quand on branche un outil avec un autre.

Brancher un étiqueteur de variété de qualité avant un outil comme le traducteur automatique ou la synthèse vocale permettrait à ceux qui ne connaissent pas l'occitan, et qui ne sont pas capables d'indiquer la variété du contenu qu'ils veulent traduire ou synthétiser, d'utiliser ces outils de manière plus efficace.

Ajouter une étape d'analyse morphosyntaxique avant la synthétisation de mots permettrait de mieux gérer certaines exceptions de prononciation, et ajouter un correcteur ortografique avant un traducteur aiderait à mieux traduire des textes contenant des fautes.

Utiliser les outils pour la socialisation

Il faut aussi penser à sensibiliser la société civile à toute les manières qu'ont les outils de TAL déjà construits de rendre la langue plus visible. C'est le cas, par exemple, de l'utilisation des traducteurs automatiques pour afficher une version occitane d'un site web traduit « à la volée ». On peut imaginer des campagnes pour faire connaître cette possibilité aux entreprises et aux collectivités qui ne travaillent pas dans le domaine de l'occitan, mais qui sont sensibles à la langue et la culture.

En ce qui concerne la synthèse vocale, il y aurait plusieurs façons de l'utiliser pour assurer une meilleure visibilité de l'occitan : l'intégrer dans un GPS ou dans les transports publics, par exemple, en faisant en parallèle un travail autour de la toponymie et de la microtoponymie.

Il faut aussi créer davantage d'outils pour les développeurs (modules pour les sites web, API, bibliothèques pour des langages de programmation...) qui permettent de réutiliser plus facilement les outils TAL pour construire des applications et des sites web qui les utilisent. Par exemple, des modules qui traduisent automatiquement les articles de sites pour les principaux CMS, ou des extensions de navigateurs qui permettent à l'utilisateur d'entendre le contenu d'une page web occitane (comme le propose Votz).

Réutiliser les ressources...

Les corpus et les lexiques construits pour des outils de TAL ne doivent pas être limités à ce domaine. Maintenant qu'ils sont constitués, il y a plusieurs façons de les réutiliser. Des interfaces pour consulter les corpus sont très utiles aux linguistes. Les corpus parallèles peuvent alimenter des outils de mémoires de traductions (qui font gagner du temps aux traducteurs professionnels). Et les lexiques d'un traducteur automatique, enrichis pour que l'outil puisse suivre l'actualité, peuvent être en partie récupérés pour construire des lexiques thématiques.

... pour améliorer les outils et en créer de nouveaux

Souvent, dans le domaine du TAL, un type de ressource sert à construire plusieurs outils. Les lexiques monolingues construits pour un traducteur peuvent alimenter le dictionnaire d'un clavier prédictif ou celui d'un correcteur orthographique. Les enregistrements audios réalisés pour créer la synthèse vocale peuvent être intégrés au corpus de la parole d'une reconnaissance vocale. Cette mutualisation permet de gagner de plus en plus de temps à mesure qu'un grand nombre d'outils est déjà développé.

De plus, les outils déjà construits permettent de générer plus de ressources qui peuvent être réutilisées pour améliorer les outils existants. Par exemple, quand quelqu'un fait un sous-titrage automatique et le corrige, il crée du nouveau matériel de corpus audio aligné qui pourra entraîner une nouvelle version de la reconnaissance vocale. Un bon OCR permet d'avoir davantage de contenu occitan numérisé pour enrichir les corpus monolingues, qui peuvent aussi être augmentés en récupérant des textes soumis à un traducteur automatique ou une synthèse vocale. Récupérer les traductions de logiciels traduits permet d'enrichir les corpus parallèles. Plus les outils seront de qualité, plus ils seront utilisés et plus nous aurons de contenu pour les améliorer.

Le TAL de demain

En ce qui concerne le traitement automatique du langage, la plupart des outils qui étaient primordiaux pour la langue sont construits. Les outils de second niveau (génération de texte, chatBots, classification de documents, analyse de sentiments) ne sont pas forcément tous pertinents pour l'occitan, qui n'a pas les mêmes problématiques que les langues dotées. Certains outils très précieux pour les langues les plus répandues (comme l'analyse de l'opinion publique sur un homme politique, la recherche de produits proches de ceux que le client a déjà achetés, l'analyse d'un texte pour le classer dans le bon répertoire d'une entreprise, l'utilisation de chatBots à la place d'humains pour un service après-vente...) ne sont pas forcément des enjeux importants pour l'occitan.

Par contre, il a des défis propres pour lesquels le TAL peut apporter de précieuses ressources, comme dans le domaine de la formation ou de l'extraction terminologique (extraire automatiquement du vocabulaire spécifique à partir de corpus). La production de nouvelles ressources grâce aux outils déjà construits sera bien utile pour ces futurs développements.

Etat des lieux

Et plus tard...