Vous trouverez ici des informations sur les standards utilisés pour traiter les spécificités de l'occitan dans les domaines de l'informatique et du traitement automatique du langage. Il est primordial pour la langue que la communauté utilise les mêmes standards ou des standards interopérables. Cela permet la réutilisation du travail et donc la mutualisation des efforts.
Si vous connaissez des standards qui n'apparaissent pas ici, ou si vous avez des questions sur des données, des métadonnées... pour lesquelles il y aurait besoin de standardisation, vous pouvez échanger à ce sujet sur le Discord de La Farga.
Il existe des étiquettes officielles pour certaines variétés et sous-variétés de l'occitan parmi les étiquettes d'identification de langues IETF enregistrées par l'IANA. Elles permettent de différencier les variétés de l'occitan en informatique.
Dans le domaine du TAL, il existe plusieurs standards internationaux pour étiqueter les catégories grammaticales des mots (Eagles, Grace...). Mais la plupart des standards ne prennent pas en compte les spécificités propre à l'occitan, comme les énonciatifs gascons. Le Congrès a donc développé un jeu d'étiquettes de catégories grammaticales adapté à la langue occitane, interopérable avec les standards internationaux et les outils TAL libres de droits les plus utilisés.
Dans le cadre de ses projets Lexics et Còrpus, Le Congrès a défini des choix de DTD spécifiques pour l'utilisation de la norme TEI-P5 pour les lexiques et les corpus au format XML. Il propose un choix de balises, d'attributs, de valeurs et d'imbrications adaptés à la langue occitane.