XML TEI-P5

Dans le cadre de ses projets Lexics et Còrpus, Le Congrès a défini des choix de DTD spécifiques pour l'utilisation de la norme TEI-P5 pour les lexiques et les corpus au format XML. Il propose un choix de balises, d'attributs, de valeurs et d'imbrications adaptés à la langue occitane.

Les possibilités qu'offre la norme TEI sont très larges et variées. Les préconisations de la Text Encoding Initiative laissent la place à l'interprétation pour pouvoir répondre à des besoins aussi différents que l'étiquetage de dictionnaires, la description de manuscrits, la transcription de l'oral ou l'annotation de corpus. Le Congrès a donc dû choisir quelles balises étaient adaptées au matériel qu'il voulait annoter (dictionnaires bilingues pensés pour l'édition papier, lexiques flexionnels pour la construction d'outils numériques, corpus textuels et audio...) et les spécificités de la langue occitane (gestion de la variété...).

En parallèle, il a fallu définir des standards d'étiquetage de plusieurs données, comme les informations d'usage, les zones géographiques ou les catégories grammaticales. Pour celles-ci, il fallait que le standard soit compatible aussi bien pour le français que pour l'occitan, et facilement convertible dans les différents jeux d'étiquettes utilisés dans le TAL (Eagles, Grace...).

Les standards définis sont décrits dans les documents suivants :