Dans le domaine du TAL, il existe plusieurs standards internationaux pour étiqueter les catégories grammaticales des mots (Eagles, Grace...). Mais la plupart des standards ne prennent pas en compte les spécificités propre à l'occitan, comme les énonciatifs gascons. Le Congrès a donc développé un jeu d'étiquettes de catégories grammaticales adapté à la langue occitane, interopérable avec les standards internationaux et les outils TAL libres de droits les plus utilisés.
Ce jeu d'étiquette fonctionne avec 3 niveaux :
- la catégorie générale, correspondant au PoS (Part of Speech) que partagent en général un lemme et ses formes fléchies : « Adj » pour adjectif, « Verbe » pour verbe...
- la catégorie détaillée, correspondant au PoS + les informations morphosyntaxiques (genre, nombre, informations de conjugaison...) : « AdjMS » pour adjectif masculin singulier, « VerbeIndPres1s » pour verbe à la 1e personne du singulier du présent de l'indicatif...
- dans d'autres lexiques, notamment ceux à destination du machine learning, on peut ajouter une étiquette plus générale de famille grammaticale qui rassemble les catégories générales ayant un fonctionnement très similaire : « Det » rassemble les déterminants démonstratifs, exclamatifs, indéfinis, interrogatifs, possessifs, relatifs et définis.
Le jeu d'étiquette a été construit avec un niveau de granularité très fin. Il permet de distinguer, par exemple, un préadverbe comme « si » (qui ne peut être utilisé que devant un adjectif ou un adverbe), d'un adverbe comme « énormément » (qui peut être utilisé seul). Ou encore le pronom personnel « nos » (« nous ») employé comme pronom tonique (« penser à nous ») ou comme COD antéposé (« il nous regarde »).
Ce niveau de granularité permet de rendre interopérables les lexiques (qu'ils soient monolingues ou bilingues) avec des corpus étiquetés morphosyntaxiquement.
⇒ Voir le document explicatif
⇒ Télécharger la liste des catégories