Dins lo domeni del TAL, i a mantun estandard internacional per etiquetar las categorias gramaticalas dels mots (Eagles, Grace...). Mas la màger part prenon pas en compte las especificitats pròprias a l'occitan, coma los enonciatius gascons. Lo Congrès a doncas desvolopat un jòc d'etiquetas de categorias gramaticalas adaptat a la lenga occitana, interoperable amb los estandards internacionals e los otisses TAL liures de dreches mai utilizats.
Aquel jòc d'etiqueta fonciona amb 3 nivèls :
- la categoria generala, que correspond al PoS (Part of Speech) que, en general un lema parteja amb sas formas flechidas : « Adj » per adjectiu, « Vèrb » per vèrbe...
- la categoria detalhada, que correspond al PoS + las informacions morfosintaxicas (genre, nombre, informacions de conjugason...) : « AdjMS » per adjectiu masculin singular, « VerbeIndPres1s » per vèrbe a la 1e persona del singular del present de l'indicatiu...
- dins d'autres lexics, mai que mai los a destinacion del machine learning, se pòt ajustar una etiqueta mai generala de familha gramaticala qu'amassa las categorias generalas qu'an un foncionament plan similar : « Det » amassa los determinants demostratius, exclamatius, indefinits, interrogatius, possessius, relatius e definits.
Lo jòc d'etiqueta foguèt bastit amb un nivèl de granularitat plan fin. Permet de distinguir, per exemple, un preadvèrbi coma « se » (que pòt pas èsser utilizat que davant un adjectiu o un advèrbi), d'un advèrbi coma « largament » (que pòt èstre utilizat sol). O encara lo pronom personal « nous » emplegat coma pronom tonic (« penser à nous ») o coma COD antepausat (« il nous regarde »).
Aquel nivèl de granularitat permet de far interoperables los lexics (que sián monolingües o bilingües) amb de còrpus etiquetats morfosintaxicament.
⇒ Veire lo document explicatiu
⇒ Teledescargar la lista de las categorias