La quantitat de tèxtes occitans produsits cada annada es pas negligible. Pasmens, existisson pas fòrça còrpus monolingües estructurats, en particular al nivèl de l'etiquetatge de la varietat o de l'etiquetatge morfosintaxic e sintaxic.
La basa textuala BaTelÒc, desvolopada per CLLE, es un còrpus qualitatiu qu'amassa d'òbras escrichas de mai d'un genre del sègle XIXen a l'ora d'ara. Conten quasi un centenat de tèxtes per un total de 3,37 milions de mots, demest los quals quasi totas las varietats son representadas.
Lo projècte Còrpus del Congrès, el, es un còrpus quantitatiu qu'amassa mai de 8,5 milions de mots dins totas las varietats de l'occitan.
Demest los còrpus annontats, i a :
- Lo Linguatec Tolosa Treebank, qu'es un còrpus d'un vintenat de tèxtes annotats sintaxicament amb las dependéncias
- Lo còrpus anotat desvolopat dins l'encastre del projècte Restaure, que conten un trentenat de tèxtes etiquetats morfosintaxicament
- OcOr, un còrpus d'un quineznat de contes qu'a los vèrbes etiquetats amb lor temps, lor mòde e lor persona, e sa version amb cinc tèxtes anotats morfosintaxicament
En mai d'aqueles còrpus constituits, existisson de basas de tèxtes en licéncia liura, coma la Wikipèdia occitana, OcWikiDisc, las Memòrias de traduccion del site mejan.fr o lo Jornalet, que pòdon èstre utilizadas pel tractament automatic del lengatge.
Enfin, se pòt notar lo Còrpus lingüistic del gascon ancian que permet de teledescargar una basa de donadas de tèxtes datats d'abans 1500.