Los còrpus audio en occitan son nomboses, mai que mai mercé a las nombrosas campanhas de collectatge de la lenga que son estadas menadas per diferents actors. Mas los còrpus qu'an una transcripcion escriuta de lor contengut son mai rares, e los qu'an una transcripcion alinhada qu'o son encara mai. Çaquelà, aquò es a cambiar dempuèi qualques annadas.
Se pòt notar primièr lo trabalh bèl que Lo Congrès es a menar dins l'encastre dels projèctes ReVoc de reconeissença vocala en occitan e Còrpus de constitucion de còrpus occitans multimodals. Dins aquel encastre, es a bastir un còrpus audio transcriut e alinhat per las varietats gascona e lengadociana qu'a mai de 250 oras d'audio alinhadas a lor transcripcion (1,5 milions de mots). Aquel còrpus serà constituit de ressorsas amassadas al près de partenaris variats (editors, mèdias, centres de formacion, institucions...) e d'enregistraments audiòs faits per la comunautat amb l'otís collaboratiu creat per aquela escasença.
Mozilla Common Voice, lo projècte de basa de donadas liura per la reconeissença de la paraula, prepausa tanben d'enregistrar de frasas en occitan per constituïr un còrpus audio alinhat que cadun pòt teledescargar. Pel moment, la varietat i es pas presa en compte e es dedicat sonque a l'occitan aranés, mas es quicòm que deuriá arribar.
D'autras iniciativas amb lor contengut en liure accès se pòdon tanben signalar :
- Lo còrpus OcOr, realizat per Janice Carruthers e Marianne Vergez-Couret, qu'a un objectiu mai lingüistic qu'informatic mas qu'es formatat en XML
- Lingua Libre, la mediatèca collaborativa de Wikimedia France, qu'a los enregistraments de mai de 20 000 mots en occitan
- Lo programa Corpus de la parole del Ministèri de la Cultura e de la comunicacion, que dona l'accès a de fons sonòres dins las lengas de França, numerizats e transcriuts
- Audio-lingua, una basa de donadas collaborativa de fichièrs audiòs autentics desvolopada pel CRDP de l'Acadèmia de Versailles, amb de fichièrs occitans
- CoCoON, « COllections de COrpus Oraux Numériques », una plataforma tecnica qu'acompanha los productors de ressorsas oralas per crear, estructurar e archivar lors còrpus