Corpus monolingues

La quantité de textes occitans produits chaque année n'est pas négligeable. Cependant, il n'existe pas beaucoup de corpus monolingues structurés, en particulier au niveau de l'étiquetage de la variété ou de l'étiquetage morphosyntaxique et syntaxique.

La base textuelle BaTelÒc, développée par CLLE, est un corpus qualitatif qui rassemble des œuvres écrites de plusieurs genres du XIXe siècle à nos jours. Il contient presque une centaine de textes pour un total de 3,37 millions de mots, parmi lesquels quasiment toutes les variétés sont représentées.

Le projet Còrpus du Congrès, lui, est un corpus quantitatif qui rassemble plus de 8,5 millions de mots dans toutes les variétés de l'occitan.

Parmi les corpus annotés, on compte :

  • Le Linguatec Tolosa Treebank, qui est un corpus d'une vingtaine de textes annotés syntaxiquement avec les dépendances
  • Le corpus annoté développé dans le cadre du projet Restaure, qui contient une trentaine de textes étiquetés morphosyntaxiquement
  • OcOr, un corpus d'une quinzaine de contes dont les verbes sont étiquetés avec leur temps, leur mode et leur personne, et sa version avec cinq textes annotés morphosyntaxiquement

En plus de ces corpus constitués, il existe des bases de textes sous licence libre, comme la Wikipèdia occitane, OcWikiDisc, les Mémoires de traduction du site mejan.fr ou le Jornalet, qui peuvent être utilisées pour le traitement automatique du langage.

Enfin, on peut noter le Corpus linguistique du gascon ancien qui permet de télécharger une base de données de textes datés d'avant 1500.

⇒ Voir tous les corpus monolingues dans l'inventaire