Wikipèdia

Aleksandra Miletic et Yves Scherrer, du département des humanités numériques de l'Université d'Helsinki, viennent de mettre en ligne OcWikiDisc, un corpus monolingue occitan créé à partir des pages de discussion de la Wikipèdia. Il est sous licence CC-BY-SA.

Il contient les messages postés par les utilisateurs de l'encyclopédie occitane quand ils discutent à propos du contenu des pages de Wikipèdia, complétés avec les métadonnées. Les auteurs ont utilisé un outil de détection automatique de langue pour filtrer le contenu qui n'était pas en occitan.

Il existe 4 versions du corpus, dont la moins complète contient 8 000 messages de 520 utilisateurs correspondant à 618 000 tokens.

⇒ Télécharger OcWikiDisc