avec Corpus de textes monolingues comme Sujet

  • Corpus du fonds Aran e l'UAB

    Textes en occitan aranais numérisés et disponibles à plusieurs formats (dont txt).

    occitan

    occitan aranais

    Corpus de textes monolingues

    ©

    Fichiers téléchargeables

    https://ddd.uab.cat/pub/honsaran/#1829

  • SoftwaresOccitanTranslations corpus

    Corpus bilingue, corpus bivariété et corpus monolingue générés automatiquement en alignant les traductions de nombreux logiciels open source.

    occitan, français, catalan, espagnol, autres

    occitan auvergnat, occitan gascon, occitan languedocien, occitan limousin, occitan vivaro

    Corpus parallèles, Corpus de textes monolingues, Corpus de textes bivariétés

    Lo Congrès

    CC-BY

    Fichiers téléchargeables

    https://zenodo.org/records/8411351#1814

  • Plaintext Wikipedia dump 2018

    Corpus des articles de nombreuses Wikipedia (dont l'occitane) en 2018 formatés en plein texte.

    occitan, autres

    Corpus de textes monolingues

    Rudolf Rosa

    CC-BY-SA

    Fichiers téléchargeables

    https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-2735#1809

  • Leipzig Corpora Collection

    Corpus tiré de Wikipèdia et du moissonnage de site web, que l'on peut télécharger ou explorer pour afficher les mots proches. L'occitan y est représenté.

    occitan, autres

    Corpus de textes monolingues

    Université de Leipzig

    CC-BY-NC

    Fichiers téléchargeables

    https://corpora.wortschatz-leipzig.de/#1808

  • OSCAR (Open Super-large Crawled Aggregated coRpus)

    Corpus moissonné sur le web pour de nombreuses langues, dont l'occitan.

    occitan, autres

    Corpus de textes monolingues

    Inria, PRAIRIE Institute

    CC0

    Fichiers téléchargeables

    https://oscar-project.org/#1806

  • OcWikiDisc

    Corpus généré à partir des pages de discussion de la Wikipèdia en occitan.

    occitan

    Corpus de textes monolingues

    Academy of Finland

    CC-BY-SA

    Fichiers téléchargeables

    https://zenodo.org/record/7079580#.Y2urH76ZNhF#1632

  • Còrpus, le multicorpus du Congrès

    Corpus monolingue, bilingue et audio constitué par le Congrès dans un but de réalisation d'outils TAL.

    occitan, catalan, espagnol, français, autres

    occitan languedocien, occitan auvergnat, occitan provençal, occitan limousin, occitan vivaro

    Corpus de textes monolingues, Corpus parallèles, Corpus de la parole

    Lo Congrès

    Licences variées

    Base de données interrogeable en ligne

    https://corpus.locongres.com/#1630

  • Mémoires de traduction

    Corpus de phrases tirées de traductions de logiciels en occitan.

    occitan

    occitan languedocien

    Corpus de textes monolingues

    Quentin Pagès

    CC-BY-SA

    Fichiers TMX

    https://www.mejans.fr/article/memoria-de-traduccion.html#1620

  • Sauvegardes de la Wikipèdia

    Version téléchargeable de l'encyclopédie libre et collaborative en occitan.

    occitan

    occitan auvergnat, occitan languedocien, occitan provençal, occitan limousin, occitan vivaro

    Corpus de textes monolingues

    CC-BY-SA

    Dossier à télécharger avec des fichiers XML

    https://dumps.wikimedia.org/#1612

  • BaTelÒc

    Base textuelle occitane qualitative, avec une attention particulière portée à la diversité des genres et des variétés.

    occitan

    occitan languedocien, occitan auvergnat, occitan provençal, occitan limousin, occitan vivaro

    Corpus de textes monolingues

    CLLE

    © CLLE

    Base de données interrogeable en ligne

    http://redac.univ-tlse2.fr/bateloc/#1608


Résultats 1 - 10 de 10