Lexique morphologique de 680 000 entrées avec leur lemme et leur PoS qui suit les préconisation de l'Universal Dependencies.
Lengas:
occitan
Variantas:
occitan languedocien
Subjèctes:
Lexiques flexionnels
Authors:
Marianne Vergez-Couret
Licéncia:
CC-BY
Formats:
Fichiers téléchargeables
Ligam cap a la ressorsa:
https://zenodo.org/records/10838802#1838
Corpus de textes manuscrits, imprimés et tapés à la machine avec leur transcription textuelle. Ces textes datent du 16e au 21e siècle et contiennent 118 000 lignes de textes en 7 langues.
Lengas:
occitan, français, latin, italien, espagnol, autres
Variantas:
Subjèctes:
Corpus OCR
Authors:
Alix Chagué
Licéncia:
CC-BY
Formats:
Fichiers téléchargeables
Ligam cap a la ressorsa:
https://zenodo.org/records/13788177#1837
Tokenizer en python développé pour prendre en compte les spécificités de l'occitan gascon et de l'occitan languedocien.
Lengas:
occitan
Variantas:
occitan languedocien, occitan gascon
Subjèctes:
Tokenizers
Authors:
Marianne Vergez-Couret
Licéncia:
CC-BY
Formats:
Fichiers téléchargeables
Ligam cap a la ressorsa:
https://zenodo.org/records/12515136#1835
Outil qui permet de traduire automatiquement un fichier .po entre le français et l'occitan en appelant l'API Revirada.
Lengas:
occitan, français
Variantas:
occitan languedocien, occitan gascon
Subjèctes:
Outils pour webmasters
Authors:
Lo Congrès
Formats:
Fichiers téléchargeables
Ligam cap a la ressorsa:
https://github.com/locongres/miscellaneous/blob/main/README.md#1833
Corpus audio aligné collaboratif créé dans le cadre de ReVoc, le projet de reconnaissance vocale occitane.
Lengas:
occitan
Variantas:
occitan auvergnat, occitan gascon, occitan languedocien, occitan limousin, occitan provençal, occitan aranais, occitan nissard
Subjèctes:
Corpus de la parole
Authors:
Lo Congrès
Licéncia:
CC-BY
Formats:
Fichiers téléchargeables
Ligam cap a la ressorsa:
https://zenodo.org/records/11566430#1832
Phrases alignées tirées des sites multilingues (français, occitan et parfois anglais) du Congrès
Lengas:
occitan, français, anglais
Variantas:
occitan auvergnat, occitan gascon, occitan languedocien, occitan limousin, occitan provençal, occitan aranais, occitan cisalpin, occitan vivaro
Subjèctes:
Corpus parallèles
Authors:
Lo Congrès
Licéncia:
CC-BY
Formats:
Fichiers téléchargeables
Ligam cap a la ressorsa:
https://zenodo.org/records/12192029#1831
Phrases alignées des corpus servant à entraîner le traducteur automatique MinT.
Lengas:
occitan, français, catalan
Variantas:
Subjèctes:
Corpus parallèles
Authors:
Wikimedia Foundation
Formats:
Fichiers téléchargeables
Ligam cap a la ressorsa:
https://dumps.wikimedia.org/other/contenttranslation/#1830
Textes en occitan aranais numérisés et disponibles à plusieurs formats (dont txt).
Lengas:
occitan
Variantas:
occitan aranais
Subjèctes:
Corpus de textes monolingues
Authors:
Licéncia:
©
Formats:
Fichiers téléchargeables
Ligam cap a la ressorsa:
https://ddd.uab.cat/pub/honsaran/#1829
Lexique multilingue de phrases de la vie de tous les jours.
Lengas:
occitan, catalan, français, espagnol, autres
Variantas:
occitan aranais
Subjèctes:
Lexiques bilingues
Authors:
Licéncia:
©
Formats:
Outil en ligne
Ligam cap a la ressorsa:
https://www.ub.edu/guia-conversa/index.php#1828
Dictionnaire en ligne avec 10 800 entrées, des définitions, des exemples et des synonymes.
Lengas:
occitan
Variantas:
occitan aranais
Subjèctes:
Lexiques monolingues
Authors:
Licéncia:
© Institut d'Estudis Aranesi
Formats:
Outil en ligne
Ligam cap a la ressorsa:
https://www.diccionari.cat/diccionari-der-aranes##1827
Conjugueur en ligne pour l'occitan aranais.
Lengas:
occitan
Variantas:
occitan aranais
Subjèctes:
Lexiques flexionnels
Authors:
Licéncia:
©
Formats:
Outil en ligne
Ligam cap a la ressorsa:
https://www.diccionariaranes.com/conjugador#1826
Corpus de 5 extraits de textes annotés manuellement avec les lemmes et les PoS, suivant la norme Grace.
Lengas:
occitan
Variantas:
occitan languedocien, occitan gascon
Subjèctes:
Corpus textuels annotés
Authors:
Marianne Vergez-Couret
Licéncia:
CC-BY
Formats:
Fichiers téléchargeables
Ligam cap a la ressorsa:
https://zenodo.org/records/1456564#1818
Traducteur automatique entraîné à partir du contenu des outils de Wikimedia, basé sur plusieurs modèles de langue.
Lengas:
occitan, français, catalan, espagnol, autres
Variantas:
occitan languedocien
Subjèctes:
Traduction automatique, API (Application Programming Interface)
Authors:
Wikimedia Foundation
Licéncia:
Copyright avec réutilisation autorisée
Formats:
Fichiers téléchargeables, service en ligne, API
Ligam cap a la ressorsa:
https://translate.wmcloud.org/html#1817
Corpus bilingue, corpus bivariété et corpus monolingue générés automatiquement en alignant les traductions de nombreux logiciels open source.
Lengas:
occitan, français, catalan, espagnol, autres
Variantas:
occitan auvergnat, occitan gascon, occitan languedocien, occitan limousin, occitan vivaro
Subjèctes:
Corpus parallèles, Corpus de textes monolingues, Corpus de textes bivariétés
Authors:
Lo Congrès
Licéncia:
CC-BY
Formats:
Fichiers téléchargeables
Ligam cap a la ressorsa:
https://zenodo.org/records/8411351#1814
Corpus au format csv, segmenté au niveau de la phrase, généré à partir des actualités publiées sur le site locongres.org.
Lengas:
occitan, français
Variantas:
occitan auvergnat, occitan gascon, occitan languedocien, occitan limousin, occitan vivaro
Subjèctes:
Corpus parallèles
Authors:
Lo Congrès
Licéncia:
CC-BY
Formats:
Fichiers téléchargeables
Ligam cap a la ressorsa:
https://zenodo.org/records/8411197#1813
Corpus textuel annoté morphosyntaxiquement et syntaxiquement pour plus de 100 langues, dont l'occitan.
Lengas:
occitan, autres
Variantas:
Subjèctes:
Corpus textuels annotés
Authors:
Daniel Zeman et al.
Licéncia:
CC
Formats:
Fichiers téléchargeables
Ligam cap a la ressorsa:
https://universaldependencies.org/#1812
Corpus des articles de nombreuses Wikipedia (dont l'occitane) en 2018 formatés en plein texte.
Lengas:
occitan, autres
Variantas:
Subjèctes:
Corpus de textes monolingues
Authors:
Rudolf Rosa
Licéncia:
CC-BY-SA
Formats:
Fichiers téléchargeables
Ligam cap a la ressorsa:
https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-2735#1809
Corpus tiré de Wikipèdia et du moissonnage de site web, que l'on peut télécharger ou explorer pour afficher les mots proches. L'occitan y est représenté.
Lengas:
occitan, autres
Variantas:
Subjèctes:
Corpus de textes monolingues
Authors:
Université de Leipzig
Licéncia:
CC-BY-NC
Formats:
Fichiers téléchargeables
Ligam cap a la ressorsa:
https://corpora.wortschatz-leipzig.de/#1808
Corpus tiré de Wikipèdia, annoté en POS et lemmatisé.
Lengas:
occitan
Variantas:
Subjèctes:
Corpus textuels annotés
Authors:
Miletic, Aleksandra
Licéncia:
CC-BY
Formats:
Fichiers téléchargeables
Ligam cap a la ressorsa:
https://zenodo.org/record/7777340#1807
Corpus moissonné sur le web pour de nombreuses langues, dont l'occitan.
Lengas:
occitan, autres
Variantas:
Subjèctes:
Corpus de textes monolingues
Authors:
Inria, PRAIRIE Institute
Licéncia:
CC0
Formats:
Fichiers téléchargeables
Ligam cap a la ressorsa:
https://oscar-project.org/#1806