Lexique morphologique de 680 000 entrées avec leur lemme et leur PoS qui suit les préconisation de l'Universal Dependencies.
Langues:
occitan
Variantes:
occitan languedocien
Sujets:
Lexiques flexionnels
Auteurs
Marianne Vergez-Couret
Licence:
CC-BY
Formats:
Fichiers téléchargeables
Lien vers la ressource:
https://zenodo.org/records/10838802#1838
Corpus de textes manuscrits, imprimés et tapés à la machine avec leur transcription textuelle. Ces textes datent du 16e au 21e siècle et contiennent 118 000 lignes de textes en 7 langues.
Langues:
occitan, français, latin, italien, espagnol, autres
Variantes:
Sujets:
Corpus OCR
Auteurs
Alix Chagué
Licence:
CC-BY
Formats:
Fichiers téléchargeables
Lien vers la ressource:
https://zenodo.org/records/13788177#1837
Tokenizer en python développé pour prendre en compte les spécificités de l'occitan gascon et de l'occitan languedocien.
Langues:
occitan
Variantes:
occitan languedocien, occitan gascon
Sujets:
Tokenizers
Auteurs
Marianne Vergez-Couret
Licence:
CC-BY
Formats:
Fichiers téléchargeables
Lien vers la ressource:
https://zenodo.org/records/12515136#1835
Outil qui permet de traduire automatiquement un fichier .po entre le français et l'occitan en appelant l'API Revirada.
Langues:
occitan, français
Variantes:
occitan languedocien, occitan gascon
Sujets:
Outils pour webmasters
Auteurs
Lo Congrès
Formats:
Fichiers téléchargeables
Lien vers la ressource:
https://github.com/locongres/miscellaneous/blob/main/README.md#1833
Corpus audio aligné collaboratif créé dans le cadre de ReVoc, le projet de reconnaissance vocale occitane.
Langues:
occitan
Variantes:
occitan auvergnat, occitan gascon, occitan languedocien, occitan limousin, occitan provençal, occitan aranais, occitan nissard
Sujets:
Corpus de la parole
Auteurs
Lo Congrès
Licence:
CC-BY
Formats:
Fichiers téléchargeables
Lien vers la ressource:
https://zenodo.org/records/11566430#1832
Phrases alignées tirées des sites multilingues (français, occitan et parfois anglais) du Congrès
Langues:
occitan, français, anglais
Variantes:
occitan auvergnat, occitan gascon, occitan languedocien, occitan limousin, occitan provençal, occitan aranais, occitan cisalpin, occitan vivaro
Sujets:
Corpus parallèles
Auteurs
Lo Congrès
Licence:
CC-BY
Formats:
Fichiers téléchargeables
Lien vers la ressource:
https://zenodo.org/records/12192029#1831
Phrases alignées des corpus servant à entraîner le traducteur automatique MinT.
Langues:
occitan, français, catalan
Variantes:
Sujets:
Corpus parallèles
Auteurs
Wikimedia Foundation
Formats:
Fichiers téléchargeables
Lien vers la ressource:
https://dumps.wikimedia.org/other/contenttranslation/#1830
Textes en occitan aranais numérisés et disponibles à plusieurs formats (dont txt).
Langues:
occitan
Variantes:
occitan aranais
Sujets:
Corpus de textes monolingues
Auteurs
Licence:
©
Formats:
Fichiers téléchargeables
Lien vers la ressource:
https://ddd.uab.cat/pub/honsaran/#1829
Lexique multilingue de phrases de la vie de tous les jours.
Langues:
occitan, catalan, français, espagnol, autres
Variantes:
occitan aranais
Sujets:
Lexiques bilingues
Auteurs
Licence:
©
Formats:
Outil en ligne
Lien vers la ressource:
https://www.ub.edu/guia-conversa/index.php#1828
Dictionnaire en ligne avec 10 800 entrées, des définitions, des exemples et des synonymes.
Langues:
occitan
Variantes:
occitan aranais
Sujets:
Lexiques monolingues
Auteurs
Licence:
© Institut d'Estudis Aranesi
Formats:
Outil en ligne
Lien vers la ressource:
https://www.diccionari.cat/diccionari-der-aranes##1827
Conjugueur en ligne pour l'occitan aranais.
Langues:
occitan
Variantes:
occitan aranais
Sujets:
Lexiques flexionnels
Auteurs
Licence:
©
Formats:
Outil en ligne
Lien vers la ressource:
https://www.diccionariaranes.com/conjugador#1826
Corpus de 5 extraits de textes annotés manuellement avec les lemmes et les PoS, suivant la norme Grace.
Langues:
occitan
Variantes:
occitan languedocien, occitan gascon
Sujets:
Corpus textuels annotés
Auteurs
Marianne Vergez-Couret
Licence:
CC-BY
Formats:
Fichiers téléchargeables
Lien vers la ressource:
https://zenodo.org/records/1456564#1818
Traducteur automatique entraîné à partir du contenu des outils de Wikimedia, basé sur plusieurs modèles de langue.
Langues:
occitan, français, catalan, espagnol, autres
Variantes:
occitan languedocien
Sujets:
Traduction automatique, API (Application Programming Interface)
Auteurs
Wikimedia Foundation
Licence:
Copyright avec réutilisation autorisée
Formats:
Fichiers téléchargeables, service en ligne, API
Lien vers la ressource:
https://translate.wmcloud.org/html#1817
Corpus bilingue, corpus bivariété et corpus monolingue générés automatiquement en alignant les traductions de nombreux logiciels open source.
Langues:
occitan, français, catalan, espagnol, autres
Variantes:
occitan auvergnat, occitan gascon, occitan languedocien, occitan limousin, occitan vivaro
Sujets:
Corpus parallèles, Corpus de textes monolingues, Corpus de textes bivariétés
Auteurs
Lo Congrès
Licence:
CC-BY
Formats:
Fichiers téléchargeables
Lien vers la ressource:
https://zenodo.org/records/8411351#1814
Corpus au format csv, segmenté au niveau de la phrase, généré à partir des actualités publiées sur le site locongres.org.
Langues:
occitan, français
Variantes:
occitan auvergnat, occitan gascon, occitan languedocien, occitan limousin, occitan vivaro
Sujets:
Corpus parallèles
Auteurs
Lo Congrès
Licence:
CC-BY
Formats:
Fichiers téléchargeables
Lien vers la ressource:
https://zenodo.org/records/8411197#1813
Corpus textuel annoté morphosyntaxiquement et syntaxiquement pour plus de 100 langues, dont l'occitan.
Langues:
occitan, autres
Variantes:
Sujets:
Corpus textuels annotés
Auteurs
Daniel Zeman et al.
Licence:
CC
Formats:
Fichiers téléchargeables
Lien vers la ressource:
https://universaldependencies.org/#1812
Corpus des articles de nombreuses Wikipedia (dont l'occitane) en 2018 formatés en plein texte.
Langues:
occitan, autres
Variantes:
Sujets:
Corpus de textes monolingues
Auteurs
Rudolf Rosa
Licence:
CC-BY-SA
Formats:
Fichiers téléchargeables
Lien vers la ressource:
https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-2735#1809
Corpus tiré de Wikipèdia et du moissonnage de site web, que l'on peut télécharger ou explorer pour afficher les mots proches. L'occitan y est représenté.
Langues:
occitan, autres
Variantes:
Sujets:
Corpus de textes monolingues
Auteurs
Université de Leipzig
Licence:
CC-BY-NC
Formats:
Fichiers téléchargeables
Lien vers la ressource:
https://corpora.wortschatz-leipzig.de/#1808
Corpus tiré de Wikipèdia, annoté en POS et lemmatisé.
Langues:
occitan
Variantes:
Sujets:
Corpus textuels annotés
Auteurs
Miletic, Aleksandra
Licence:
CC-BY
Formats:
Fichiers téléchargeables
Lien vers la ressource:
https://zenodo.org/record/7777340#1807
Corpus moissonné sur le web pour de nombreuses langues, dont l'occitan.
Langues:
occitan, autres
Variantes:
Sujets:
Corpus de textes monolingues
Auteurs
Inria, PRAIRIE Institute
Licence:
CC0
Formats:
Fichiers téléchargeables
Lien vers la ressource:
https://oscar-project.org/#1806