- Analyse morphosyntaxique (PoS-tagging)
- Analyse syntaxique (parsing)
- API (Application Programming Interface)
- Claviers prédictifs
- Corpus de la parole
- Corpus de textes bivariétés
- Corpus de textes monolingues
- Corpus multimédia et multimodaux
- Corpus OCR
- Corpus parallèles
- Corpus textuels annotés
- Correcteurs orthographiques
- Détecteurs de langue écrite
- Détecteurs de langue parlée
- Dispositions de claviers pour ordinateur
- Divers
- Entités nommées
- Grammaires et modèles de langue
- Lemmatisation
- Lexiques bilingues
- Lexiques d'informatique
- Lexiques flexionnels
- Lexiques monolingues
- Logiciels traduits
- Outils pour webmasters
- Reconnaissance de l'écriture (OCR)
- Reconnaissance vocale
- Ressources toponymiques
- Synthèse vocale
- Thesauri et ontologies
- Tokenizers
- Traduction automatique
-
Loflòc, lexique morphologique pour l'occitan
Lexique morphologique de 680 000 entrées avec leur lemme et leur PoS qui suit les préconisation de l'Universal Dependencies.
-
McCATMuS
Corpus de textes manuscrits, imprimés et tapés à la machine avec leur transcription textuelle. Ces textes datent du 16e au 21e siècle et contiennent 118 000 lignes de textes en 7 langues.
-
Tokenization for Occitan (python)
Tokenizer en python développé pour prendre en compte les spécificités de l'occitan gascon et de l'occitan languedocien.
-
translate_po_with_revirada.py
Outil qui permet de traduire automatiquement un fichier .po entre le français et l'occitan en appelant l'API Revirada.
-
ReVoc Corpus
Corpus audio aligné collaboratif créé dans le cadre de ReVoc, le projet de reconnaissance vocale occitane.
-
Lo Congrès websites Corpus
Phrases alignées tirées des sites multilingues (français, occitan et parfois anglais) du Congrès
-
Dumps du traducteur MinT
Phrases alignées des corpus servant à entraîner le traducteur automatique MinT.
-
Corpus du fonds Aran e l'UAB
Textes en occitan aranais numérisés et disponibles à plusieurs formats (dont txt).
-
Guies de conversa universitària
Lexique multilingue de phrases de la vie de tous les jours.
-
Diccionari der aranés
Dictionnaire en ligne avec 10 800 entrées, des définitions, des exemples et des synonymes.
-
Conjugador aranés
Conjugueur en ligne pour l'occitan aranais.
-
Corpus de contes traditionnels écrits occitans annotés avec PoS
Corpus de 5 extraits de textes annotés manuellement avec les lemmes et les PoS, suivant la norme Grace.
-
MinT
Traducteur automatique entraîné à partir du contenu des outils de Wikimedia, basé sur plusieurs modèles de langue.
-
SoftwaresOccitanTranslations corpus
Corpus bilingue, corpus bivariété et corpus monolingue générés automatiquement en alignant les traductions de nombreux logiciels open source.
-
Occitan Corpus from Lo Congrès news
Corpus au format csv, segmenté au niveau de la phrase, généré à partir des actualités publiées sur le site locongres.org.
-
Universal Dependencies treebank
Corpus textuel annoté morphosyntaxiquement et syntaxiquement pour plus de 100 langues, dont l'occitan.
-
Plaintext Wikipedia dump 2018
Corpus des articles de nombreuses Wikipedia (dont l'occitane) en 2018 formatés en plein texte.
-
Leipzig Corpora Collection
Corpus tiré de Wikipèdia et du moissonnage de site web, que l'on peut télécharger ou explorer pour afficher les mots proches. L'occitan y est représenté.
-
OcWikiAnnot: Annotated Wikipedia Corpus of Occitan
Corpus tiré de Wikipèdia, annoté en POS et lemmatisé.
-
OSCAR (Open Super-large Crawled Aggregated coRpus)
Corpus moissonné sur le web pour de nombreuses langues, dont l'occitan.