- Analyse morphosyntaxique (PoS-tagging)
- Analyse syntaxique (parsing)
- API (Application Programming Interface)
- Claviers prédictifs
- Corpus de la parole
- Corpus de textes bivariétés
- Corpus de textes monolingues
- Corpus multimédia et multimodaux
- Corpus OCR
- Corpus parallèles
- Corpus textuels annotés
- Correcteurs orthographiques
- Détecteurs de langue écrite
- Détecteurs de langue parlée
- Dispositions de claviers pour ordinateur
- Divers
- Entités nommées
- Grammaires et modèles de langue
- Lemmatisation
- Lexiques bilingues
- Lexiques d'informatique
- Lexiques flexionnels
- Lexiques monolingues
- Logiciels traduits
- Outils pour webmasters
- Reconnaissance de l'écriture (OCR)
- Reconnaissance vocale
- Ressources toponymiques
- Synthèse vocale
- Thesauri et ontologies
- Tokenizers
- Traduction automatique
-
Loflòc, lexique morphologique pour l'occitan
Lexique morphologique de 680 000 entrées avec leur lemme et leur PoS qui suit les préconisation de l'Universal Dependencies.
-
McCATMuS
Corpus de textes manuscrits, imprimés et tapés à la machine avec leur transcription textuelle. Ces textes datent du 16e au 21e siècle et contiennent 118 000 lignes de textes en 7 langues.
-
AlpiLinK Corpus
Corpus de langue parlée basé sur des données linguistiques crowdsourcées composées d'enregistrements audios et d'un peu de réponses écrites ou à des QCM. Il comprend les langues parlées à travers les régions alpines d'Italie.
-
Tokenization for Occitan (python)
Tokenizer en python développé pour prendre en compte les spécificités de l'occitan gascon et de l'occitan languedocien.
-
translate_po_with_revirada.py
Outil qui permet de traduire automatiquement un fichier .po entre le français et l'occitan en appelant l'API Revirada.
-
ReVoc Corpus
Corpus audio aligné collaboratif créé dans le cadre de ReVoc, le projet de reconnaissance vocale occitane.
-
Lo Congrès websites Corpus
Phrases alignées tirées des sites multilingues (français, occitan et parfois anglais) du Congrès
-
Dumps du traducteur MinT
Phrases alignées des corpus servant à entraîner le traducteur automatique MinT.
-
Corpus du fonds Aran e l'UAB
Textes en occitan aranais numérisés et disponibles à plusieurs formats (dont txt).
-
Guies de conversa universitària
Lexique multilingue de phrases de la vie de tous les jours.
-
Diccionari der aranés
Dictionnaire en ligne avec 10 800 entrées, des définitions, des exemples et des synonymes.
-
Conjugador aranés
Conjugueur en ligne pour l'occitan aranais.
-
Cercador
Lexique monolingue en ligne avec possibilité de recherche avancée.
-
WikiAnn
Extraction d'entités nommées depuis Wikipédia
-
Wili 2018
Données de langues extraites de Wikipédia pour l'entraînement de détecteurs de langue.
-
HeLI off-the-shelf language identifier
Détecteur de langues pour Java.
-
FasText Common Crawl & Wikipedia word vectors
Vecteurs de mots réalisés à partir de corpus open source pour de nombreuses langues, dont l'occitan.
-
Yali
Détecteur de langue perl fonctionnant pour plus de 120 langues, dont l'occitan.
-
HelsinkiNLP - OPUS-MT
Modèles préentraînés de traduction automatique multilingue (réseaux de neurones) pour de nombreuses langues romanes et l'anglais.
-
Corpus de contes traditionnels écrits occitans annotés avec PoS
Corpus de 5 extraits de textes annotés manuellement avec les lemmes et les PoS, suivant la norme Grace.