Callisto
Projets Ressources Communauté Contribuer

Sélectionnez votre langue

  • Français
  • Occitan
  • Accueil
  • A disposition
      • Back
      • La sélection de la Farga
      • API occitanes
      • Inventaire des ressources numériques
      • Nouveautés
      • Standards
      • Lexiques techniques
      • Tutoriels
  • Participez
      • Back
      • Pour commencer
      • Appels à contributions
      • J'ai un projet
      • Notices
      • Serveur Discord
  • La Farga numerica
      • Back
      • Présentation
      • Actualités
      • Notre discord
  • État des lieux
      • Back
      • Les grands domaines
      • Acteurs institutionnels
      • Les grands projets
      • Personnes ressources
      • Publications

Dernières nouvelles :
Jeudi 10 octobre a été officiellement inauguré le portail La Farga numerica.
Participez à la traduction en occitan de Minecraft, le jeu vidéo très apprécié par les adolescents.
Lo Congrès met à disposition trois corpus textuels bilingues et un corpus audio aligné.
Enregistrez des phrases en occitan aranais pour aider au développement de la reconnaissance vocale.
MinT, le traducteur automatique multilingue de la fondation Wikimedia, intègre l'occitan.
  1. A disposition
  2. Standards

Standards pour l'informatique occitane 

Vous trouverez ici des informations sur les standards utilisés pour traiter les spécificités de l'occitan dans les domaines de l'informatique et du traitement automatique du langage. Il est primordial pour la langue que la communauté utilise les mêmes standards ou des standards interopérables. Cela permet la réutilisation du travail et donc la mutualisation des efforts.

Si vous connaissez des standards qui n'apparaissent pas ici, ou si vous avez des questions sur des données, des métadonnées... pour lesquelles il y aurait besoin de standardisation, vous pouvez échanger à ce sujet sur le  Discord de La Farga.

Codes d'identification de variétés de l'occitan

Étiquettes d'identification de langues IETF

  • Congrès

Il existe des étiquettes officielles pour certaines variétés et sous-variétés de l'occitan parmi les étiquettes d'identification de langues IETF enregistrées par l'IANA. Elles permettent de différencier les variétés de l'occitan en informatique.

Lire la suite...

Étiquettes de catégories grammaticales

Étiquettes de catégories grammaticales (PoS)

  • corpus
  • lexiques
  • Congrès

Dans le domaine du TAL, il existe plusieurs standards internationaux pour étiqueter les catégories grammaticales des mots (Eagles, Grace...). Mais la plupart des standards ne prennent pas en compte les spécificités propre à l'occitan, comme les énonciatifs gascons. Le Congrès a donc développé un jeu d'étiquettes de catégories grammaticales adapté à la langue occitane, interopérable avec les standards internationaux et les outils TAL libres de droits les plus utilisés.

Lire la suite...

XML TEI-P5

Norme TEI adaptée aux lexiques et corpus occitans

  • lexiques
  • Congrès

Dans le cadre de ses projets Lexics et Còrpus, Le Congrès a défini des choix de DTD spécifiques pour l'utilisation de la norme TEI-P5 pour les lexiques et les corpus au format XML. Il propose un choix de balises, d'attributs, de valeurs et d'imbrications adaptés à la langue occitane.

Lire la suite...

Étiquettes de catégories grammaticales

Jeu d'étiquettes grammaticales pour le projet Restaure

  • analyse morpho-syntaxique
  • corpus
  • CLLE

Dans le cadre du projet Restaure, CLLE a publié un guide d'annotation de PoS pour la langue occitane. Dans celui-ci, elle propose un jeu d'étiquettes détaillé pour les catégories grammaticales des formes occitanes.

Lire la suite...

  • A propos de La Farga
  • Informations légales
  • Crédits
  • Droits d'utilisation
  • Données personnelles
  • Plan du site
  • Contact
© 2025 La Farga - Lo Congres

Ce projet est issu du projet Linguatec AI.
Développement des connaissances en intelligence artificielle pour la numérisation de l’aragonais, du catalan, du basque et de l’occitan.
Linguatec IA et CG64