Ací una bibliografia pertocant lo TAL occitan. Se vòl çò mai exaustiva possibla. Se coneissètz una publicacion qu'es pas dins la lista çai-jós, esitatz pas a la nos far conéisser (veire ligam « Contacte » en bas de pagina).
Séguier, A. (2024). Format TEI des lexiques du Congrès (V10).
Bach, X., Bras, M. (2024). « 20 Word classes in Occitan », in Manual of Romance Word Classes (p. 527).
Morcillo, I., Leturia, I., Corral, A., Sarasola, X., Barret, M., Séguier, A., & Dazéas, B. (2024). « Automatic Speech Recognition for Gascon and Languedocian Variants of Occitan «, In Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024) (pp. 1969-1978).
Bras, M., Vergez-Couret, M. (2024). « Traitement automatique de l'occitan », in Esher, L., Sibille, J. (éds) Manuel de linguistique occitane, Berlin : De Gruyter (pp. 543-561).
Bras, M., Vergez-Couret, M., Sibille, J. (2024). Corpus et bases de données, in Esher, L., Sibille, J. (éds) Manuel de linguistique occitane, Berlin : De Gruyter (pp. 523-542).
Bras, M. (2023). Nouvelles perspectives pour la linguistique occitane à partir de la base textuelle BaTelÒc, in Annie Rialland & Michela Russo (dir.) Les langues régionales de France : nouvelles approches, nouvelles méthodologies, revitalisation, Paris : Editions de la Société de Linguistique de Paris (pp. 121-142).
Arias, E., Pai, V., Schöffel, M., Heumann, C., & Aenmacher, M. (2023, December). Automatic Transcription of Handwritten Old Occitan Language. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing (pp. 15416-15439).
Genadot, A. (2023). Contributions à l’étude des processus markoviens déterministes par morceaux et de décision ainsi qu’à l’étude de l’enquête Bourciez (Doctoral dissertation, Université de Bordeaux).
González, A. O., Álvarez, S. (2023). Filtering and rescoring the CCMatrix corpus for Neural Machine Translation training. In Proceedings of the 24th Annual Conference of the European Association for Machine Translation.
Miletić, A. (2023). Outiller l'occitan: nouvelles ressources et lemmatisation. In 18e Conférence en Recherche d'Information et Applications\\16e Rencontres Jeunes Chercheurs en RI\\30e Conférence sur le Traitement Automatique des Langues Naturelles\\25e Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (pp. 217-231). ATALA.
Pratap, V., Tjandra, A., Shi, B., Tomasello, P., Babu, A., Kundu, S., ... & Auli, M. (2023). Scaling Speech Technology to 1,000+ Languages. arXiv preprint arXiv:2305.13516.
Alam, M. M. I., Ahmadi, S., & Anastasopoulos, A. (2023). CODET: A Benchmark for Contrastive Dialectal Evaluation of Machine Translation. arXiv preprint arXiv:2305.17267.
Miletić, A., Siewert, J. (2023). Lemmatization Experiments on Two Low-Resourced Languages: Low Saxon and Occitan. In Tenth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2023).
Blaschke, V., Schütze, H., Plank, B. (2023). Does Manipulating Tokenization Aid Cross-Lingual Transfer? A Study on POS Tagging for Non-Standardized Languages. arXiv preprint arXiv:2304.10158.
Miletić, A., & Scherrer, Y. (2022). OcWikiDisc: a Corpus of Wikipedia Talk Pages in Occitan. In Proceedings of the Ninth Workshop on NLP for Similar Languages, Varieties and Dialects.
Goel, S., Gracia, J., & Forcada, M. L. (2022). Bilingual dictionary generation and enrichment via graph exploration. In Semantic Web, (Preprint).
Costa-jussà, M. R., Cross, J., Çelebi, O., Elbayad, M., Heafield, K., Heffernan, K., ... & Wang, J. (2022). No language left behind: Scaling human-centered machine translation. arXiv preprint arXiv:2207.04672.
Chen, W. R., & Abdul-Mageed, M. (2021). Machine translation of low-resource indo-european languages.
Bras, M., Stosic, D.,Vergez-Couret, M., Bernhard, D., Miletic, A., Sibille, J. (2021). Outiller les langues régionales : expériences coopératives sur l'occitan et l'alsacien avec l'aide du français, de l'allemand, du serbe, du catalan..., Lettre de l’Institut des Sciences Humaines et Sociales du CNRS, n°69, 20-22, janvier 2021.
Bernhard, D., Ligozat, A.L., Bras, M., Martin, F., Vergez-Couret, M., Erhart, P., Sibille, J., Todirascu, A., Boula de Mareüil, P., Huck, D. (2021). Collecting and annotating corpora for three under-resourced languages of France: Methodological issues, Language Documentation & Conservation, 15, (pp. 316-357).
Bras, M., Miletic A., Vergez-Couret, M., Poujade, C., Sibille, J., Esher, L. (2021). Traitement automatique de l’occitan : construction des premiers corpus annotés, Workshop LINGUATEC : Ressources et outils pour le traitement automatique des langues des Pyrénées, en ligne, 12 mai.
Dazéas, B., & Séguier, A. (2021). Développement des ressources et outils TAL (Traitement automatique des langues) en occitan: réalisations du Congrès permanent de la langue occitane et applications possibles pour les parlers du Croissant. In Le Croissant linguistique: entre oc, oil et francoprovençal: Des mots à la grammaire, des parlers aux aires.
Khanna, T., Washington, J. N., Tyers, F. M., Bayatlı, S., Swanson, D. G., Pirinen, T. A., & Alòs i Font, H. (2021). Recent advances in Apertium, a free/open-source rule-based machine translation platform for low-resource languages.
Woller, L., Hangya, V., & Fraser, A. (2021). Do not neglect related languages: The case of low-resource Occitan cross-lingual word embeddings. In Proceedings of the 1st Workshop on Multilingual Representation Learning.
Bernhard, D., Ligozat, A.L, Bras, M., Martin, F., Vergez-Couret, M., Erhart, P., Sibille, J., Todirascu, A., Boula de Mareüil, P., & Huck, D. (2021). Collecting and annotating corpora for three under-resourced languages of France: Methodological issues. In Language Documentation & Conservation, 15.
Miletic, A., Bras, M., Vergez-Couret, M., Esher, L., Poujade, C., & Sibille, J. (2020). A Four-Dialect Treebank for Occitan: Building Process and Parsing Experiments. In Proceedings of the 7th VarDial Workshop on NLP for Similar Languages, Varieties and Dialects, Barcelona, Spain (Online), December 13, 2020.
Corral, A., Leturia, I., Séguier, A., Barret, M., Dazéas, B., de Mareüil, P. B., & Quint, N. (2020). Neural Text-to-Speech Synthesis for an Under-Resourced Language in a Diglossic Environment: the Case of Gascon Occitan. In Proceedings of the 1st Joint SLTU (Spoken Language Technologies for Under-resourced languages) and CCURL (Collaboration and Computing for Under-Resourced Languages) Workshop «Language Resources and Evaluation Conference–Marseille–11–16 May 2020». European Language Resources Association (ELRA).
Bernhard, D., Bras, M., Ligozat, A.L, Miletic, A., Sibille, J., Todirascu, A., & Vergez-Couret, M. (2020). L’avenir numérique des langues minoritaires : bilan du projet RESTAURE pour l’alsacien, l’occitan et le picard. In Langues minoritaires : quels acteurs pour quel avenir ?, LES CAHIERS DU GEPE, N°12/ 2020, Strasbourg : Presses universitaires de Strasbourg.
Bras, M., Vergez-Couret, M., Hathout, N., Sibille, J., Séguier, A., & Dazéas, B. (2020). Loflòc : Lexic obèrt flechit occitan, in Jean-François Courouau / David Fabié (éds), Fidelitats e dissidéncias. Actes del XIIn Congrès de l’Associacion internacionala d’estudis occitans. Actes du XIIe Congrès de l’Association internationales d’études occitanes. Albi 10-15/07/2017, Toulouse, SFAIEO, pp. 141-15.
Marcouyre, F. (2020). Creacion d'un conjugador en occitan gascon, in Jean-François Courouau / David Fabié (éds), Fidelitats e dissidéncias. Actes del XIIn Congrès de l’Associacion internacionala d’estudis occitans. Actes du XIIe Congrès de l’Association internationales d’études occitanes. Albi 10-15/07/2017, Toulouse, SFAIEO.
Séguier, A. (2020). Los diccionaris occitans al format TEI : realizacions e perspectivas, in Jean-François Courouau / David Fabié (éds), Fidelitats e dissidéncias. Actes del XIIn Congrès de l’Associacion internacionala d’estudis occitans. Actes du XIIe Congrès de l’Association internationales d’études occitanes. Albi 10-15/07/2017, Toulouse, SFAIEO.
Miletic, A., Bras, M., Vergez-Couret, M., Esher, L., Poujade, C., & Sibille, J. (2020). Building a Universal Dependencies Treebank for Occitan. In Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020).
Forcada, M. L. (2020). Building machine translation systems for minor languages: challenges and effects. Revista de Llengua i Dret, (73).
Aldabe Arregi, I., Aztiria, J., Beltrán, F., Bras, M., Ceberio Berger, K., Cortés Etxabe, I., ... & Sibille, J. (2019). LINGUATEC: Desarrollo de recursos lingüísticos para avanzar en la digitalización de las lenguas de los Pirineos.
Miletic, A., Bras, M., Esher, L., Sibille, J., & Vergez-Couret, M. (2019). Building a treebank for Occitan: what use for Romance UD Corpora?. In Gerdes, K., Kahane, S. (Eds.) Proceedings of the International Conference on Dependency Linguistics, SyntaxFest – Depling 2019, Paris, France.
Bernhard, D. (2019, November). Natural Language Processing for Regional Languages of France: Lessons Learned from the RESTAURE Project. In New Ways of Analyzing Dialectal Variation.
Caïti-Russo, G., Camps, J. B., Couffignal, G., Frontini, F., Lieutard, H., Reichle, E., & Selig, M. (2019). AcTo: How to Build a Network of Integrated Projects for Medieval Occitan. In Proceedings of the CLARIN Annual Conference 2019.
Camps, J. B., & Couffignal, G. G. (2019). Producing Corpora of Medieval and Premodern Occitan. arXiv preprint arXiv:1904.11815.
Magistry, P., Ligozat, A. L., & Rosset, S. (2019). Exploiting languages proximity for part-of-speech tagging of three French regional languages. In Language Resources and Evaluation, 53(4).
Bernhard, D., Bras, M., Erhart, P., Ligozat, A. L., & Vergez-Couret, M. (2019,). Language Technologies for Regional Languages of France: The RESTAURE Project. In International Conference Language Technologies for All (LT4All): Enabling Linguistic Diversity and Multilingualism Worldwide. European Language Resources Association (ELRA).
Vergez-Couret, M. (2019). Tokenization for occitan (gascon and lengadocian).
Miletic, A., Bernhard, D., Bras, M., Ligozat, A., & Vergez-Couret, M., (2019). Transformation d’annotations en parties du discours et lemmes vers le format Universal Dependencies : étude de cas pour l’alsacien et l’occitan. In Morin, E., Rosset, S., Zweigenbaum, P., Ligozat, A.L., Ghannay, S. (Eds.) Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN-RECITAL) 2019, Toulouse.
Bras, M. , & Vergez-Couret, M. (2019). Ressources et outils de traitement automatique pour la langue occitane. 36ème Romanistentag, Section "Reconstruction et renouveau des langues romanes régionales ou minoritaires à l’ère des Digital Humanities", Kassel, Allemagne, 29 septembre - 2 octobre 2019.
Stosic, D. (2018), ParCoLaF. Une plateforme de constitution et de diffusion de corpus parallèles pour les langues de France. Conférence « Langues et numérique 2018 », DGLFLF, Paris, La Villette (03 juillet 2018).
Bellandi, A., Giovannetti, E., & Weingart, A. (2018). Multilingual and multiword phenomena in a lemon old occitan medico-botanical lexicon. In Information, 9(3).
Bernhard, D., Ligozat, A.L., Martin, F., Bras, M., Magistry, P., Vergez-Couret, M., Steiblé, L., Erhart, P., Hathout, N., Huck, D., Rey, C., Reynés, P., Rosset, S., Sibille, J., & Lavergne, T. (2018). Corpora with Part-of-Speech Annotations for Three Regional Languages of France: Alsatian, Occitan and Picard. 11th edition of the Language Resources and Evaluation Conference, May 2018, Miyazaki, Japan.
Bras, M. (2018). Tractament automatic de l’occitan : qualques piadas en abans. Obrador de Linguistica Occitana 2018, Pau, 5-6 juillet 2018.
Bras, M., & Sibille, J. (2018). Le Traitement Automatique de l’Occitan : état de l’art et stratégies pour le futur. Vie et survie des langues minoritaires (occitan) : quelles stratégies dans une Europe en mouvement ? Quelles stratégies dans un univers mondialisé, numérisé et connecté ? Séminaire de travail IEO dans le cadre de l’ESOF 2018 (European scientific open forum), Jun 2018, Toulouse, France.
Vergez-Couret, M., Bernhard, D., Urielli, A., Bras, M., Erhart, P., & Huck, D., (2017). Numérisation et océrisation de textes pour les langues régionales : regards croisés sur l’occitan et l’alsacien. In Chevry Pébayle, E. (Ed.) Systèmes d’organisation des connaissances et humanités numériques. Actes du 10ème Colloque ISKO France 2015, (250-269), Londres, Royaume-Uni : STE Editions Ltd.
Camps, J. B., & Couffignal, G. G. (2017). La production de corpus d’occitan médiéval et prémoderne: problèmes et perspectives de travail. In Actes du XIIe Congrès de l’Association internationale d’études occitanes Albi, 2017.
Bras, M., Vergez-Couret, M., Hathout, N., Sibille, J., Séguier, A., Dazéas, B. (2017). Loflòc : Lexic obèrt flechit occitan. In Actes du XIIe Congrès de l’Association internationale d’études occitanes Albi, 2017.
Camps, J. B., & Couffignal, G. G. (2017). La production de corpus d'occitan médiéval et prémoderne. In Actes du XIIe Congrès de l’Association internationale d’études occitanes Albi, 2017.
Vergez-Couret, M. (2017). Constitution et annotation d’un corpus écrit de contes et récits en occitan. InP. Paroubek, & M. Vallette (Eds.), Analyses et méthodes formelles pour les humanités numériques, ISTE OpenScience, 1-1.
Oliviéri, M., Casagrande, S., Brun-Trigaud, G., & Georges, P. A. (2017). All about the Thesaurus Occitan. Revue francaise de linguistique appliquee, (1).
Scrivner, O., & Davis, J. (2017, January). Interactive Text Mining Suite: Data Visualization for Literary Studies. In CDH@ TLT.
Vergez-Couret, M., Bernhard, D., Urieli, A., Bras, M., Erhart, P., & Huck, D. (2017,). Océrisation de textes pour les langues régionales. In Systèmes d’organisation des connaissances et humanités numériques: Actes du 10ème colloque ISKO France 2015. ISTE Group.
(2016). Actes du colloque "Les Technologies pour les langues régionales de France" (Meudon, 19–20 février 2015). Paris: DGLFLF, Ministère de la Culture et de la Communication.
Vergez-Couret, M. (2016). Le projet ExpressioNarration : Constitution d'un corpus de contes en occitan, Journées d’étude Variété, Variation, Norme : Notation et Annotation de la variation des états de langues non standards, Université de Poitiers (France), 17-18 novembre.
Vergez-Couret, M. (2016). Le projet ExpressioNarration : Constitution d'un corpus de contes en occitan, Journées d’étude Variété, Variation, Norme : Notation et Annotation de la variation des états de langues non standards, Université de Poitiers (France), 17-18 novembre.
Bras, M. & Vergez-Couret, M. (2016). BaTelÒc: A text base for the Occitan language. in Vera Ferreira and Peter Bouda (eds.) Language Documentation and Conservation in Europe, Honolulu: University of Hawai'i Press, pp. 133-149.
Grouas, T., Mapelli, V., & Samier, Q. (2016). Review on the Existing Language Resources for Languages of France. In Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16).
Vergez-Couret, M. (2016). Description du lexique Loflòc (Doctoral dissertation, CLLE-ERSS).
Mercadier, G., & Séguier, A. (2015). Le numérique au service de la transmission de la langue occitane : situation et perspectives de développement. In Technologies pour les Langues Régionales de France (TLRF 2015). Ministère de la Culture et de la Communication-Délégation générale à la langue française et aux langues de France.
Bernhard, D., & Vergez-Couret, M. (2015,). Le projet RESTAURE. In Technologies pour les Langues Régionales de France (TLRF 2015). Ministère de la Culture et de la Communication-Délégation générale à la langue française et aux langues de France.
Georges, P. A. (2015). Traitement syntaxique pour l'occitan. In Technologies pour les Langues Régionales de France (TLRF 2015). Ministère de la Culture et de la Communication-Délégation générale à la langue française et aux langues de France.
Séguier, E. (2015). Reconnaissance automatique des dialectes occitans à l'écrit. Mémoire de Master.
Bras, M. Vergez-Couret, M. (2015). BaTelÒc : une base de textes pour la langue occitane, état des lieux et perspectives. Séminaire de l’ATILF, Nancy, 29 mai 2015.
Scrivner, O., & Kübler, S. (2015). Tools for digital humanities: Enabling access to the old occitan romance of flamenca. In Proceedings of the Fourth Workshop on Computational Linguistics for Literature.
Vergez-Couret, M., & Urieli, A. (2015). Analyse morphosyntaxique de l'occitan languedocien: l'amitie entre un petit languedocien et un gros catalan. In TALARE 2015.
Vergez-Couret, M., Bras, M. (2014). Annotation morphosyntaxique d'un corpus de textes occitans: l'expérience de BaTelÒc. XIè Congrès de l'Association Internationale d'Etudes Occitanes, Lhèida, Espagne, 16-21 juin 2014.
Vergez-Couret, M., & Urieli, A. (2014, August). Pos-tagging different varieties of Occitan with single-dialect resources. In Proceedings of the First Workshop on Applying NLP Tools to Similar Languages, Varieties and Dialects.
Leixa, J., Mapelli, V., & Choukri, K. (2014). Inventaire des ressources linguistiques des langues de France. ELDA.
Urieli, A., & Vergez-Couret, M. (2013). Jochre, océrisation par apprentissage automatique: étude comparée sur le yiddish et l’occitan. Actes de TALARE 2013: Traitement Automatique des Langues Régionales de France et d’Europe.
Vergez-Couret, M. (2013). Tagging occitan using french and castillan tree tagger. In Less Resourced Languages, new technologies, new challenges and opportunities.
Bras, M., Vergez-Couret, M., (2013). BaTelÒc: a Text Base for the Occitan Language. ELE'2013 : International Conference on Endangered Languages in Europe, Minde, Portugal, 17-18 octobre 2013.
Scrivner, O., Kübler, S., Vance, B., & Beuerlein, E. (2013). Le Roman de Flamenca: An annotated corpus of old occitan. In Proceedings of the Third Workshop on Annotation of Corpora for Research in Humanities.
Urieli, A. (2013). Robust French syntax analysis: reconciling statistical methods and linguistic knowledge in the Talismane toolkit (Doctoral dissertation, Université Toulouse le Mirail-Toulouse II).
Scrivner, O., & Kübler, S. (2012). Building an old Occitan corpus via cross-Language transfer. In KONVENS.
Bras, M., Vergez-Couret, M. (2012). Batelòc : une base informatisée de Textes en Langue Occitane, Journée d’étude Les petites langues à l’épreuve des bases informatisées, Université de Picardie (France), 7 décembre.
Scrivner, O. (2011). Multi-Level Corpus of Old Occitan.
Bras, M., Thomas, J. (2010). Bastison d'una basa de tèxtes informatisada per l'ensenhament e la recèrca en domèni occitan. Séminaire de recherche REDOC/ETOILL, Université Paul Valéry, Montpellier, 4 février 2010.
Bras, M., Thomas, J. (2008). Batelòc : cap a una basa informatisada de tèxtes occitans. IXème Congrès International de l'Association Internationale d'Etudes Occitanes, Aix-la-Chapelle 25-30 août 2008. Actes publiés en 2011 Angelica Rieger (ed.), Aachen : Shaker Verlag.
Martınez, F. S. (2008). Using unsupervised corpus-based methods to build rule-based machine translation systems.
Bras, M., Thomas, J. (2007). Diccionaris, corpora, e basas de donadas textualas. In Linguistica Occitana, 5.
Sanchez-Martinez, F., Armentano-Oller, C., Pérez-Ortiz, J. A., & Forcada, M. L. (2007). Training part-of-speech taggers to build machine translation systems for less-resourced language pairs. Procesamiento del Lenguaje natural, 39.
Bras, M. (2006). Le projet TELOC : construction d'une base textuelle occitane. In Langues et Cité : bulletin de l'observation des pratiques linguistiques, 8, Décembre 2006.
Forcada, M. L. (2006). Open source machine translation: an opportunity for minor languages. In Proceedings of the Workshop “Strategies for developing machine translation for minority languages”, LREC (Vol. 6).
Armentano-Oller, C., & Forcada, M. L. (2006). Open-source machine translation between small languages: Catalan and Aranese Occitan. In Strategies for developing machine translation for minority languages: 5th SALTMIL workshop on Minority Languages.
Fernandez, A., Vazquez, G., Saint-Dizier, P., Benamara, F., & Kamel, M. (2002). The VOLEM project: a framework for the construction of advanced multilingual lexicons. In Language Engineering Conference, 2002. Proceedings. IEEE.