Partager cette page

Outillage des langues peu dotées

Les travaux réunis dans cette sous-thématique ont pour objectif d’outiller plusieurs langues peu dotées, dans une dynamique nationale et internationale (projets ANR et européens), partant du principe que chaque langue présente un intérêt sur le plan scientifique. Notre expérience en la matière s’appuie sur la construction de bases lexicales et textuelles et d’outils d’annotation des textes pour l’occitan et le serbe, et se nourrit de collaborations et de mutualisations avec des chercheurs travaillant sur d’autres langues peu dotées (alsacien, picard, poitevin-saintongeais, corse) ou sur des langues mieux dotées (français, catalan, polonais, anglais).

Il s’agit de créer des ressources lexicales et textuelles ainsi que des outils d’analyse automatique pour aider les linguistes qui cherchent à décrire ces langues, leur permettant ainsi de décupler l’accès à leurs objets scientifiques. Les ressources en question vont des lexiques informatiques (Loflòc) et des bases de données lexicales et syntaxiques (SyMila) aux corpus de textes, annotées avec des informations linguistiques qui seront autant de points d'entrée dans les données (catégories grammaticales des mots, informations sur le genre, le nombre, la personne, le temps, relations syntaxiques entre les mots, ou encore divers types d’informations sémantiques). Les lexiques et les corpus de textes – écrits ou oraux – ainsi enrichis, organisés en bases textuelles monolingues (BaTelÒc pour l’occitan) ou multilingues (ParCoLab, corpus parallèles en français, serbe, espagnol, occitan, anglais), sont des ressources précieuses pour les chercheurs en linguistique descriptive, en linguistique théorique, en linguistique contrastive, et en typologie.

Participants : Xavier Bach, Myriam Bras, Anne Dagnac, Jean Sibille, Rafèu Sichel-Bazin, Dejan Stosic

Projets :

DiViTal : Accroître la vitalité et la visibilité numérique des langues de France : descriptions linguistiques et corpus annotés. Projet financé par l’Agence Nationale de la Recherche 2021-2024 (ANR-2021-CE27-0004). Responsable : Delphine Bernhard, Lilpa-Université de Strasbourg. Partenaires : CLLE-CNRS-UT2J, Forellis-Université de Poitiers, LISA-Université de Corte. Coordinatrice équipe CLLE : Myriam Bras.

LINGUATEC : Développement de la coopération transfrontalière et du transfert de connaissances en technologies du langage. Projet cofinancé par le Fonds Européen de Développement Régional (FEDER) 2018-2021 Intereg Poctefa EFA 227/16. Chef de file : Elhuyar Fundazioa. Partenaires : Gouvernement d'Aragon, Euskaltzaindia, IXA-Université du Pays Basque, Lo Congrès Permanent de la Lenga Occitana, CLLE-ERSS CNRS. Coordinatrice équipe CLLE : Myriam Bras

LINGUATEC-IA : Réseau transfrontalier de coopération technologique en intelligence artificielle appliquée aux langues pour la construction d´une infrastructure linguistique transpyrénéenne. Projet cofinancé par le Fonds Européen de Développement Régional (FEDER) 2024-2026 (Intereg Poctefa EFA 104/01). Chef de file : Elhuyar Fundazioa. Partenaires : Lo Congrès Permanent de la Lenga Occitana, Gouvernement d'Aragon, HITZ-EHU/Université du Pays Basque, CLLE Université Toulouse Jean Jaurès, IKER CNRS, Université Perpignan Via Domitia, Université de Lleida. Coordinatrice équipe CLLE : Myriam Bras

PREDICT : Petit dictionnaire raisonné des prépositions : français-serbe. Projet bilatéral franco-serbe du programme « Pavle Savic » de Campus France 2020-2021, cofinancé par le Ministère des affaires étrangères et européennes du Gouvernement français et le Ministère de l’Éducation, des Sciences et du Développement technologique de la République de Serbie. Partenaires: Laboratoire CLLE, Département d'études romanes de la Faculté de Philologie de l'Université de Belgrade. Coordinateur équipe CLLE : D. Stosic.