Outillage des langues peu dotées

Les travaux réunis dans cette sous-thématique ont pour objectif d’outiller plusieurs langues peu dotées, dans une dynamique nationale et internationale (projets ANR et européens), partant du principe que chaque langue présente un intérêt sur le plan scientifique. Notre expérience en la matière s’appuie sur la construction de bases lexicales et textuelles et d’outils d’annotation des textes pour l’occitan et le serbe, et se nourrit de collaborations et de mutualisations avec des chercheurs travaillant sur d’autres langues peu dotées (alsacien, picard, poitevin-saintongeais, corse) ou sur des langues mieux dotées (français, catalan, polonais, anglais).

Il s’agit de créer des ressources lexicales et textuelles ainsi que des outils d’analyse automatique pour aider les linguistes qui cherchent à décrire ces langues, leur permettant ainsi de décupler l’accès à leurs objets scientifiques. Les ressources en question vont des lexiques informatiques (Loflòc) et des bases de données lexicales et syntaxiques (SyMila) aux corpus de textes, annotées avec des informations linguistiques qui seront autant de points d'entrée dans les données (catégories grammaticales des mots, informations sur le genre, le nombre, la personne, le temps, relations syntaxiques entre les mots, ou encore divers types d’informations sémantiques). Les lexiques et les corpus de textes – écrits ou oraux – ainsi enrichis, organisés en bases textuelles monolingues (BaTelÒc pour l’occitan) ou multilingues (ParCoLab, corpus parallèles en français, serbe, espagnol, occitan, anglais), sont des ressources précieuses pour les chercheurs en linguistique descriptive, en linguistique théorique, en linguistique contrastive, et en typologie.