Thèse METHENITI Eleni

28/06 - 13h30,  salle D29

Titre
Qu'est-ce que tu sais, BERT ? Explorer les compétences linguistiques des plongements lexicaux contextuels basés sur Transformers

Jury
Marie CANDITO, Maître de conférences, Université Paris Cité (rapporteur)
Lonneke VAN DER PLAS, Associate Professor, Idiap Research Institute (rapporteur)
Cécile FABRE, Professeure, Laboratoire Cognition, Langues, Langage et Ergonomie, Université de Toulouse 2 - Jean Jaurès (examinateur)
Olivier FERRET, Directeur de recherche, CEA LIST (examinateur)
Nabil HATHOUT, Directeur de recherche, Laboratoire Cognition, Langues, Langage et Ergonomie, CNRS (Directeur de thèse)
Tim VAN DE CRUYS, Associate Professor, KU Leuven (co Directeur de thèse)


Résumé
Les plongements lexicaux basés sur des Transformers, également connus comme modèles de langage grands, sont largement utilisés dans les applications NLP, surpassant les méthodes statistiques et celles fondées sur les réseaux neuronaux. Cependant, le succès quantitatif dans les tâches de TAL ne garantit pas une maîtrise complète du langage humain. Cette thèse étudie les capacités linguistiques et les limites des plongements lexicaux contextuels basés sur les Transformers, avec des expériences sur des phénomènes syntactico-sémantiques complexes. La question principale est la suivante: même si les plongements lexicaux peuvent capter suffisamment d'informations pour être compétents dans des tâches linguistiques complexes, leurs succès sont-ils dus à une véritable compréhension des relations et des hiérarchies entre les mots ou à une répétition de schémas de langue? Nous avons sélectionné des phénomènes linguistiques en anglais et en français qui sont parfaitement maîtrisés par les locuteurs natifs ayant des compétences syntaxico-sémantiques matures, mais qui sont traditionnellement difficiles à définir avec des règles linguistiques. Les préférences de sélection sont la tendance d'un prédicat à favoriser certains arguments dans un certain contexte linguistique et à en rejeter d'autres qui produiraient à des significations contradictoires ou peu plausibles. Cette partie de l'étude a examiné si les modèles BERT en anglais contiennent des informations sur les préférences sélectives, en examinant la probabilité qu'ils attribuent au mot dépendant compte tenu de la présence d'un mot recteur dans une phrase. Ces probabilités ont été comparées aux annotations humaines. Les résultats montrent qu'il n'y a pas de forte corrélation entre les jugements humains et les probabilités du modèle pour toutes les relations syntaxiques, mais que certains mots têtes ont une forte corrélation, et que le masquage de tous les mots à l'exception du mot tête produit les corrélations les plus positives. L'aspect lexical est une caractéristique du verbe qui décrit comment une action, un événement ou un état d'un verbe est situé dans le temps, indépendamment du temps du verbe. Nous avons exploré, avec deux séries d'expériences, si les modèles peuvent identifier et apprendre la télicité et la durée. Nous avons effectué des analyses quantitatives avec des modèles pré-entraînés et affinés, ainsi que des analyses qualitatives pour observer le comportement des modèles dans des cas difficiles. Les expériences ont été menées en anglais et en français. Les résultats montrent que les modèles capturent l'information sur la télicité et la durée dans leurs vecteurs, mais qu'ils sont biaisés en ce qui concerne le temps du verbe et l'ordre des mots. La dernière expérience examine les capacités des modèles à identifier et apprendre la position des adjectifs attributifs en français. Bien que ces modèles pré-entraînés soient insensibles à l'ordre des mots, nous avons observé que les modèles affinés pouvaient apprendre et sélectionner la position correcte de l'adjectif. En comparant les modèles aux locuteurs natifs, on remarque que les modèles favorisent le contexte et les rôles syntaxiques globaux, et qu'ils sont plus faibles pour les structures complexes et les expressions fixes. Pour résumer, les plongements lexicaux sont très efficaces, mais les résultats sont irréguliers. Les modèles attribuent des probabilités élevées aux tokens fréquents, mais ne peuvent pas créer des classes ou des regroupements de mots sur la base de leurs contenus. Les plongements de verbes peuvent capturer des informations syntactico-sémantiques importantes,. Les modèles sont sensibles à la syntaxe et apprennent des schémas syntaxiques rudimentaires. Sur le plan sémantique, les modèles s'appuient sur des caractéristiques de fréquence et de surface, même lorsque le contexte suggère le contraire.