Thèse Bénédicte Pierrejean

8 janvier 2020 à 14 h - Salle D29, Maison de la Recherche UT2J

Titre :
Evaluation qualitative des plongements de mots : étude de l'instabilité dans les modèles neuronaux

Jury :
Lenci Alessandro, Professeur, University of Pisa – Rapporteur
Olivier Ferret, Ingénieur de recherche, CEA LIST - Rapporteur
Cécile Fabre, Professeur, Université Toulouse 2 Jean Jaurès – Examinatrice
Aurélie Herbelot, Professeur assistant, University of Trento – Examinatrice
Ludovic Tanguy, Maître de conférences HDR, Université Toulouse 2 Jean Jaurès – Directeur de thèse

Résumé :
La sémantique distributionnelle a récemment connu de grandes avancées avec l’arrivée des plongements de mots basés sur des méthodes neuronales qui ont rendu les modèles sémantiques plus accessibles en fournissant des méthodes d’entrainement rapides, efficaces et faciles à utiliser. Ces représentations denses d’unités lexicales basées sur l’analyse non supervisée de gros corpus sont de plus en plus utilisées dans diverses applications. Elles sont intégrées en tant que première couche dans les modèles d’apprentissage profond et sont également utilisés pour faire de l’observation qualitative en linguistique de corpus. Cependant, malgré leur popularité, il n’existe toujours pas de méthode d’évaluation des plongements de mots qui donne à la fois une vue globale et précise des différences existant entre plusieurs modèles.
Dans cette thèse, nous proposons une méthodologie pour évaluer les plongements de mots. Nous fournissons également une étude détaillée des modèles entrainés avec word2vec.
Dans la première partie de cette thèse, nous donnons un aperçu de l’évolution de la sémantique distributionnelle et passons en revue les différentes méthodes utilisées pour évaluer les plongements de mots. Par la suite, nous identifions les limites de ces méthodes et proposons d’évaluer les plongements de mots en utilisant une approche basée sur les voisins sémantiques. Nous expérimentons avec cette approche sur des modèles entrainés avec différents paramètres ou sur différents corpus. Etant donné la nature non déterministe des méthodes neuronales, nous reconnaissons les limites de cette approche et nous concentrons par la suite sur le problème de l’instabilité des voisins sémantiques dans les modèles de plongement de mots. Plutôt que d’éviter ce problème, nous choisissons de l’utiliser pour mieux comprendre les plongements de mots. Nous montrons que le problème d’instabilité n’affecte pas tous les mots de la même manière et que plus plusieurs traits linguistiques permettent d’expliquer une partie de ce phénomène. Ceci constitue un pas vers une meilleure compréhension des modèles sémantiques vectoriels.