Thèse Marine Wauquier

04/12/2020 à 14h - Lien de visionnage ici

Titre : "Confrontation des procédés dérivationnels et des catégories sémantiques dans les modèles distributionnels"

 Jury :
Olivier Bonami (rapporteur)
Ingo Plag (rapporteur)
Cécile Fabre (examinatrice)
Fiammetta Namer (examinatrice)
Laurent Prévot (examinateur)
Nabil Hathout (directeur de thèse)

Résumé :
La forme et le sens sont intimement liés en morphologie dérivationnelle, l’affixe d’un dérivé renseignant généralement sur son appartenance à une catégorie sémantique donnée. Cette relation entre affixes et catégories sémantiques n’est cependant pas exclusive, et est étudiée à partir de facteurs phonologiques, syntaxiques, ou encore sémantiques. Ces derniers sont sans doute parmi les facteurs les plus difficiles à évaluer empiriquement, et ont longtemps reposé sur une approche intuitive. La sémantique distributionnelle se présente depuis peu comme une alternative, proposant une représentation vectorielle du sens des mots. Nous mettons à profit dans cette thèse les modèles distributionnels pour analyser des dérivés morphologiques au regard de ces relations many-to-many, selon quatre axes.

Dans un premier temps, nous quantifions la proximité sémantique entre membres de familles dérivationnelles à l’aide de la proximité distributionnelle dans les espaces vectoriels, validant à grande échelle l’hypothèse d’une plus grande proximité du verbe et du nom d’action. Dans un second temps, nous étayons les différences sémantiques entre les noms en -eur, -euse et -rice relatives aux propriétés axiologiques de leurs référents, en comparant les représentations globales de ces trois classes. Dans un troisième temps, nous évaluons l’hétérogénéité morphologique et sémantique de la catégorie lexicale des noms d’agent à partir de l’analyse de la représentation globale de ses représentants prototypiques. Enfin, nous explorons la différenciation sémantique des noms d’action en -age, -ion et -ment, au regard de leur degré de technicité. Nous combinons des indices distributionnels et statistiques afin de modéliser cette différence de technicité.

Au travers de ces quatre questions, cette thèse présente différents degrés d’adaptation des modèles distributionnels pour l’analyse linguistique, illustrant leur potentiel mais aussi leurs limites en tant qu’outil de validation et d’exploration."