-
Partager cette page
Thèse Yizhe WANG
4 octobre 2022 - 9 h (D29)
Titre : Exploration des relations terminologiques entre les termes multi-mots dans les modèles de sémantique distributionnelle/
Jury :
Marie-Paule JACQUES, Maîtresse de conférences, Université Grenoble Alpes (Rapporteur)
Résumé :
Le terme est une unité lexicale qui a un sens spécialisé dans un domaine particulier. L'organisation des termes reflète la structure de la connaissance d'un domaine. Cette structure est basée sur les relations qui existent entre les concepts du domaine et par suite entre les termes simples (TS) ou multi-mots (TMM). Les ressources terminologiques structurées, telles que les dictionnaires spécialisés, les banques et les bases de données terminologiques, sont conçues pour répondre aux besoins dans les domaines de recherche, de traduction, de rédaction technique, etc. Cependant, les relations entre TMM y sont souvent sous-représentées. Beaucoup de travaux portent en effet sur l'acquisition de relations entre TS et relativement peu sur l’acquisition de relations entre TMM. D’un autre côté, on observe depuis plusieurs années, l’utilisation massive et réussie des modèles sémantiques distributionnels (MSD) dans de nombreux travaux en sémantique. Notre problématique de recherche se place à l’articulation de ces deux thèmes. Elle se décline en deux questions : est-il possible de capturer des informations relationnelles entre TMM en utilisant des MSD ? Quels sont les relations entre TMM que ces modèles permettent d’identifier le mieux ? Pour répondre à ces deux questions, nous avons réalisé un ensemble d’expériences dans le domaine de l’environnement en français. Notre hypothèse générale de travail est que les MSD statiques et contextuels permettent d'identifier des relations terminologiques entre TMM. Nous avons exploré les possibilités de ces modèles en utilisant deux méthodes. La première adoptant la substitution lexicale est fondée sur les prédictions d’un modèle de langue masqué (MLM). La seconde consiste à capter des relations sémantiques lexicales par l'analogie entre les représentations des termes générées par un modèle FastText. Ces méthodes sont testées sur deux jeux de données. Nous nous appuyons d'abord sur un jeu de données composé de TMM synonymes du domaine de l’environnement en français fournis par la banque IATE. Devant le manque de ressources intégrant des relations sémantiques variées entre TMM, nous avons construit un second jeu de données par projection sémantique à partir des termes simples et de leurs relations recensées dans le dictionnaire de termes de l'environnement en français, DiCoEnviro. Une annotation manuelle à l'aide des contextes des TMM est effectuée pour vérifier la préservation de la relation inférée entre les TMM. Les résultats expérimentaux que nous avons obtenus valident notre hypothèse concernant la possibilité de capter des relations terminologiques entre TMM par des MSD. L'analogie impliquant un modèle FastText s’avère plus performante que la substitution lexicale réalisée avec un MLM pour capturer la synonymie, l'antonymie et l'hyponymie. Les résultats montrent aussi que la stratégie conditionnement permet d'avoir des prédictions du MLM reliées plus étroitement au mot masqué et que les performances de l'analogie sont améliorées lorsque les variantes de TMM sont traitées comme des occurrences des TMM. Un autre résultat notable est que la composition sémantique des TMM est modélisée par l'analogie et capturée dans une certaine mesure par les modèles de langage masqués. Ce résultat confirme l'avantage de combiner les approches distributionnelles et compositionnelles pour l'identification des relations sémantiques entre TMM. Les meilleurs résultats ont été obtenus avec l'analogie. Dans l'ensemble, cette thèse est l'une des premières tentatives pour identifier les relations lexicales entre TMM d'un domaine spécialisé, celui de l'environnement, en explorant les MSD. Nous avons construit et mis à disposition un jeu de données de TMM reliés par les relations lexicales variées. Ce travail fournit aussi un carnet de route pour l’application des MSD pour la tache de structuration terminologique.
Mots clés : relations terminologiques, termes multi-mots, analogie, substitution lexicale, modèles sémantiques distributionnelles, domaine de l'environnement
Abstract :
A term is a lexical unit with specialized meaning in a particular domain. The organization of terms reflects the structure of domain knowledge, which is based on the relationships between domain concepts, i.e., between single terms (STs) or multi-word terms (MWTs). Structured terminology resources, such as specialized dictionaries, terminology banks, and databases, are designed to meet the needs of research, translation, technical writing, etc. However, the relationships between MWTs are often underrepresented. On the other hand, we have seen the massive and successful use of distributional semantic models (DSMs) in many semantics works over the last few years. Our research problem is on the intersection of these two themes. It can be broken down into two questions: is it possible to capture relational information between MWTs using DSMs? What are the relationships between MWTs that these models can best identify? We conducted a set of experiments in the French environment domain to answer these two questions. Our general working hypothesis is that static and contextual DSMs allow us to identify terminological relations between MWTs. We explored the possibilities of these models using two methods. The first one adopting lexical substitution is based on the predictions of a masked language model (MLM). The second one captures lexico-semantic relations by the analogy between term representations generated by a FastText model. These methods are tested on two datasets. First, we rely on a dataset composed of French synonymous MWTs of the environment domain provided by the IATE database. Due to the lack of resources integrating various semantic relations between MWTs, we built a second dataset by semantic projection from the single terms and their relations listed in the French dictionary of environmental terms, DiCoEnviro. A manual annotation using the contexts of the MWTs is performed to check the preservation of the inferred relationship between the MWTs. The experimental results we obtained validate our hypothesis regarding the possibility of capturing terminological relations between MWTs by DSMs. Analogy involving a FastText model performs better than lexical substitution performed with an MLM in capturing synonymy, antonymy, and hyponymy. The results also show that the conditioning strategy results in MLM predictions that are more closely related to the masked word and that the performance of analogy is improved when variants of MWTs are treated as occurrences of MWTs. Another notable result is that the semantic composition of MWTs is modelled by analogy and captured partially by MLM. This result confirms the advantage of combining distributional and compositional approaches for identifying semantic relations between MWTs. The best results were obtained with the analogy. Overall, this thesis is one of the first attempts to identify lexical relations between MWTs in a specialized domain, that of the environment, by exploring DSMs. We have constructed a dataset of MWTs linked by various lexical relationships, which also made available for further research purpose. Ideally, this work is hope to provide a roadmap for applying DSMs for the terminology structuring task.
Key words : terminology relations, multi-word terms, analogy, lexical substitution, semantic distributional models, environment domain
Titre : Exploration des relations terminologiques entre les termes multi-mots dans les modèles de sémantique distributionnelle/
Exploring terminological relations between multi-word terms in semantic distributional models
Jury :
Marie-Paule JACQUES, Maîtresse de conférences, Université Grenoble Alpes (Rapporteur)
Olivier FERRET, Directeur de recherche, CEA (Rapporteur)
Anne CONDAMINES, Directrice de recherche, CNRS (Examinateur)
Manel ZARROUK, Maîtresse de conférences, Université Paris 13 (Examinateur)
Béatrice DAILLE, Professeure, Université de Nantes (Directrice de thèse)
Nabil HATHOUT, Directeur de recherche, CNRS, CLLE (Directeur de thèse)
Nabil HATHOUT, Directeur de recherche, CNRS, CLLE (Directeur de thèse)
Résumé :
Le terme est une unité lexicale qui a un sens spécialisé dans un domaine particulier. L'organisation des termes reflète la structure de la connaissance d'un domaine. Cette structure est basée sur les relations qui existent entre les concepts du domaine et par suite entre les termes simples (TS) ou multi-mots (TMM). Les ressources terminologiques structurées, telles que les dictionnaires spécialisés, les banques et les bases de données terminologiques, sont conçues pour répondre aux besoins dans les domaines de recherche, de traduction, de rédaction technique, etc. Cependant, les relations entre TMM y sont souvent sous-représentées. Beaucoup de travaux portent en effet sur l'acquisition de relations entre TS et relativement peu sur l’acquisition de relations entre TMM. D’un autre côté, on observe depuis plusieurs années, l’utilisation massive et réussie des modèles sémantiques distributionnels (MSD) dans de nombreux travaux en sémantique. Notre problématique de recherche se place à l’articulation de ces deux thèmes. Elle se décline en deux questions : est-il possible de capturer des informations relationnelles entre TMM en utilisant des MSD ? Quels sont les relations entre TMM que ces modèles permettent d’identifier le mieux ? Pour répondre à ces deux questions, nous avons réalisé un ensemble d’expériences dans le domaine de l’environnement en français. Notre hypothèse générale de travail est que les MSD statiques et contextuels permettent d'identifier des relations terminologiques entre TMM. Nous avons exploré les possibilités de ces modèles en utilisant deux méthodes. La première adoptant la substitution lexicale est fondée sur les prédictions d’un modèle de langue masqué (MLM). La seconde consiste à capter des relations sémantiques lexicales par l'analogie entre les représentations des termes générées par un modèle FastText. Ces méthodes sont testées sur deux jeux de données. Nous nous appuyons d'abord sur un jeu de données composé de TMM synonymes du domaine de l’environnement en français fournis par la banque IATE. Devant le manque de ressources intégrant des relations sémantiques variées entre TMM, nous avons construit un second jeu de données par projection sémantique à partir des termes simples et de leurs relations recensées dans le dictionnaire de termes de l'environnement en français, DiCoEnviro. Une annotation manuelle à l'aide des contextes des TMM est effectuée pour vérifier la préservation de la relation inférée entre les TMM. Les résultats expérimentaux que nous avons obtenus valident notre hypothèse concernant la possibilité de capter des relations terminologiques entre TMM par des MSD. L'analogie impliquant un modèle FastText s’avère plus performante que la substitution lexicale réalisée avec un MLM pour capturer la synonymie, l'antonymie et l'hyponymie. Les résultats montrent aussi que la stratégie conditionnement permet d'avoir des prédictions du MLM reliées plus étroitement au mot masqué et que les performances de l'analogie sont améliorées lorsque les variantes de TMM sont traitées comme des occurrences des TMM. Un autre résultat notable est que la composition sémantique des TMM est modélisée par l'analogie et capturée dans une certaine mesure par les modèles de langage masqués. Ce résultat confirme l'avantage de combiner les approches distributionnelles et compositionnelles pour l'identification des relations sémantiques entre TMM. Les meilleurs résultats ont été obtenus avec l'analogie. Dans l'ensemble, cette thèse est l'une des premières tentatives pour identifier les relations lexicales entre TMM d'un domaine spécialisé, celui de l'environnement, en explorant les MSD. Nous avons construit et mis à disposition un jeu de données de TMM reliés par les relations lexicales variées. Ce travail fournit aussi un carnet de route pour l’application des MSD pour la tache de structuration terminologique.
Mots clés : relations terminologiques, termes multi-mots, analogie, substitution lexicale, modèles sémantiques distributionnelles, domaine de l'environnement
Abstract :
A term is a lexical unit with specialized meaning in a particular domain. The organization of terms reflects the structure of domain knowledge, which is based on the relationships between domain concepts, i.e., between single terms (STs) or multi-word terms (MWTs). Structured terminology resources, such as specialized dictionaries, terminology banks, and databases, are designed to meet the needs of research, translation, technical writing, etc. However, the relationships between MWTs are often underrepresented. On the other hand, we have seen the massive and successful use of distributional semantic models (DSMs) in many semantics works over the last few years. Our research problem is on the intersection of these two themes. It can be broken down into two questions: is it possible to capture relational information between MWTs using DSMs? What are the relationships between MWTs that these models can best identify? We conducted a set of experiments in the French environment domain to answer these two questions. Our general working hypothesis is that static and contextual DSMs allow us to identify terminological relations between MWTs. We explored the possibilities of these models using two methods. The first one adopting lexical substitution is based on the predictions of a masked language model (MLM). The second one captures lexico-semantic relations by the analogy between term representations generated by a FastText model. These methods are tested on two datasets. First, we rely on a dataset composed of French synonymous MWTs of the environment domain provided by the IATE database. Due to the lack of resources integrating various semantic relations between MWTs, we built a second dataset by semantic projection from the single terms and their relations listed in the French dictionary of environmental terms, DiCoEnviro. A manual annotation using the contexts of the MWTs is performed to check the preservation of the inferred relationship between the MWTs. The experimental results we obtained validate our hypothesis regarding the possibility of capturing terminological relations between MWTs by DSMs. Analogy involving a FastText model performs better than lexical substitution performed with an MLM in capturing synonymy, antonymy, and hyponymy. The results also show that the conditioning strategy results in MLM predictions that are more closely related to the masked word and that the performance of analogy is improved when variants of MWTs are treated as occurrences of MWTs. Another notable result is that the semantic composition of MWTs is modelled by analogy and captured partially by MLM. This result confirms the advantage of combining distributional and compositional approaches for identifying semantic relations between MWTs. The best results were obtained with the analogy. Overall, this thesis is one of the first attempts to identify lexical relations between MWTs in a specialized domain, that of the environment, by exploring DSMs. We have constructed a dataset of MWTs linked by various lexical relationships, which also made available for further research purpose. Ideally, this work is hope to provide a roadmap for applying DSMs for the terminology structuring task.
Key words : terminology relations, multi-word terms, analogy, lexical substitution, semantic distributional models, environment domain