-
Partager cette page
Thèse Mariame Maarouf
16/10/2025 à 14 h - Salle D29 (MDR)
Titre
Jury
Résumé
Les REX (Retours d’EXpérience) sont des documents textuels dont la visée est de rapporter un problème, ou un dysfonctionnement, et qui jouent un rôle important dans la maîtrise des risques au sein d’une organisation. Plusieurs travaux de TAL (Traitement Automatique des Langues) ont donc vu le jour afin de capitaliser les connaissances qu’ils abritent. Par ailleurs, des méthodes de résolution de problèmes techniques ont été développées, comme la méthode TRIZ, et présentent un intérêt non négligeable pour les dysfonctionnements qui peuvent être rapportés dans les REX. De ce fait, un partenariat s’est créé entre le CNES qui cherche à exploiter ses REX liés aux lanceurs spatiaux, et la société MeetSYS, spécialisée dans la méthode TRIZ pour la capitalisation du savoir expert. Cette thèse s’est vue comme l’opportunité d’explorer l’utilisation du TAL et de la linguistique de corpus pour l’extraction fine d’information dans les REX d’Ariane 5 en vue de modéliser un dysfonctionnement technique sous forme de vépole (formalisme propre à TRIZ). Cela signifie être capable de partir d’un texte brut, spécialisé et bruité vers un formalisme conçu indépendamment des données en question. À cette fin, une démarche en plusieurs étapes a été mise en place en vue de se rapprocher autant que possible de ce formalisme. L’un des piliers sur lequel s’appuie cette démarche est la sémantique des cadres, et la ressource FrameNet qui en découle, qui nous permet d’identifier et de qualifier les éléments textuels qui constituent le problème. Nous explorons dans cette thèse plusieurs approches de TAL et de linguistique de corpus dans l’étude des REX, soit des textes spécialisés et bruités, pour identifier les structures sémantiques qui composent l’expression d’un dysfonctionnement technique. Nous mêlons ainsi des techniques comme le Topic Modeling, word2vec et de l’analyse lexicale outillée pour de l’exploration de corpus, du fine-tuning de modèles neuronaux pour de l’étiquetage automatique, l’utilisation de LLMs pour de la normalisation et de l’annotation automatique, mais aussi de l’analyse syntaxique et de la reconnaissance de patrons pour l’analyse fine des structures langagières. Dans un premier temps, une analyse du corpus nous a permis de dégager une typologie d’expressions d’un dysfonctionnement technique en neuf classes. Elle est basée sur la détection de marqueurs lexicaux au sein de la description de l’anomalie qui a été repérée et décrite. À partir de cette typologie, nous avons pu effectuer une annotation des marqueurs lexicaux spécifiques au sein du corpus. Celle-ci nous a permis d’explorer l’utilisation d’annotateurs non experts du domaine sur des données spécialisées et, par la suite, d’entraîner un modèle neuronal à base de transformers pour l’étiquetage automatique des rapports d’anomalies. Nous avons aussi mené une étude afin de normaliser automatiquement ces rapports pour en supprimer le bruit, avant de tester l’impact de cette normalisation sur l’entraînement du modèle. Cette étude n’ayant pas montré d’améliorations sur la tâche d’étiquetage automatique nous entraîne à interroger la pertinence de la normalisation des données bruitées, et notamment en fonction de la tâche visée. Par la suite, nous avons pu focaliser notre étude sur deux catégories de la typologie qui sont la Fuite d’un liquide ou d’un gaz et la Présence d’un obstacle. Pour la première, nous avons mis en place une approche impliquant plusieurs méthodes complémentaires de linguistique de corpus afin de faire émerger un frame de la fuite dans un environnement technique. Nous avons ainsi pu identifier les différents éléments qui composent l’expression de la fuite. Pour la catégorie Présence d’un obstacle, nous avons utilisé des LLMs génératifs pour l’annotation automatique de ces textes. Par ce biais, nous avons pu explorer les capacités et les limites d’un LLM à effectuer une annotation de type Frame Semantic Role Labeling, mais aussi à traiter un texte spécialisé et bruité.
Titre
Approches du dysfonctionnement technique dans les REX d'Ariane 5 : de l'analyse linguistique outillée de son expression vers la modélisation TRIZ du problème
Jury
Amalia TODIRASCU, Professeure des universités, Université de Strasbourg, Faculté des Lettres (rapporteur) Ahmed SAMET, Maître de conférences, INSA Strasbourg (rapporteur) Anne CONDAMINES,Directrice de recherche CNRS, Université Toulouse II Jean Jaurès, (examinateur) Haïfa ZARGAYOUNA,Maîtresse de conférences, Université Sorbonne Paris Nord (examinateur) Ludovic TANGUY, Professeur, Université Toulouse - Jean Jaurès, CLLE (Directeur de thèse) Michal KURELA, Responsable Avis Conformité Systèmes de lancement CNES (invité) Jérôme LAFORCADE, MeetSYS (invité) |
Les REX (Retours d’EXpérience) sont des documents textuels dont la visée est de rapporter un problème, ou un dysfonctionnement, et qui jouent un rôle important dans la maîtrise des risques au sein d’une organisation. Plusieurs travaux de TAL (Traitement Automatique des Langues) ont donc vu le jour afin de capitaliser les connaissances qu’ils abritent. Par ailleurs, des méthodes de résolution de problèmes techniques ont été développées, comme la méthode TRIZ, et présentent un intérêt non négligeable pour les dysfonctionnements qui peuvent être rapportés dans les REX. De ce fait, un partenariat s’est créé entre le CNES qui cherche à exploiter ses REX liés aux lanceurs spatiaux, et la société MeetSYS, spécialisée dans la méthode TRIZ pour la capitalisation du savoir expert. Cette thèse s’est vue comme l’opportunité d’explorer l’utilisation du TAL et de la linguistique de corpus pour l’extraction fine d’information dans les REX d’Ariane 5 en vue de modéliser un dysfonctionnement technique sous forme de vépole (formalisme propre à TRIZ). Cela signifie être capable de partir d’un texte brut, spécialisé et bruité vers un formalisme conçu indépendamment des données en question. À cette fin, une démarche en plusieurs étapes a été mise en place en vue de se rapprocher autant que possible de ce formalisme. L’un des piliers sur lequel s’appuie cette démarche est la sémantique des cadres, et la ressource FrameNet qui en découle, qui nous permet d’identifier et de qualifier les éléments textuels qui constituent le problème. Nous explorons dans cette thèse plusieurs approches de TAL et de linguistique de corpus dans l’étude des REX, soit des textes spécialisés et bruités, pour identifier les structures sémantiques qui composent l’expression d’un dysfonctionnement technique. Nous mêlons ainsi des techniques comme le Topic Modeling, word2vec et de l’analyse lexicale outillée pour de l’exploration de corpus, du fine-tuning de modèles neuronaux pour de l’étiquetage automatique, l’utilisation de LLMs pour de la normalisation et de l’annotation automatique, mais aussi de l’analyse syntaxique et de la reconnaissance de patrons pour l’analyse fine des structures langagières. Dans un premier temps, une analyse du corpus nous a permis de dégager une typologie d’expressions d’un dysfonctionnement technique en neuf classes. Elle est basée sur la détection de marqueurs lexicaux au sein de la description de l’anomalie qui a été repérée et décrite. À partir de cette typologie, nous avons pu effectuer une annotation des marqueurs lexicaux spécifiques au sein du corpus. Celle-ci nous a permis d’explorer l’utilisation d’annotateurs non experts du domaine sur des données spécialisées et, par la suite, d’entraîner un modèle neuronal à base de transformers pour l’étiquetage automatique des rapports d’anomalies. Nous avons aussi mené une étude afin de normaliser automatiquement ces rapports pour en supprimer le bruit, avant de tester l’impact de cette normalisation sur l’entraînement du modèle. Cette étude n’ayant pas montré d’améliorations sur la tâche d’étiquetage automatique nous entraîne à interroger la pertinence de la normalisation des données bruitées, et notamment en fonction de la tâche visée. Par la suite, nous avons pu focaliser notre étude sur deux catégories de la typologie qui sont la Fuite d’un liquide ou d’un gaz et la Présence d’un obstacle. Pour la première, nous avons mis en place une approche impliquant plusieurs méthodes complémentaires de linguistique de corpus afin de faire émerger un frame de la fuite dans un environnement technique. Nous avons ainsi pu identifier les différents éléments qui composent l’expression de la fuite. Pour la catégorie Présence d’un obstacle, nous avons utilisé des LLMs génératifs pour l’annotation automatique de ces textes. Par ce biais, nous avons pu explorer les capacités et les limites d’un LLM à effectuer une annotation de type Frame Semantic Role Labeling, mais aussi à traiter un texte spécialisé et bruité.