-
Partager cette page
Thèse Silvia Federzoni
03/10/2025 à 9 h - Salle D29 (MDR)
Titre
Jury
Résumé
Ce projet de thèse a pour objectif la définition d'une typologie des chaînes de référence basée sur une description systématique des enchaînements des expressions référentielles dans différents corpus annotés en chaînes de référence.
Les chaînes de référence sont des structures discursives regroupant plusieurs propositions ayant un référent commun. De ce fait, elles contribuent à la construction d'une continuité référentielle et constituent un procédé fondamental dans la structuration du discours.
À ce titre les chaînes de référence ont fait l’objet de nombreuses études en linguistique et en traitement automatique des langues (TAL) : certaines se sont focalisées sur leur description linguistique ou sur leur rôle dans l’organisation du discours, d’autres se concentrent sur les variations liées au genre textuel, à la langue, ou aux évolutions en diachronie. Les études en TAL ont porté sur la description des chaînes de référence avec l'objectif de repérer leurs caractéristiques récurrentes et de proposer des modélisations pour améliorer la détection automatique des chaînes, qui reste un enjeu pour de nombreuses applications, comme par exemple l'extraction de l'information, les systèmes de segmentation thématique, les systèmes de question/réponse, le résumé automatique ou encore la traduction automatique (choix de la bonne traduction).
Toutes les études portant sur la description des chaînes se fondent sur l'exploration de corpus annotés, point commun des approches linguistiques et des approches en TAL.
Depuis peu, les études sur les chaînes de référence en français bénéficient de nouveaux moyens d’investigation, aussi bien en termes de corpus annotés que d’outils d’analyse, qui permettent d’envisager une étude plus systématique de ce phénomène. Dans ce contexte, l’objectif théorique de la thèse est de proposer une description systématique des enchaînements des expressions référentielles dans le but de fournir une typologie des chaînes de référence. Cette typologie nous permettra de tester les hypothèses suivantes :
- Le type de chaîne varie selon le genre textuel et le type de discours ;
- Le type de chaîne varie selon le niveau d'expertise rédactionnelle.
Pour atteindre l’objectif théorique, il est indispensable d’atteindre un objectif méthodologique qui consiste à concevoir une méthode qui soit adaptée à l'exploration de ressources hétérogènes (en termes de type de textes et de modèles linguistiques) afin de proposer une analyse contrastive des résultats obtenus.
Afin de proposer une méthode commune nous permettant de tirer parti de ressources qui ont été conçues sur des bases théoriques différentes, le travail de thèse s'appuiera essentiellement sur trois ressources ayant le double avantage de donner accès à une grande variété de donnés langagières et de proposer des approches différentes des chaînes de référence :
- ANNODIS : textes non narratifs ;
- DEMOCRAT : textes narratifs et non narratifs ;
- E-CALM : écrits scolaires à différents niveaux de littératie.
Titre
Vers une typologie des chaînes de référence à la lumière de corpus annotés diversifiés
Jury
Frédéric LANDRAGIN, Directeur de recherche, CNRS Île-de-France Gif-sur-Yvette (rapporteur) Marion FOSSARD, Professeure des universités, Université de Neuchâtel (rapporteur) Josette REBEYROLLE, Maîtresse de conférences, Université Toulouse - Jean Jaurès, CLLE, (examinateur) Catherine SCHNEDECKER, Professeure émérite, Université de Strasbourg(examinateur) Cécile FABRE, Professeur, Université Toulouse - Jean Jaurès, CLLE (Directrice de thèse) Lydia-Mai HO-DAC, Maîtresse de conférence, Université Toulouse - Jean Jaurès, CLLE (co Directrice de thèse) |
Ce projet de thèse a pour objectif la définition d'une typologie des chaînes de référence basée sur une description systématique des enchaînements des expressions référentielles dans différents corpus annotés en chaînes de référence.
Les chaînes de référence sont des structures discursives regroupant plusieurs propositions ayant un référent commun. De ce fait, elles contribuent à la construction d'une continuité référentielle et constituent un procédé fondamental dans la structuration du discours.
À ce titre les chaînes de référence ont fait l’objet de nombreuses études en linguistique et en traitement automatique des langues (TAL) : certaines se sont focalisées sur leur description linguistique ou sur leur rôle dans l’organisation du discours, d’autres se concentrent sur les variations liées au genre textuel, à la langue, ou aux évolutions en diachronie. Les études en TAL ont porté sur la description des chaînes de référence avec l'objectif de repérer leurs caractéristiques récurrentes et de proposer des modélisations pour améliorer la détection automatique des chaînes, qui reste un enjeu pour de nombreuses applications, comme par exemple l'extraction de l'information, les systèmes de segmentation thématique, les systèmes de question/réponse, le résumé automatique ou encore la traduction automatique (choix de la bonne traduction).
Toutes les études portant sur la description des chaînes se fondent sur l'exploration de corpus annotés, point commun des approches linguistiques et des approches en TAL.
Depuis peu, les études sur les chaînes de référence en français bénéficient de nouveaux moyens d’investigation, aussi bien en termes de corpus annotés que d’outils d’analyse, qui permettent d’envisager une étude plus systématique de ce phénomène. Dans ce contexte, l’objectif théorique de la thèse est de proposer une description systématique des enchaînements des expressions référentielles dans le but de fournir une typologie des chaînes de référence. Cette typologie nous permettra de tester les hypothèses suivantes :
- Le type de chaîne varie selon le genre textuel et le type de discours ;
- Le type de chaîne varie selon le niveau d'expertise rédactionnelle.
Pour atteindre l’objectif théorique, il est indispensable d’atteindre un objectif méthodologique qui consiste à concevoir une méthode qui soit adaptée à l'exploration de ressources hétérogènes (en termes de type de textes et de modèles linguistiques) afin de proposer une analyse contrastive des résultats obtenus.
Afin de proposer une méthode commune nous permettant de tirer parti de ressources qui ont été conçues sur des bases théoriques différentes, le travail de thèse s'appuiera essentiellement sur trois ressources ayant le double avantage de donner accès à une grande variété de donnés langagières et de proposer des approches différentes des chaînes de référence :
- ANNODIS : textes non narratifs ;
- DEMOCRAT : textes narratifs et non narratifs ;
- E-CALM : écrits scolaires à différents niveaux de littératie.