Étude des chaînes de référence en français : le projet ANR Democrat

Publié le 8 janvier 2020 Mis à jour le 28 janvier 2020
le 19 mars 2020 Salle D155 MDR

Frédéric Landragin, Laboratoire LATTICE, ENS, UMR 8094 - (Séminaire CLLE-ERSS - 14h/16h)

Une chaîne de référence – ou ensemble des expressions référentielles qui portent sur un même référent – est un objet linguistique dont l'étude implique de nombreux aspects : distinction entre l'accès à un référent et l'évocation (non référentielle) d'un référent ; délimitation des expressions référentielles ; caractérisation des successions des expressions référentielles, par exemple des transitions d'un référent à un autre ; mise au jour de typologies aussi bien pour les expressions référentielles que pour les référents et les chaînes elles-mêmes. Ces aspects ont fait l'objet de discussions dans le cadre du projet ANR Democrat (2016-2020). Nous présentons les grandes lignes des modélisations linguistiques et les grands principes des analyses quantitatives qui y ont été effectuées, ainsi que le corpus qui a été constitué et annoté par les membres du projet. Ce corpus a servi de base de travail non seulement pour les modélisations et les analyses, mais aussi pour le développement de fonctionnalités d'annotation et d'interrogation de corpus, ainsi que pour le développement de systèmes de TAL visant à détecter automatiquement des chaînes de référence dans du texte tout-venant.