La classification sémantique à gros-grain : intérêts et limites

Publié le 6 septembre 2017 Mis à jour le 8 janvier 2018
le 21 décembre 2017
14h
Salle E412

Lucie Barque, LLF & Paris 13 - Séminaire CLLE-ERSS

Le développement de ressources linguistiques incluant de l'information sémantique est long et coûteux. Une façon de limiter le problème est de recourir à une description reposant sur des classes sémantiques très générales (p. ex. Personne, Action, Artefact, Temps) dont le grain peut s'avérer suffisant pour certaines tâches, telles que l'extraction de relations lexicales et l'annotation de corpus destinés au traitement automatique de la langue. Mon exposé portera sur deux projets de développement de ressources sémantiques reposant sur l'utilisation d'un ensemble restreint de classes sémantiques.

Je présenterai tout d'abord une ressource dédiée à l'étude de la polysémie régulière (en collaboration avec P. Haas et R. Huyghe). Elaborée manuellement à partir des informations sémantiques de type gros-grain extraites du Wolf (Fišer et Sagot 2015) et du RLF (Lux-Pogodalla et Polguère 2011), elle propose un inventaire des patrons de polysémie nominale du français. Chaque patron y est accompagné d'une liste de noms présentant la polysémie décrite et d'une liste de noms qui, d'après les contraintes sémantiques explicitées dans le patron, pourraient théoriquement présenter cette polysémie. Je mentionnerai les utilisations possibles de cette ressource en linguistique (p. ex. pour des études portant sur la néologie sémantique ou sur la polysémie des mots construits morphologiquement) et en TAL.

Dans la seconde partie de l'exposé, je présenterai un projet de constitution d'un corpus sémantiquement annoté pour le français (en collaboration avec M. Candito, B. Crabbé, P. Haas, R. Huyghe, H. Martinez et D.Tribout). Le projet, restreint pour le moment à l'annotation des noms, repose sur l'utilisation d'un jeu d'étiquettes sémantiques à gros grain adapté des "First Beginners" de WordNet. J'exposerai d'abord quelques uns des problèmes d'annotations qui se sont posés à nous et les solutions apportées. J'évoquerai ensuite la façon dont ce type de ressource peut être exploité en TAL.

Références
- Fišer Darja et Sagot Benoît (2015). Constructing a poor man’s wordnet in a resource-rich world. Language Resources and Evaluation 49(3) (pages 601–635)
- Lux-Pogodalla V. et Polguère A. (2011) Construction of a French Lexical Network : Methodological Issues. In Proceedings of the First International Workshop on Lexical Resources, WoLeR 2011. An ESSLLI 2011 Workshop, pages 54-61, Ljubljana, Slovenia, August 1-5 2011.