EcoLexicon et la Terminologie basée sur des cadres: conception, construction, validation et réutilisation d'une base de données terminologiques

Publié le 20 juin 2018 Mis à jour le 18 octobre 2018
le 6 décembre 2018

Pilar León Araúz (LexiCon, Universidad de Granada) - Séminaire ERSS

EcoLexicon est une base de données terminologiques (BDT) sur l'environnement qui est le résultat de l'application de la Terminologie basée sur des cadres. Dans la première partie du séminaire nous présenterons les principes, notamment issus de la sémantique cognitive, sur lesquels reposent la conception et la construction de la BDT. Par conséquent, nous aborderons la représentation des connaissances spécialisées sous la forme de réseaux sémantiques en focalisant sur le dynamisme du domaine de l'environnement. Ceci nous mènera à explorer des notions telles que les relations sémantiques, la structuration conceptuelle, la multidimensionalité et la variation contextuelle à travers l'analyse de corpus. L'extraction des relations s'appuie sur la formalisation de grammaires de Sketch Engine basées sur des patrons de connaissances. Cela facilite l'analyse systématique de la multidimensionalité et du contexte ainsi que le repérage et la classification des contextes riches en connaissances, permettant de ce fait la reconstruction de la structure conceptuelle du domaine telle que reflétée dans les textes spécialisés.

EcoLexicon se développe depuis une dizaine d'années, de sorte que l'étape logique suivante a été, d’une part, la validation de l'outil et, d’autre part, l'exploitation de ses données. Nous y consacrerons la deuxième partie du séminaire. Quant à la validation d'EcoLexicon, deux études ont été menées: une étude parmi des étudiants en traduction, avec des résultats favorables; et une expérience d’IRMf (imagerie par résonance magnétique fonctionnelle) afin de mieux comprendre la façon dont les connaissances spécialisées sont représentées dans le cerveau. Étant donné qu'il est généralement admis que les BDT devraient refléter les structures conceptuelles selon la représentation des concepts dans le cerveau, l'utilisation de l'IRMf visait à valider les réseaux sémantiques d'EcoLexicon. À cet égard, cette étude nous a permis d'explorer, de façon très préliminaire, la perception des unités lexicales générales et spécialisées chez des sujets spécialistes en géologie et chez des sujets non-experts. Les résultats indiquent que le traitement cognitif des termes spécialisés repose sur l’expérience préalable des sujets avec les objets. Cela confirme l’hypothèse selon laquelle lors de l’exécution d’une tâche spécialisée, les spécialistes activent une partie du cerveau liée à la simulation de l'utilisation des objets.

Quant à l'exploitation des données, il faut souligner que leur volume et le fait qu'elles aient été manuellement recueillies font d'EcoLexicon un outil réutilisable pour d'autres tâches liées au traitement automatique de langues. C'est pourquoi la BDT est en cours d'intégration dans la Linked Open Data cloud. Par ailleurs, plusieurs sous-produits en ont été dérivés, comme par exemple EcoLexiCAT, un logiciel de traduction assisté par ordinateur enrichi avec des ressources terminologiques externes.