Productions de l'axe CARTEL

- GLAWI

GLAWI est un dictionnaire électronique libre du français encodé au format XML. Il s'agit d'une version structurée et normalisée duWiktionnaire (l'édition française deWiktionary).

A partir et autour de cette ressource ont été construits :

GLAFF : un lexique à large couverture du français

Glaffoli : une interface en ligne pour consulter ce lexique

Foulophonie : une liste de mots provenant des différentes variétés régionales du français

G-peto : une suite de programmes en Perl pour la manipulation de GLAWI

Psychoglaff : une version de Glaff conçue pour la psycholinguistique

Il existe également une version italienne de GLAWI :  GLAWIT et un lexique dérivé : GLAFF-IT.

- Parcolab

Dans le cadre du projet Parcolab de corpus aligné multilingue (français / anglais / serbe) ont été développés :

Parcotrain : un corpus annoté du serbe pour l’entraînement d’analyseurs automatiques.

Wikimorph-SR : un lexique morphosyntaxique du serbe

- Talismane

Talismane est un outil d’annotation automatique de textes (segmentation en phrases, tokenisation, étiquetage morphosyntaxique, lemmatisation et analyse syntaxique en dépendances). Il existe des modèles utilisables directement pour le français, l’anglais, l’occitan et le serbe.

- Démonette

Démonette est une base de données lexicale du français qui décrit des familles morphologiques.

- SemdisGold

Dans le cadre de la campagne d’évaluation SemDis ont été développés deux jeux de test pour une tâche de substitution lexicale en français.

- Corpus TALN

Le corpus TALN contient le texte intégral des actes des conférences TALN et RECITAL, ainsi qu’une version analysée syntaxiquement.

- Prox

PROX est un algorithme de marche aléatoire dans les graphes lexicaux, permettant de calculer des similarités entre mots ou entre documents. Plusieurs applications sont déployées en se basant sur cette technique :

Calcul de proxémie sur le portail lexical du CNRTL

Autour du Mot : un outil graphique d’exploration du voisinage lexical

Cillex : un outil de clusterisation des résultats d’une recherche d’information

Spiderlex : un outil de navigation dans le Réseau Lexical du Français (RLF)

- Treelex

Treelex est un lexique de sous-catégorisation du français.

- WikiDisc

WikiDisc est un corpus de discussions en ligne entre contributeurs de la Wikipédia francophone (lien à venir).

- TAL de  l'occitan

Les membres de Cartel participent au développement d’outils et de ressources pour le traitement automatique de la langue occitane (détails à venir).