-
Partager cette page
Productions de l'axe CARTEL
- GLAWI
GLAWI est un dictionnaire électronique libre du français encodé au format XML. Il s'agit d'une version structurée et normalisée duWiktionnaire (l'édition française deWiktionary).
A partir et autour de cette ressource ont été construits :
• GLAFF : un lexique à large couverture du français
• Glaffoli : une interface en ligne pour consulter ce lexique
• Foulophonie : une liste de mots provenant des différentes variétés régionales du français
• G-peto : une suite de programmes en Perl pour la manipulation de GLAWI
• Psychoglaff : une version de Glaff conçue pour la psycholinguistique
Il existe également une version italienne de GLAWI : GLAWIT et un lexique dérivé : GLAFF-IT.
- Parcolab
Dans le cadre du projet Parcolab de corpus aligné multilingue (français / anglais / serbe) ont été développés :
• Parcotrain : un corpus annoté du serbe pour l’entraînement d’analyseurs automatiques.
• Wikimorph-SR : un lexique morphosyntaxique du serbe
- Talismane
Talismane est un outil d’annotation automatique de textes (segmentation en phrases, tokenisation, étiquetage morphosyntaxique, lemmatisation et analyse syntaxique en dépendances). Il existe des modèles utilisables directement pour le français, l’anglais, l’occitan et le serbe.
- Démonette
Démonette est une base de données lexicale du français qui décrit des familles morphologiques.
- SemdisGold
Dans le cadre de la campagne d’évaluation SemDis ont été développés deux jeux de test pour une tâche de substitution lexicale en français.
- Corpus TALN
Le corpus TALN contient le texte intégral des actes des conférences TALN et RECITAL, ainsi qu’une version analysée syntaxiquement.
- Prox
PROX est un algorithme de marche aléatoire dans les graphes lexicaux, permettant de calculer des similarités entre mots ou entre documents. Plusieurs applications sont déployées en se basant sur cette technique :
• Calcul de proxémie sur le portail lexical du CNRTL
• Autour du Mot : un outil graphique d’exploration du voisinage lexical
• Cillex : un outil de clusterisation des résultats d’une recherche d’information
• Spiderlex : un outil de navigation dans le Réseau Lexical du Français (RLF)
- Treelex
Treelex est un lexique de sous-catégorisation du français.
- WikiDisc
WikiDisc est un corpus de discussions en ligne entre contributeurs de la Wikipédia francophone (lien à venir).
- TAL de l'occitan
Les membres de Cartel participent au développement d’outils et de ressources pour le traitement automatique de la langue occitane (détails à venir).