EDyLex
Annotation sémantique
Edylex est un outil permettant l'amélioration de l’annotation sémantique des documents grâce à la détection de mots nouveaux (noms propres, néologismes…) pour les traitements linguistiques et la transcription de la parole.
De nouveaux mots, de nouveaux usages sont créés en permanence. Comment détecter et qualifier un mot inconnu ou un nouveau nom propre dans un texte ou dans un flux de paroles ? Comment lui attribuer une phonétique, une catégorie, des propriétés syntaxiques, une place dans un réseau sémantique ?
Pour répondre à ces questions, le projet EDyLex a pour objectif d’expérimenter sur les contenus de l’AFP toutes les possibilités d’enrichissement dynamique des lexiques utilisés par les outils de traitement automatique du langage. Avec une production quotidienne de 5 000 dépêches en six langues (français, anglais, espagnol, allemand, portugais et arabe), l’AFP constitue le terrain idéal pour tester des solutions d’analyse linguistique multimodale et multilingue capables d’enrichir dynamiquement ses propres modèles de langage et lexiques.
L’enjeu applicatif principal des méthodes et outils développés au sein d’EDyLex est d’améliorer l’annotation semi-automatique des documents ainsi que la transcription des bandes son des vidéos.
Projet financé par l'Agence Nationale de la Recherche.