Vous êtes ici

EDyLex

Amélioration de l’annotation sémantique des documents via la détection des mots nouveaux (noms propres, néologismes …) pour les traitements linguistiques et la transcription de la parole.
  • 1 / 3

  • 2 / 3

  • 3 / 3

Amélioration de l’annotation sémantique des documents via la détection des mots nouveaux (noms propres, néologismes …) pour les traitements linguistiques et la transcription de la parole.

De nouveaux mots, de nouveaux usages sont créés en permanence. Comment détecter et qualifier un mot inconnu ou un nouveau nom propre dans un texte ou dans un flux de paroles ? Comment lui attribuer une phonétique, une catégorie, des propriétés syntaxiques, une place dans un réseau sémantique ? Pour répondre à ces questions, le projet EDylex a pour objectif d’expérimenter sur les contenus de l’Agence France Presse toutes les possibilités d’enrichissement dynamique des lexiques utilisés par les outils de traitement automatique du langage. Avec une production quotidienne de 5000 dépêches en six langues (français, anglais, espagnol, allemand, portugais et arabe), l’AFP constitue le terrain idéal  pour tester des solutions d’analyse linguistique multimodale et multilingue capables d’enrichir dynamiquement ses propres modèles de langage et lexiques.

Le consortium EDyLex est porté par l’équipe Paris 7 Alpage, spécialisé dans le développement d’analyseurs de textes écrits et des ressources associées. Il  regroupe deux grands laboratoires, le LIF et le LIMSI, composés tous deux de linguistes-informaticiens spécialistes de l’écrit et de l’oral et  trois entreprises, Vecsys Research (recherche industrielle en Traitement de la Parole), Syllabs (Ingénierie des langues pour les NTIC) et l’Agence France-Presse, partenaire utilisateur.

L’enjeu applicatif principal des méthodes et outils développés au sein d’EDyLex est d’améliorer l’annotation semi-automatique des documents ainsi que la transcription des bandes son des vidéos.

Un projet financé par l'Agence Nationale de la Recherche (ANR) (2009-2013).
 

logo du financeur ANR


 

Découvrir

Découvrir

RMM2

Visualisation d’événements thématiques tourisme/loisirs sur le web et les interfaces mobiles.

SCRIBO

Outils collaboratifs pour l’annotation de documents basés sur des technologies du web sémantique (ontologie).

SAMAR

Traitements linguistiques de l’arabe (extraction de connaissances, transcription de la parole dans les vidéos, traduction automatique en français et anglais) au sein d’un système de gestion de contenus.

Contactez l'AFP

Vous avez une info, un commentaire à transmettre à l'AFP ? Écrivez-nous par...