You are here

EDyLex

Découvrir

  • papyrus

    RMM2

    Visualisation d’événements thématiques tourisme/loisirs sur le web et les interfaces mobiles.

  • papyrus

    SCRIBO

    Outils collaboratifs pour l’annotation de documents basés sur des technologies du web sémantique (ontologie).

  • papyrus

    SAMAR

    Traitements linguistiques de l’arabe (extraction de connaissances, transcription de la parole dans les vidéos, traduction automatique en français et anglais) au sein d’un système de gestion de contenus.

Enrichissement dynamique des ressources lexicales multilingues
2 photos

Amélioration de l’annotation sémantique des documents via la détection des mots nouveaux (noms propres, néologismes …) pour les traitements linguistiques et la transcription de la parole.

De nouveaux mots, de nouveaux usages sont créés en permanence. Comment détecter et qualifier un mot inconnu ou un nouveau nom propre dans un texte ou dans un flux de paroles ? Comment lui attribuer une phonétique, une catégorie, des propriétés syntaxiques, une place dans un réseau sémantique ? Pour répondre à ces questions, le projet EDylex a pour objectif d’expérimenter sur les contenus de l’Agence France Presse toutes les possibilités d’enrichissement dynamique des lexiques utilisés par les outils de traitement automatique du langage. Avec une production quotidienne de 5000 dépêches en six langues (français, anglais, espagnol, allemand, portugais et arabe), l’AFP constitue le terrain idéal  pour tester des solutions d’analyse linguistique multimodale et multilingue capables d’enrichir dynamiquement ses propres modèles de langage et lexiques.

Le consortium EDyLex est porté par l’équipe Paris 7 Alpage, spécialisé dans le développement d’analyseurs de textes écrits et des ressources associées. Il  regroupe deux grands laboratoires, le LIF et le LIMSI, composés tous deux de linguistes-informaticiens spécialistes de l’écrit et de l’oral et  trois entreprises, Vecsys Research (recherche industrielle en Traitement de la Parole), Syllabs (Ingénierie des langues pour les NTIC) et l’Agence France-Presse, partenaire utilisateur.

L’enjeu applicatif principal des méthodes et outils développés au sein d’EDyLex est d’améliorer l’annotation semi-automatique des documents ainsi que la transcription des bandes son des vidéos.

Un projet financé par l'Agence Nationale de la Recherche (ANR) (2009-2013).
 

logo du financeur ANR

 

Contactez l’AFP

Vous avez une info, un commentaire à transmettre à l'AFP ? Écrivez-nous par...