journ e technolangue l.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Journée Technolangue PowerPoint Presentation
Download Presentation
Journée Technolangue

Loading in 2 Seconds...

play fullscreen
1 / 38

Journée Technolangue - PowerPoint PPT Presentation


  • 205 Views
  • Uploaded on

Journée Technolangue. Le rôle d’ELDA/ELRA dans la diffusion des ressources linguistiques. Valérie Mapelli ELRA/ELDA 55-57 Rue Brillat-Savarin, F-75013 Paris, France Tél. +33 1 43 13 33 33 -- Fax. +33 1 43 13 33 30 Email: mapelli@elda.org Web: http://www.elda.org .

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Journée Technolangue' - johana


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
journ e technolangue
Journée Technolangue

Le rôle d’ELDA/ELRA dans la

diffusion des ressources linguistiques

Valérie Mapelli

ELRA/ELDA

55-57 Rue Brillat-Savarin, F-75013 Paris, France

Tél. +33 1 43 13 33 33 -- Fax. +33 1 43 13 33 30

Email: mapelli@elda.org

Web: http://www.elda.org

journ e technolangue plan
ELRA/ELDA, Historique, Structure, Mission

Distribution

Validation

Production

Evaluation - EVALDA

Diffusion d’information … LREC 2008

Journée TechnolanguePlan
analyse contrastive r le publique rationaliser les financements publics jusqu en 2000
Analyse Contrastive“Rôle” publique – Rationaliser les financements publics … Jusqu’en 2000

AVANT ELRA:

Aucune ressource disponible

Duplication des efforts et des financements

<== RL JAMAIS DISTRIBUEES

ACQUILEX

ARS

GENELEX

ONOMASTICA

PLUS

POLYGLOT

REWARD

SUNDIAL

SUNSTAR

APRES la création d’ELRA par la CE

(RL DESORMAIS DISTRIBUEES

Voir le catalogue ELRA)

ACCOR

COST-232

CRATER

MULTEXT

PAROLE

SPEECHDATFamily

TSNLP

(Euro)WordNet

  • Retour sur investissement
  • Capitalisation rationnelle
  • Fonds "Public"
elra une infrastructure am lior e pour le partage des donn es
ELRA Une infrastructure améliorée pour le partage des données

Une association d’utilisateurs de RL

  • Un centre de dépôt :
      • Aspects techniques et logistiques
      • Aspects commerciaux (prix, cotisations, royalties)
      • Aspects juridiques (licences, DPI)
      • Diffusion d’information

Infrastructure pour l’évaluation des Technologies de la Langue qui

propose ressources, outils, méthodologies, logistique,

Exit strategy / Capitalisation sur les packages d’évaluation

elra une structure efficace pour servir la communaut des tl 10 ans d activit s
1994-1995RELATOR un consortium à dimension européenne avec le soutien de la Commission européenne, s’efforçant d’établir un Centre de dépôt européen de ressources linguistiques.

1995 Mise en place de l’Association européenne pour les ressources linguistiques (ELRA) en tant que centre d’archivage, mise en place de l’Agence de distribution (ELDA)

1996… Notre première “liste” de Ressources Linguistiques identifiées, suivie du premier Catalogue

1997 Négociation des droits de distribution, Début des activités de distribution,

Projets R&D sur les questions relatives aux RL (co-financés par l’UE, les agences françaises, etc.)

Extension du droit d’adhésion aux non européens

1998: 1er LREC, BLARK,

Production & sous-traitance de la production de RL (production interne et réseau de production)

Analyse de marché, Etat de l’art

Activités d’Evaluation (projet Else janvier 98), Intégration de TA et ASR (Systran & Dragon), TTS

1999-: Orientation forte vers la Production (famille Speechdat, LRs-P&P, SpeeCon, etc.),

Validation de RL et contrôle qualité des RL, mise en place d’unités de validation

ELRA: Une structure efficace pour servir la communauté des TL - 10 ans d’activités
elra une structure efficace pour servir la communaut des tl 10 ans d activit s6
2000- Répertoire des acteurs des TL et promotion du domaine (EuroMap, …)

Début d’un partenariat actif avec LDC : coordination juridique et production

Lancement de campagnes d’EVALUATION (Amaryllis, Aurora)

2001- Identification de Ressources Multimodales (projet Isle)

“roadmaps” des TL et RL, étude des activités nationales existantes

2004- Catalogue Universel

2005- Portail HLT : Informer ELRA

2005- Programme de fidélité

2005- Extension de la mission officielle d’ELRA pour la promotion de RL et l’évaluation dans le secteur des Technologies de la Langue dans toutes ses formes et ses usages. Ainsi, les objectifs sont : coordonner et réaliser l’identification, la production, la validation, la distribution, la standardisation des RL, ainsi que soutenir l’évaluation des systèmes, produits, outils, etc. D’autres ressources seront également prises en considération si les développements du secteur le rende souhaitable : par exemple, les ressources multimedia contenant ou non des langues

ELRA: Une structure efficace pour servir la communauté des TL - 10 ans d’activités
l association
L’Association
  • Système d’adhésion:
  • ELRA ouverte aux institutions européennes et non européennes
  • Ressources disponibles aux membres et aux non membres
  • Paiement par ressource
  • Quelques avantages à devenir membre :
  • Remises significatives sur le prix des RL (plus de 70%)
  • Assistance juridique et contractuelle relative aux RL
  • Chiffres et faits sur le marché (résultats d’enquêtes ELRA)
  • Lettre d’information et autres publications
  • Organe opérationnel : ELDA
slide8

Licences d’utilisation

Utilisateurs finals

Détenteurs

Contrat évaluation

Utilisateurs finals

Contrat utilisateur final

ELRA

Producteurs

Utilisateurs finals

Intégrateur

Contrat intégrateur

Contrat de distribution

slide9

Fournisseur

Utilisateur

Fournisseur

Utilisateur

Fournisseur

Utilisateur

ContratsFournisseur-Utilisateur

Licences d’utilisation

collecte de ressources linguistiques
Collecte de Ressources Linguistiques

Catalogue

Catalogue Universel

Catalogue “R&D” (RL “bon marché”)

Packages d’Evaluation

Collecte de Ressources Linguistiques
les ressources distribu es par elda

Packages

Evaluation

Les ressources distribuées par ELDA

Les ressources distribuées par ELDA

Parole

Lexiques

Corpus

Terminologie

Monolingues

Multilingues

Monolingues

Multilingues

Monolingues

Multilingues

  • Reconnaissance
  • Traitement automatique
  • Synthèse
  • Thérapie et parole
  • Extraction
  • terminologique
  • Contrôle d'analyseurs
  • de LN
  • Résumé de texte
  • automatique
  • Création de
  • bases de données
  • Consolidation de
  • lexiques
  • Validation de
  • mémoire de
  • traduction
  • Correcteurs
  • orthographiques
  • Extraction
  • d'information
  • Indexation
  • de document
  • Extraction d'information
  • Indexation de document
  • Systèmes de
  • traduction automatique
  • Extraction
  • d'information
  • Implémentation
  • de thesauri
  • Génération
  • Traduction
  • Génération
  • Consolidation de
  • dictionnaires
catalogue universel
Catalogue Universel

ELRA

Catalogue Universel

CATALOGUE ELRA

Accès restreint aux Membres d’ELRA

Contient actuellement : 850 RL

RL

Distributeurs/Fournisseurs

Centres de données

Autres fournisseurs

Projets et partenaires

catalogue r d
Besoin exprimé par plusieurs académiques

Sélection de ressources “bon marché” rassemblées dans un nouveau Catalogue

“ Catalogue R&D ” http://catalog.elra.info/retd/

Moyen de substitution avant la parution d’un moteur de recherche avancé

“ Catalogue R&D ”
distribution usage
Distribution - Usage

Nombre de ressources distribuées

Classement par type d’usage: Recherche / Commercial / Evaluation

distribution types de rl
Distribution – Types de RL

Nombre de ressources distribuées

Classement par type de ressource: Oral / Ecrit / Terminologie / Evaluation

Nouveauté 2006 = 15 Packages évaluation autres qu’AURORA

t ches compl mentaires
Validation de RL

Production de RL, packaging & financement

Evaluation

Tâches complémentaires
validation
Décrire la méthodologie pour la validation de RL (écrites et orales)

Décrire la qualité des RL existantes

via le “QQC” (ressources orales et écrites)

Améliorer la qualité des RL existantes

via un méchanisme de rapport d’incidents (bug report)

Promouvoir la méthodologie et la qualité des RL

Validation
service de production de rl
Service de Production de RL
  • SPEECHDAT-CAR (US)
  • SPEECON (99-2000)
  • NET-DC (Broadcast-News)
  • OrienTel
  • C-Oral-Rom
  • Neologos (Technolangue)
  • SALA-II
  • Productions “customisées”

Production de RL – dans le cadre de l’UE

Production de RL – autres cadres

evaluation
Infrastructure pour l’évaluation

Production de RL adaptées à l’évaluation

Campagnes d’évaluation

Evaluation
pourquoi valuer
Valider les hypothèses de recherche

Vérifier les progrès

Choisir les alternatives de recherche

Identifier les technologies prometteuses (marché)

Benchmarking … état de l’art

Partager les connaissances … ateliers dédiés

Retour … Agences de financements

Coûts partagés ???

Pourquoi évaluer ?
slide22

Evaluation : EVALDA …

  • PROGRAMME TECHNOLANGUE
        • 8 projets ressources linguistiques
        • 6 projets outils
        • 3 projets standards (Parole / Ecrit)
        • 1 projet veille technologique (Portail)
        • 8 projets évaluation : 7 sur la technologie, 1 sur l’évaluation d’usage

Constitution d’une

infrastructure d'évaluation des systèmes d'ingénierie linguistique

du français,

pérenne et permanente,

et son exploitation

par la mise en œuvre de plusieurs expérimentations

slide23

EVALDA - Les thèmes

  • l'oral :
        • la synthèse vocale,
        • les transcriptions d'émissions d'actualité,
        • le dialogue (pour des serveurs d'information orale type renseignements touristiques).
  • l'écrit :
        • les analyseurs syntaxiques,
        • la tâche question-réponse en recherche d’information,
        • l’alignement de corpus multilingues
        • la traduction automatique.
slide24
Campagnes d’évaluation EVALDA

1. ARCADE II :Evaluation de systèmes d’alignement de corpus bilingues

2. CESART :Evaluation de systèmes d’extraction de terminologie

3. CESTA :Evaluation de systèmes de traduction automatique

4. EASy :Evaluation de systèmes d’annotation syntaxique

5. EQueR :Evaluation de systèmes de question-réponse

6. ESTER :Evaluation de systèmes de transcription automatique d’émissions radiodiffusées

7. EVASy :Evaluation de systèmes de synthèse de la parole

8. MEDIA :Evaluation de systèmes de dialogue en contexte et hors-contexte

EVALDA - Campagnes

slide25
1. Pérenniser les produits

Créer une/des plate-forme(s) d’évaluation des technologies linguistiques qui soit réutilisable au-delà d’EVALDA.

Constituer une base de ressources utiles en-dehors d’EVALDA.

2. Créer des synergies entre les différentes campagnes EVALDA

Partager et réutiliser les ressources et les outils développés originellement pour une campagne dans d’autres campagnes.

Partager les efforts et l’expertise mis en œuvre et générés.

3. Créer des synergies à l’extérieur d’EVALDA e.g. Technovision, FP6

Partager des ressources créées dans EVALDA avec d’autres projets.

Réutiliser dans EVALDA des ressources créées dans d’autres projets.

Intégrer les outils créés dans EVALDA dans un cadre de développement plus large.

EVALDA - Objectifs

slide26
Synergies à l’intérieur d’EVALDA

EQUER  CESART

Réutilisation du corpus médical de la tâche médical comme corpus de spécialité (+ parallélisation avec l’anglais).

CESART  CESTA

Réutilisation du corpus médical bilingue parallèle anglais//français de CESART pour la 2nde campagne de CESTA.

ARCADE-II  CESTA

Réutilisation du corpus aligné arabe//français pour la 1ère campagne de CESTA.

EVASY  EASY

Réutilisation du corpus de 2200 emails anonymisés (DELIC)

ESTER  EASY

Réutilisation d’une partie des transcriptions d’émissions de radio

EQUER  EASY

Réutilisation d’un corpus de rapports du Sénat

EVALDA - Synergies

slide27
Synergies à l’extérieur d’EVALDA

Projet européen TC-STAR

Développement de systèmes distribués de traduction oral-oral en temps réel.

Réutilisation des plate-formes d’évaluation développées dans :

CESTA (traduction automatique)

EVASY (synthèse vocale)

Réutilisation de corpus alignés produits dans ARCADE-II (espagnol-anglais, chinois-français-anglais).

Projet Amaryllis (terminé)

Réutilisation de 3000 questions du corpus sur les notices bibliographiques dans EASY

EVALDA - Synergies

slide28

EVALDA – ARCADE II

  • Objectifs :
  • identifier les évolutions récentes de l’état de l’art de l’alignement multilingue.
  • approfondir l’évaluation sur un large éventail de langues, incluant les langues à écriture non-latine.

Participants : 5 laboratoires publics et 2 industriels

  • Tâche T1 : Alignement phrastique
  • Tâche T2 : Traduction d’entités nommées
  • Innovation – Intérêt :
  • - Recherche :
  • - ouverture à de nouvelles langues, notamment à écriture non-latine ;
  • - nouvelle tâche spécifique: traduction d’entités nommées français et arabe
  • - Industrie :
  • - absence de projet concurrent à l’heure actuelle ;
  • - avancée technologique et méthodologique dans l’évaluation de l’alignement multilingue
  • Ressources et Outils issus de la campagne :
  • - La mise au point de corpus de textes parallèles alignés d’une taille importante et portant sur un éventail de langues très important, dont diverses langues à différentes écritures:
    • latine : allemand, anglais, espagnol, français, italien
    • non-latine : arabe, chinois, grec, japonais, persan, russe
  • - La mise à disposition des participants du logiciel d’alignement Unicode AligneEd
slide29

EVALDA - CESART

  • Objectifs :
  • élaborer un nouveau protocole pour l'évaluation de systèmes d'acquisition de ressources terminologiques
  • produire des ressources réutilisables sous la forme d’un « package » d’évaluation

Participants : 3 laboratoires publics et 2 industriels

  • Tâche 1 : Extraction de candidats termes
  • Tâche 2 : Extraction de relations
  • Innovation – Apport :
  • - Prise en compte des critères d’évaluation basés sur l’application (utilisateur)
  • - Évaluation automatique (quantitative) + évaluation humaine (qualitative)
  • Ressources et Outils issus de la campagne :
  • - Collection de textes médicaux extraits du site de Santé-Canada
  • - Collection de textes de l’éducation provenant de la revue scientifique Spirale
  • - Listes des termes amorces de domaines spécialisés
slide30
Objectifs : - Création d'une méthodologie d'évaluation des analyseurs syntaxiques

- Développement des outils d’évaluation des résultats

- Création à faible coût d'une ressource linguistique validée

Participants : 2 coordinateurs, 5 fournisseurs de corpus, 13 participants

2 types d’évaluation : - constituants

- relations de dépendances

Innovation – Apports :

- De nombreux participants

- Constitution d’un corpus de 1 million de mots annoté en constituants et en relations syntaxiques.

Ressources et Outils issus de la campagne :

- Collection de textes français étiquetés syntaxiquement couvrant 6 domaines :

médical, littéraire, emails, général, oral et questions 1 million de mots

- Outils et Guide détaillé pour les annotations

- Outils d’évaluation (en constituants et en relations)

- Outil de visualisation des constituants et des relations

EVALDA - EASy

slide31
Objectifs :

Développer et mettre à disposition des outils et méthodes d’évaluation validés par le consortium

Mettre à jour les faiblesses et atouts des systèmes de synthèse

Participants : 6 laboratoires publics et 3 institutions privées

Trois axes d’évaluation :

Evaluation de la conversion graphème-phonème

Evaluation de la prosodie de synthèse

Evaluation globale de la synthèse

Innovation – Apports :

- Evaluations: Poursuite de la campagne AUPELF (maintenant AUF) 1996-1998:

- « Evaluation conversion grapheme-phoneme »: sur un corpus de noms propres

- « Evaluation de la Prosodie » : nouvelle tâche, innovation méthodologique

- « Evaluation Globale» : nouvelle tâche, innovation méthodologique

Ressources et Outils issus de la campagne :

Création d’un corpus phonétisé d’emails (2.146 emails, soit 114.685 mots)

Création d’un corpus phonétisé de noms propres (4.000 couples prénoms + noms)

Base de données associée aux noms propres : contexte, nationalité, origine linguistique

Création de ~15 listes de 10 phrases SUS (Semantically Unpredictable Sentences)

Nouvelle verbalisation pour les tests MOS (Mean Opinion Score)

Plate-forme d’évaluation pour réaliser les tests subjectifs (jugements humains)

EVALDA - EVASy

slide32
Objectifs :

définition d’une méthodologie d’évaluation de la compréhension des systèmes de dialogues

évaluation des systèmes de compréhension de dialogues

production et diffusion des ressources linguistiques

mesurer et faire progresser les performances des systèmes

Participants : 9 laboratoires publics et 3 institutions privées

Deux axes d’évaluations

evaluation hors-contexte du dialogue

evaluation en-contexte du dialogue

Innovation – Apports:

Définition d’un paradigme d’évaluation hors et en contexte de dialogue

Ressources et Outils issus de la campagne :

Corpus de 1250 dialogues enregistrés (WoZ) pour la tâche d’informations touristiques

Transcriptions orthographiques, annotations en segments sémantiques et méta-annotations (actes de dialogues, répetitions, incises, etc)

Outil d’annotation (semantizer)

Outil d’évaluation (mediaval)

EVALDA - MEDIA

slide33
Pérennisation:

Infrastructure d’évaluation : évaluation sur mesure à ELDA

Capitalisation : Distribution Packages d’évaluation des différents projets EVALDA:

Disponibles à ELDA (à paraître dans catalogue)

Prix couvrant les coûts de production

EVALDA – Packages d’évaluation

slide34

Autres campagnes d’Evaluation Capitalisation

  • Parole & Son/audio
    • ASR: TC-STAR, CHIL
    • TTS: TC-STAR
    • Identification du locuteur (CHIL)
    • Traduction Parole-Parole (SST)
    • Suivi acoustique de la personne
    • Détection d’activité de la parole, …..
    • ………
slide35

Autres campagnes d’Evaluation Capitalisation

  • Multimodal --- Video – Technologies de la vision
    • Détection du visage
    • Suivi visuel de la personne
    • Identification visuelle du locuteur
    • Estimation des poses de tête
    • Suivi des mains
slide36
Sites ELRA & ELDA

www.elra.info www.elda.org

Technolangue

www.technolangue.net

Portail sur l’évaluation

www.hlt-evaluation.org

Language Resources & Evaluation Journal

www.springerlink.com/content/113189

Lettre d’information ELRA

Conférence LREC…

Diffusion d’information

conf rence lrec conf rence internationale sur les ressources linguistiques et l evaluation
Conférence LRECConférence internationale sur les Ressources Linguistiques et l’Evaluation

Tous les 2 ans

~ 900 participants

Connection entre industriels et partenaires académiques

Ressources Linguistiques & Evaluation

  • LREC 1998 Grenade
  • LREC 2000 Athènes
          • LREC 2006 Gênes

Prochainement : LREC’2008

  • LREC 2002 Las Palmas
  • LREC 2004 Lisbonne
lrec 2008
LREC 2008

Quand ? Fin mai 2008

Où ? Marrakech

http://www.lrec-conf.org