technolangue campagnes d evaluation evalda n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Technolangue Campagnes d’Evaluation (EVALDA) PowerPoint Presentation
Download Presentation
Technolangue Campagnes d’Evaluation (EVALDA)

Loading in 2 Seconds...

play fullscreen
1 / 40

Technolangue Campagnes d’Evaluation (EVALDA) - PowerPoint PPT Presentation


  • 64 Views
  • Uploaded on

Technolangue Campagnes d’Evaluation (EVALDA). Khalid CHOUKRI ELRA/ELDA (choukri@elda.org) http://www.technolangue.net http://www.elda.org/rubrique69.html. Objectif du projet Evalda Descriptif des campagnes Synergie entre campagnes et apports Conclusion (Panel)

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Technolangue Campagnes d’Evaluation (EVALDA)' - chogan


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
technolangue campagnes d evaluation evalda

Technolangue Campagnes d’Evaluation(EVALDA)

Khalid CHOUKRI

ELRA/ELDA (choukri@elda.org)

http://www.technolangue.net

http://www.elda.org/rubrique69.html

slide2
Objectif du projet Evalda

Descriptif des campagnes

Synergie entre campagnes et apports

Conclusion (Panel)

Présentation disponible sur www.technolangue.net

EVALDA / Plan

slide3

EVALDA / Définition

Le consortium propose la constitution

d’une infrastructure d'évaluation des

systèmes d'ingénierie linguistique du

français, pérenne et permanente,

et son exploitation par la

mise en œuvre de plusieurs expérimentations

slide5

EVALDA / Objectifs (1/3)

  • Mise en place de “briques” réutilisables 
      • organisation, logistique, ressources linguistiques, métriques et outils, … des acteurs (comités scientifiques, experts, partenaires…).
  • Garantir une indépendance et une neutralité
  • Optimiser la synergie et la rationalisation .. Planning ressources réflexions (économie d’échelle)
  • garantir la possibilité de capitaliser les résultats des différentes expérimentations
slide6

EVALDA / Objectifs (2/3)

  • L’infrastructure devra comprendre plusieurs pôles :
  • un pôle recherche et méthodes
  • un pôle d’élaboration des protocoles, des métriques et des outils d’évaluation
  • un pôle de production et de validation des ressources linguistiques
  • un pôle coordination pour la gestion et le suivi des campagnes
  • un pôle logistique
  • un pôle de pérennisation pour assurer la capitalisation des connaissances, des outils et des ressources accumulés.
slide7

EVALDA / Partenaires

AFCP ENST LIDILEM Tagmatica

APIL EPFL Lille3-CERSATES TELIP

ATALA ERSS LIMSI U-Maine

ATILF-ILF FT R&D Lingway U-Mons

Bell Labs GREYC LLF U-Neuchâtel

CISMEF-Rouen ICP LORIA VALORIA

CRIM IMS LPL VECSYS

CRIS INRIA Multitel XEROX

CRISCO IRISA RALI

DELIC IRIT Sinequa

DFKI iSmart Softissimo

DGA LATL STIM-AP/HP

ELAN LIA Synapse

ELDA LIC2M Systran

slide8
I. Objectifs en plus de l’état de l’Art

1. Pérenniser les produits

Créer une/des plate-forme(s) d’évaluation des technologies linguistiques qui soit réutilisable au-delà d’EVALDA.

Constituer une base de ressources utiles en-dehors d’EVALDA.

2. Créer des synergies entre les différentes campagnes EVALDA

Partager et réutiliser les ressources et les outils développés originellement pour une campagne dans d’autres campagnes.

Partager les efforts et l’expertise mise en œuvre et générée.

3. Créer des synergies à l’extérieur d’EVALDA e.g. Technovision? FP6

Partager des ressources créées dans EVALDA avec d’autres projets.

Réutiliser dans EVALDA des ressources crées dans d’autres projets.

Intégrer les outils créés dans EVALDA dans un cadre de développement plus large.

EVALDA / Objectifs (3/3)

slide9

EVALDA / Les thèmes

    • l'oral :
        • la synthèse vocale,
        • les transcriptions d'émissions d'actualité,
        • le dialogue (pour des serveurs d'information orales type renseignements touristiques).
    • l'écrit :
        • les analyseurs syntaxiques,
        • la tâche question-réponse en recherche d’information,
        • l’alignement de corpus multilingues
        • la traduction automatique.
  • Nécessité de trouver des sous-thèmes transversaux
slide10
I. Campagnes d’évaluation EVALDA

1. ARCADE II :Evaluation de systèmes d’alignement de corpus bilingues

2. CESART :Evaluation de systèmes d’extraction de terminologie

3. CESTA :Evaluation de systèmes de traduction automatique

4. EASy : Evaluation de systèmes d’annotation syntaxique

5. EQueR :Evaluation de systèmes de question-réponse

6. ESTER :Evaluation de systèmes de transcription automatique d’émissions

radiodiffusées

7. EVASy :Evaluation de systèmes de synthèse de la parole

8. MEDIA :Evaluation de systèmes de dialogue en contexte et hors-contexte

EVALDA / Les campagnes

slide11
I.1. Campagne d’évaluation ARCADE II (1/2)

EVALDA / ARCADE II

  • Objectifs :
  • identifier les évolutions récentes de l’état de l’art de l’alignement multilingue.
  • approfondir l’évaluation sur un large éventail de langues, incluant les langues à écriture non-latine.

Participants : 5 laboratoires publics et 2 industriels

  • Tâche T1 : Alignement phrastique
  • 5 participants
  • 2 groupes des langues dont 5 langues à écriture latine (allemand, anglais, espagnol, français, italien) et 6 langues à écriture non-latine (arabe, chinois, grec, japonais, persan, russe)
  • 2 types des corpus parallèles alignés au français (avec ou sans segmentation en phrases)
  • 5 millions de mots (1 million pour chaque des langues à écriture latine) ; 550 articles (150x2 arabe-fr ; 50x2 pour les 5 autres langues à écriture non-latine)
  • Tâche T2 : Traduction d’entités nommées
  • 3 participants
  • 30x2 articles français annotés en EN (Monde Diplomatique) et les textes parallèles en arabe
  • 4000 entités nommées en français à traduire en arabe
slide12
I.1. Campagne d’évaluation ARCADE II (2/2)

Innovation – Intérêt :

- Recherche :

- ouverture à de nouvelles langues, notamment à écriture non-latine ;

- nouvelle tâche spécifique qui est traduction d’entités nommées français et arabe

- Industrie :

- absence de projet concurrent à l’heure actuelle ;

- avancée technologique et méthodologique dans l’évaluation de l’alignement multilingue

Ressources et Outils issus de la campagne :

- La mise au point de corpus de textes parallèles alignés d’une taille importante et portant sur un éventail de langues très important, dont diverses langues à de différentes écritures

- La mise à disposition des participants du logiciel d’alignement Unicode AligneEd

EVALDA / ARCADE II

slide13
I.2. Campagne d’évaluation CESART (1/2)

EVALDA / CESART

  • Objectifs :
  • élaborer un nouveau protocole pour l'évaluation de systèmes d'acquisition de ressources terminologiques
  • produire des ressources réutilisables sous la forme d’un « package » d’évaluation

Participants : 3 laboratoires publics et 2 industriels

  • Tâche T1 : Extraction de candidats termes
  • 4 participants
  • 3 domaines spécialisés (médecine, éducation, politique)
  • 1 corpus médical (CISMeF) de 9 millions de mots français ; 1 corpus de l’éducation (SPIRAL) de 535.000 mots français ; 1 corpus politique (JOC) 240.000 mots français
  • Tâche T3 : Extraction de relations
  • 1 participant
  • 3 corpus de domaines spécialisés
  • 3 thésaurus des domaines définis
  • 3 listes de termes amorces
slide14
I.2. Campagne d’évaluation CESART (2/2)

Innovation – Apport :

- Prise en compte des critères d’évaluation basés sur l’application (utilisateur)

- Évaluation automatique (quantitative) + évaluation humaine (qualitative)

Ressources et Outils issus de la campagne :

- Collection de textes médicaux extraits du site de Santé-Canada

- Collection de textes de l’éducation provenant de la revue scientifique Spirale

- Listes des termes amorces de domaines spécialisés

EVALDA / CESART

slide15
I.3. Campagne d’évaluation CESTA (1/2)

Objectifs : - Alimenter l’activité de recherche dans le domaine en fournissant une photographie de l’état de l’art en France.

- Permettre le développement de cette activité en fournissant des corpus aux chercheurs

Participants : 5 systèmes industriels et 2 académiques

Deux campagnes : une campagne sur un vocabulaire non restreint, une campagne sur un domaine spécialisé (évaluation après enrichissement terminologique)

Première campagne :- 2 corpus anglais et arabe de 20.000 mots + 200.000 mots de masquage

- 2 traductions de référence en français

Seconde campagne :- même quantité de données que la première campagne

- enrichissement terminologique à partir d’un corpus de développement

EVALDA / CESTA

slide16
I.3. Campagne d’évaluation CESTA (2/2)

Innovation – Apports :

- Nouvelles paires de langues anglaisfrançais et arabefrançais

- Expérimentation de nouvelles métriques d’évaluation

- Méta-évaluation de métriques automatiques

- Plates-formes d’évaluation humaine et automatique

Ressources et Outils issus de la campagne :

- Corpus français de 13.000 mots étiqueté fluidité et adéquation

- Corpus anglais-français et arabe-français alignés de 20.000 mots chacun

- Corpus anglais-français et arabe-français alignés de 20.000 mots chacun sur un domaine spécialisé

- Plate-forme d’évaluation pour des jugements humains

- Plate-forme d’évaluation automatique

- Développement de deux nouvelles métriques automatiques

EVALDA / CESTA

slide17
I.4. Campagne d’évaluation EASy (1/2)

Objectifs :- Création d'une méthodologie d'évaluation des analyseurs syntaxiques

- Développement des outils d’évaluation des résultats

- Création à faible coût d'une ressource linguistique validée

Participants :2 coordinateurs, 5 fournisseurs de corpus, 13 participants

Corpus :- 1 million de mots

- 6 types de corpus issus de sources hétérogènes :

- médical (105 kmots)

- littéraire (275 kmots)

- méls (120 kmots)

- général (260 kmots)

- transcriptions de l’oral (100 kmots)

- questions (140 kmots)

2 types d’évaluation : - constituants

- relations de dépendances

EVALDA / EASy

slide18
I.4. Campagne d’évaluation EASY (2/2)

Innovation – Apports :

- De nombreux participants

- Constitution d’un corpus de 1 million de mots annoté en constituants et en relations syntaxiques.

Ressources et Outils issus de la campagne :

- Collection de textes français étiquetés syntaxiquement couvrant 6 domaines :

médical, littéraire, emails, général, oral et questions 1 million de mots

- Outils et Guide détaillé pour les annotations

- Outils d’évaluation (en constituants et en relations)

- Outil de visualisation des constituants et des relations

EVALDA / EASy

slide19
I.5. Campagne d’évaluation EQueR (1/2)

Objectifs : - Alimenter l’activité de recherche dans le domaine en fournissant une photographie de l’état de l’art en France.

- Permettre le développement de cette activité en fournissant des corpus aux chercheurs

Participants : 5 laboratoires publics et 3 institutions privées

Deux tâches : une tâche générique (7 participants) et une tâche spécialisée (5 participants)

Tâche générique :- 1,5 Go collection hétérogènes de textes (articles de presses LM, LMD, SDA, Sénat)

- 500 questions (factuelle, définition, liste, oui/non)

Tâche spécialisée :- 140 Mo collection de textes liés au domaine médical (articles scientifiques, recommandations de bonnes pratiques médicales

- 200 questions (factuelle, définition, liste, oui/non)

EVALDA / EQueR

slide20
I.5. Campagne d’évaluation EQueR (2/2)

Innovation – Apports :

- Participants : - De nouveaux participants qui n’avaient jamais fait d’évaluation Q-R auparavant.

- Beaucoup d’équipes françaises en comparaison avec le nombre de participants européens à CLEF.

- Evaluation : - Tâche « Question-réponse » sur un corpus spécialisé.

- Un nouveau type de questions : oui/non.

Ressources (R) et Outils (O) issus de la campagne :

- Collection de textes français, 1,5 Go (articles de presse). R

- Collection de textes français issus du domaine médical, 140 Mo (articles scientifiques,

recommandations). R

- Corpus « général » de 500 questions en français. R

- Corpus « médical » de 200 questions en français. R

- Logiciel d’aide à l’évaluation des résultats dans le cadre d’une évaluation de systèmes

de question-réponse O

- Logiciel d’évaluation automatique (en cours de développement) O

EVALDA / EQueR

slide21
I.6. Campagne d’évaluation ESTER (1/2)

Objectifs : -promouvoir une dynamique de l'évaluation en France

- mettre en place une structure pérenne d'évaluation

- production et diffusion des ressources linguistiques importantes

- mesurer et faire progresser les performances des systèmes

Participants : - 11 laboratoires publics

- 2 institutions privées

Trois tâches : - Transcription orthographique (+ catégorie temps réél)

- Segmentation (en événements sonores, en locuteurs, suivi de locuteurs)

- Extraction d’informations (détection d’entités nommées)

EVALDA / ESTER

slide22
I.6. Campagne d’évaluation ESTER (2/2)

Innovation – Apports :

La majorité des participants développaient pour la première fois un système de transcription automatique

Participation nombreuse

Tâche de détection d’entités nommées sur de l’oral

Ressources et Outils issus de la campagne :

100 h d’émissions radiophoniques transcrites et annotés en EN (40 h pré existantes)

1700 h d’émissions radiophoniques non transcrites

Guides d’annotations

Package de scoring

Ressources dérivées : lexiques, alignement phonétiques, transcription automatique

EVALDA / ESTER

slide23
I.5. Campagne d’évaluation EVASy (1/2)

Objectifs : - Développer et mettre à disposition des outils et méthodes d’évaluation validés par le consortium

- Mettre à jour les faiblesses et atouts des systèmes de synthèse

Participants : - ELDA, coordinateur

- LIMSI-CNRS, responsable scientifique

- DELIC (Université de Provence), fournisseur de corpus

- CRISCO (Université de Caen)

- LIA (Université d’Avignon)

- Acapela Group - ELAN

- ICP Grenoble

- LATL: participant externe

- MULTITEL ASLB: participant externe

Trois axes d’évaluation :

Evaluation de la conversion graphème-phonème

Evaluation de la prosodie de synthèse

Evaluation globale de la synthèse

EVALDA / EVASy

slide24
I.7. Campagne d’évaluation EVASy (2/2)

Innovation – Apports :

- Evaluations: Poursuite de la campagne AUPELF (maintenant AUF) 1996-1998:

- « Evaluation conversion grapheme-phoneme »: sur un corpus de noms propres

- « Evaluation de la Prosodie » : nouvelle tâche, innovation méthodologique

- « Evaluation Globale» : nouvelle tâche, innovation méthodologique

Ressources et Outils issus de la campagne :

Création d’un corpus phonétisé d’emails (2.146 emails, soit 114.685 mots)

Création d’un corpus phonétisé de noms propres (4.000 couples prénoms + noms)

Base de données associée aux noms propres : contexte, nationalité, origine linguistique

Création de listes de phrases SUS (Semantically Unpredictable Sentences) - ~15 listes de 10 phrases

Nouvelle verbalisation pour les tests MOS (Mean Opinion Score)

Plate-forme d’évaluation pour réaliser les tests subjectifs (jugements humains)

EVALDA / EVASy

slide25
I.8. Campagne d’évaluation MEDIA (1/2)

Objectifs :

définition d’une méthodologie d’évaluation de la compréhension des systèmes de dialogues

évaluation des systèmes de compréhension de dialogues

production et diffusion des ressources linguistiques

mesurer et faire progresser les performances des systèmes

Participants :

FT R&D : France Telecom Recherche et Développement

IMAG : Institut d'Informatique et de Mathématiques Appliquées de Grenoble

IRIT : Institut de Recherche en Informatique de Toulouse

LIMSI : Laboratoire des Systèmes et Instruments Ile de France

LIUM : Laboratoire d'Informatique de l'Université du Maine

LORIA : Laboratoire Lorrain d'Intelligence Artificielle

LIA : Laboratoire d'Informatique d'Avignon

VALORIA : Laboratoire de Recherche en Informatique et ses Applications de Vannes et Lorient

EVALDA / MEDIA

slide26
I.8. Campagne d’évaluation MEDIA (2/2)

Deux axes d’évaluations

evaluation hors-contexte du dialogue

evaluation en-contexte du dialogue

Innovation – Apports:

Définition d’un paradigme d’évaluation hors et en contexte de dialogue

Ressources et Outils issus de la campagne :

Corpus de 1250 dialogues enregistrés (WoZ) pour la tâche d’informations touristiques

Transcriptions orthographiques, annotations en segments sémantiques et méta-annotations (actes de dialogues, répetitions, incises, etc)

Outil d’annotation (semantizer)

Outil d’évaluation (mediaval)

EVALDA / MEDIA

synergies evalda

SynergiesEVALDA

Réutilisation des ressources et outils dans EVALDA et à l’extérieur

slide28
I. Objectifs

1. Créer des synergies entre les différentes campagnes EVALDA

2. Créer des synergies à l’extérieur d’EVALDA

EVALDA / Synergies

slide29
II. Synergies à l’intérieur d’EVALDA (1/3)

II.1. EQUER  CESART

Réutilisation du corpus médical de la tâche médical comme corpus de spécialité (+ parallélisation avec l’anglais).

II.2. CESART  CESTA

Réutilisation du corpus médical bilingue parallèle anglais//français de CESART pour la 2nde campagne de CESTA.

II.3. ARCADE-II  CESTA

Réutilisation du corpus aligné arabe//français pour la 1ère campagne de CESTA.

EVALDA / Synergies

slide30
II. Synergies à l’intérieur d’EVALDA (2/3)

II.4. EVASY  EASY

Réutilisation du corpus de 2200 emails anonymisés (DELIC)

II.5. ESTER  EASY

Réutilisation d’une partie des transcriptions d’émissions de radio

II.6. EQUER  EASY

Réutilisation d’un corpus de rapports du Sénat

EVALDA / Synergies

slide31

EVALDA / Synergies

II. Synergies à l’intérieur d’EVALDA (3/3)

slide32

TC-STAR

CHIL

Amaryllis

ARCADE-II

CESART

CESTA

EASY

EQUER

ESTER

EVASY

MEDIA

Réutilisation de ressources produites

Emprunt de ressources

Réutilisation d'outils

EVALDA / Synergies

II. Synergies à l’extérieur d’EVALDA (1/2)

slide33
II. Synergies à l’extérieur d’EVALDA (2/2)

II.1. Projet européen TC-STAR

Développement de systèmes distribués de traduction oral-oral en temps réel.

Réutilisation des plate-formes d’évaluation développées dans :

CESTA (traduction automatique)

EVASY (synthèse vocale)

Réutilisation de corpus alignés produits dans ARCADE-II (espagnol-anglais, chinois-français-anglais).

II.2. Projet Amaryllis (terminé)

Réutilisation de 3000 questions du corpus sur les notices bibliographiques dans EASY

EVALDA / Synergies

slide34
III. Pérennisation (1/5)

III.1. Produits d’ARCADE-II

Création de corpus alignés :

Textes allemand, italien, espagnol, anglais alignés au français (5 x 1M mots)

Arabe/français/anglais (3 x 150 articles)

Grec/français, japonais/français, chinois/français, russe/français, persan/français (5 x 50 articles)

III.2. Produits de CESTA

Création d’un corpus français de 13.000 mots étiqueté fluidité et adéquation.

Création de corpus alignés : anglais/français et arabe/français (2 x 20.000 mots)

Création d’une plate-forme d’évaluation (métriques automatiques + jugements humains) sous forme de services web.

Création d’une plate-forme d’évaluation humaine via Internet

Création de corpus médicaux alignés : anglais/français et arabe/français

EVALDA / Produits

RSC

RSC

RSC

LOG

LOG

RSC

slide35
III. Pérennisation (2/5)

III.3. Produits de CESART

Création de nouvelles listes de synonymes à ajouter au thésaurus international MeSH.

Création de 2 corpus spécialisés, domaine médical et domaine de l’éducation

III.4. Produits d’EVASY

Création d’un corpus phonétisé d’emails (plus de 2000 emails)

Création d’un corpus phonétisé de noms propres (4000 couples prénoms + noms)

Base de données associée aux noms propres : contexte, nationalité, origine linguistique

Création de listes de phrases SUS (Semantically Unpredictable Sentences) (150 phrases)

Nouvelle verbalisation tests MOS (Mean Opinion Score)

Plate-forme d’évaluation pour réaliser des tests subjectifs (jugements humains)

RSC

RSC

RSC

RSC

RSC

LOG

EVALDA / Produits

RSC

RSC

slide36
III. Pérennisation (3/5)

III.5. Produits d’EQueR

Création d’un corpus français d’environ 1,5 Go.

 constitué principalement de textes journalistiques et de textes de lois provenant de 4 sources différentes : Le Monde, Le Monde Diplomatique, SDA (équivalent de l’AFP en Suisse), et du site Web du Sénat.

Création d’un corpus « médical » français d’environ 50 Mo.

 constitué principalement d’articles scientifiques et de recommandations médicales tirés du Web et plus particulièrement des sites de Santé Canada, Orphanet, CHU Rouen, FNCLCC.

Création d’un corpus « général » de 500 questions en français.

Création d’un corpus « médical » de 200 questions en français.

Outil d’aide à l’évaluation de système de question-réponse

EVALDA / Produits

RSC

RSC

RSC

RSC

LOG

slide37
III. Pérennisation (4/5)

III.6. Produits d’ESTER

Production d’un corpus de 60 h d’émissions radiophoniques transcrites orthographiquement

Annotation en Entités Nommés de 100 h d’émissions radiophoniques

Production d’un corpus de 1700h d’émissions radiophoniques

Outils d’évaluation

III.7. Produits d’EASY

Corpus étiqueté syntaxiquement de 1 million de mots couvrant plusieurs styles de textes : langue générale (journaux, rapports…), questions, emails, transcriptions, littéraire, médical

Outils d’évaluation

EVALDA / Produits

RSC

RSC

RSC

LOG

RSC

LOG

slide38
III. Pérennisation (5/5)

III.8. Produits de MEDIA

Corpus de 1250 dialogues enregistrés, transcrits et annotés sémantiquement et en actes de dialogue

Méta annotations

Outil d’annotation sémantique

Paradigme et outil d’évaluation

III.9. Intégration

Dans le cadre des synergies avec TC-STAR, puis avec CHIL

Développement d’une architecture distribuée pour l’évaluation, intégrant les outils logiciels produits par EVALDA

Pour commencer : ESTER, CESTA, EVASY

EVALDA / Produits

RSC

RSC

LOG

LOG

slide39
IV. Dissémination

Articles (conférences) : - EVALDA/Technolangue.net , CESTA, ESTER à LREC 2004

- EVALDA, ESTER aux JEP à Fès 2004

- CESTA à COLING 2004

- EVASY à InterSpeech 2005, et TALN 2005

- EQUER et EASY à TALN 2005

- CESTA à MT Summit 2005

Revues : - EVASY soumis à Speech Communication, Computer Speech & Language, TALN

- CESTA dans Multilingual Computing & Technology #68

Posters (conférences) : - EVALDA/Technolangue.net, MEDIA à LREC 2004 - MEDIA aux JEP à Fès 2004

- MEDIA à InterSpeech 2005

Stands : - EVALDA/Technolangue.net à iEXPO 2004

Sites web : www.technolangue.net www.elda.org/evasy

www.elda.org www.limsi.fr/Recherche/CORVAL/easy

www.afcp-parole.org/ester

Workshops : - EQUER, 30 novembre 2004 - MEDIA, 14 novembre 2005

- ESTER, mars 2005 - EVASY, février ou mars 2006

EVALDA / Dissémination

technolangue evalda

EVALDA / Conclusion

Technolangue (EVALDA)

Un cas unique en Europe

Un exemple qui inspire plusieurs programmes nationaux

Une capitalisation importante

... étendre a l’Europe ?