1 / 99

Patrick Paroubek / Limsi-CNRS

É valuation et Traitement Automatique des Langues. Patrick Paroubek Laboratoire pour la Mécanique et les Sciences de l’Ingénieur Centre National de la Recherche Scientifique. Patrick Paroubek / Limsi-CNRS. Le paradigme d’ évaluation Contrastes Historiques Europe / É tats-Unis

dimaia
Download Presentation

Patrick Paroubek / Limsi-CNRS

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Évaluation et Traitement Automatique des Langues Patrick Paroubek Laboratoire pour la Mécanique et les Sciences de l’Ingénieur Centre National de la Recherche Scientifique Patrick Paroubek / Limsi-CNRS

  2. Le paradigme d’évaluation • Contrastes Historiques Europe / États-Unis • Le traitement de l’écrit • Annoter (Kappa) & Aligner (Prog. Dyn.) &Évaluer (Précision/Rappel) • Morphosyntaxe • Syntaxe • Remarque sur l’évaluation des systèmes de dialogue

  3. 1. Le paradigme d’évaluation

  4. Évaluation : subst fém. Action d’évaluer, d’apprécier la valeur (d’un chose); technique, méthode d’estimation. [TLFI] L’évaluation est "une formalisation" d’un processus de sélection naturelle. L’évaluation est inhérente au processus scientifique. Trouver une réponse (optimale) à un problème. Comment comparer les réponses ? L’évaluation nécessite l’adoption d’un système de valeurs.

  5. Qu’évalue t’on ? (identifier la frontière du système et la tâche effectuée par le système) • Évalue t’on un système ou un couple système-utilisateur ? • Par rapport à quel système de valeurs ? • Par rapport à quel objectif ? (réponse apportée par l’évaluation). Rem. L’évaluation n’est pas une compétition (compétition = qui ? , évalution = comment ?)

  6. L’évaluation fait peur (sélection/compétition). Le rapport ALPAC 1966 a engendré un arrêt des financements aux USA pour la Traduction Automatiquependant 20 ans. Mais ce qui est dangereux n’est pas l’évaluation, mais la manière dont on utilise ses résultats. Par ex. une lecture abusive du livre de Minsky & Papert (Perceptrons) a retardé l’avènement des réseaux de neurones multi-couches d’une dizaine d’années. Maghi King, « When is the next ALPAC report due? », 10th International Conferenceon Computational Linguistics, Proceedings of Coling84, July 1984, Stanford University, Ca (ACL 1984); p 352-353. http://ourworld.compuserve.com/homepages/WJHutchins/Alpac.htm

  7. Les campagnes d’évaluations sont un accélérateur duprocessus scientifique: ressources, outils, standards, infrastructure, synergie. LDC (http ://www.ldc.upenn.edu) aux USA et ELRA/ELDA en Europe (http ://www.elra.org ou www.elda.info) Objectif : créer, maintenir, distribuer, partager des ressourceslinguistiques. LDC = Linguistic Data Consortium, consortium ouvert de laboartoires de recherche, univsertités, industriels et agences gouvernementales, fondé en 1992 (ARPA et NSF), hébergé à l’Université Pennsylvania.

  8. ELRA association à buts non lucratifs (loi 1901), basée au Luxembourg, fondée en février 1995. ELDA, S.A. fondée en février 1995, instrument exécutif d’ELRA. Financement Européen initial, puis auto-financement. Objectif: pérenniser/partager les ressources produites par les projets Européens, ainsi que produire de nouvelles ressources. Impact de l’évaluation : Ex. Progrès en reconnaissance de Parole grace aux évaluationsDARPA aux USA qui ont amené la technologie sur le marché.

  9. Compétition: 1 critère, ordre total, pas d’audit de performance, pas de reproductibilité Validation : plusieurs critères, ordre partiel, seuil de performance, réponse oui/non, reproductibilité Évaluation: plusieurs critères, ordre partiel, audit de performance, reproductibilité.

  10. ELSE distingue : 5 types d’évaluations: ELSE: http: //www.limsi.fr/TLP/ELSE

  11. Évaluation en recherche de base, pour valider des idées nouvelles et quantifier leur apport, • Évaluation de technologie, mesure de la performance etde l’adéquation de méthodes pour résoudre un problèmebien défini, simplifié et abstrait, • Évaluation orientée utilisateur, utilisabilité d’une technologie pour résoudre un problème de terrain,en conditions réelles d’utilisation, • Évaluation d’impact, conséquences socio-économiquedu déploiement d’une technologie, • Évaluation de programme, évaluation d’impact destechnologies supportées par un programme institutionnel.

  12. « extrinsic » / « intrinsic » evaluation criteria, Intrinsèque = critère lié uniquement à la fonction propre du système Extrinsèque = critère lié à la fonction du système, considérée dans son environnement de déploiement usuel. Karen Spark-Jones & Julia R. Galliers, « Evaluating Natural Language Processing Systems »,Springer, 1995.

  13. EAGLES distingue 3 types d’évaluation: • « adequacy » evaluation, adéquation d’un systèmepour une fonction donnée • « diagnostic » evaluation, identification des raisonsde dysfonctionnement • « progress » evaluation, mesure des progrès en performance EAGLES : http: //www.issco.unige.ch/projects/ewg96/ewg96.html(evalutation of NLP systems : final report, )

  14. Qualitative (morpholympics) Quantitative (NIST/DARPA, Technolangue-EVALDA) Comparative (NIST/DARPA, Technolangue-EVALDA) Boîte « noire » (NIST/DARPA, Technolangue-EVALDA) Boîte « blanche » (DISC) Subjective (morpholympics)Objective (NIST/DARPA, Technolangue-EVALDA)

  15. Le paradigmed’évaluation (Joseph Mariani) Assembler des acteurs (évaluateurs, participants, producteurs de ressources) Organiser une campagne d’évaluation sur de données communes Définir une mesure de performance commune Joseph Mariani, Patrick Paroubek, "Human Language Technologies Evaluation in the European Framework", actes de l'atelier DARPA Broadcast News Workshop, Whashington, February 1999, Morgan Kaufman Publishers, ISBN-1-55860-638-6, pp 237-242

  16. Une infrastructure pour l ’évaluation en ingéniérie • linguistique : • Comparative & Collaborative • Tâche/Application Indépendente • Semi-Automatique & Reproduisible • Boîte Noire + Conférence • Quantitative • Multilingue • Oral & écrit

  17. Actors in the infrastructure European Commission ELRA Evaluators Participants (EU / non EU) L. R. Producers Research Industry Citizens Users & Customers

  18. Attentes: • Renforcement de l’utilisation des standards • Des informations et des connaissances sur les applications et les technologies disponibles de meilleur qualité et plus abondantes • Des produits et des ressources de meilleurs qualité • Un accroissement de la quantité de ressources linguistiques annotées et validées

  19. Structure d’une campagne • Phase 1 - Développement (distribution calibrage / données d’entrainement) • Phase 2 - Essais + première Adjudication (+ Conférence/Atelier) • Phase 3 - Tests + seconde Adjudication + Conférence/Atelier • Phase 4 - Valorisation (distribution des données produites et des résultats) • Phase 4 - Étude d ’Impact

  20. La tâche de contrôle • La fonction de traitement du language doit être facile a comprendre • Elle peut être réalisée manuellement • Il peut s’agir d’une tâche « artificielle » • Il existe un formalisme commun, facilement accessible (projection/transcodage aisé) • Il est « facile » de définir une mesure de performance

  21. 2. Contrastes Historiques Europe / États-Unis

  22. Contexte international • États-Unis • Campagnes d ’évaluation NIST - DARPA • Depuis 1987, ouvertes en 1992 • Ecrit / Oral • Production / distribution des ressources (LDC) • Organisation des campagnes (NIST) • Traitement du Langage Parlé • Dictée Vocale (RM, WSJ, NAB) • Compréhension de la langue parlée (ATIS) • Transcription infos radio/télédiffusées (BN) • Reconnaissance de conversations (switchboard) • Reconnaissance du locuteur • Reconnaissance de la langue parlée

  23. Contexte international • États-Unis • Traitement du Langage Écrit • Recherche d’Informations Textuelles (TREC) • Compréhension de Messages (MUC) • Traduction Automatique • Traitement du Langage Écrit + Parlé • Extraction d’Entités Nommées (dans BN) • Détection et Suivi de Thèmes (TDT) (dans BN) • Reconnaissance de caractères etc...

  24. Évaluation aux USA (Parole) • CSR (DARPA) read & found english, 89-97 • LVCSR conversationel, multilingue • ATIS (DARPA) • DARPA/NSF en 1998 (multilingue): • Extraction d ’entité nommées • Détection et suivit de thèmes • Transcription de nouvelles • COMMUNICATOR

  25. Évaluation (USA) COMMUNICATOR dialogue oral pour la réservation de transport, l’hébergement et planification d’itinéraire TIDES extraction d’information interlingue, traduction et résumé automatique Traitement Automatique des Langues et Industrie de la Langue Patrick Paroubek / Limsi-CNRS

  26. Évaluation (USA) AQUAINT (Defense Ministry) programme de l’ ARDA, extraction d'information étendue en amont et en aval sur des données multimodales, pour incorporer des connaissances à des données factuelles du types de celles manipulées dans les évaluations TREC ITR (NSF) recherche en technologie de l'information) Traitement Automatique des Langues et Industrie de la Langue Patrick Paroubek / Limsi-CNRS

  27. Évaluation (USA) SYMPHONY (DARPA) suite de COMMUNICATOR et dont les objectifs sont : la reconnaissance de la parole robuste en milieu bruité, le compte rendu automatique de réunion, la fusion de données multimodales, l'interprète automatique, les interfaces homme-machine dialogiques, la traduction automatique (déjà présente dans le programme TIDES), et l'exploitation rapide et automatique de langues nouvelles Traitement Automatique des Langues et Industrie de la Langue Patrick Paroubek / Limsi-CNRS

  28. Évaluation aux USA (écrit) • Tipster program (DARPA & NIST) • MUC-1 (1987) to MUC-7 (1998) • MET-1 (1995) and MET-2 (1998) • TREC-1 (1992) to TREC-7 (1998) • SUMMAC • MT Evaluation (1992, 1993, 1994)

  29. Évaluation (USA) Les directions de recherche favorisées par le DARPA: les technologies robustes à large couverture,les technologie de base largement réutilisables, la multilingualité, le partage des données ( LDC)les corpus arborés (U. Penn) les évaluation comparatives supportées par des métriques quantitatives, les expériences d'intégration et de faisabilitéL’objectif à plus long terme étant la compréhension du langage Traitement Automatique des Langues et Industrie de la Langue Patrick Paroubek / Limsi-CNRS

  30. Contexte international • Japon, National Institute of Informatics(http ://www.nii.ac.jp) • Research Center for Information Ressources (test collection for IR systems) • Research Center for Testbeds and Prototyping(scholarly information retrieval) • Cocosda / Oriental Cocosda(International Committee for the Coordination andStandardisation of Speech Databases and Assesment Techniques) • Conférences : • HLT workshop 02, 03, 04, 06 • LREC conference  98, 00, 02, 04, 06 • LangTech conference 02, 03,

  31. EAGLES TSNLP DIET TEMAA SQALE SPARKLE DISC MATE COCOSDA SAM & SAM-A Morpholympics Actions de recherche concerté de l’AUPELF GRACE (CNRS) VerbMobil Évaluation en Europe

  32. Pilot Senseval/ Romanseval • Task: Word Sense Disambiguating (Senseval/English) • 20 nouns, 20 adjectives and 20 verbs • Romanseval, same task in French & Italian. • 8 month (December 1997 - September 1998) • 35 teams interested / 21 systems evaluated • Senseval: FR, USA, IT, UK, CH, KO, MA, CA, SP, NL • Romanseval: FR, IT, CH • Budget :61 KEuros(English) • Data, hardware and computing for free. • Evaluatees not funded.

  33. SQALE Project • Duration 1993 to 1995. • Evaluation of 3 different ASR • 3 languages + 1 common (Fr., Germ., UK Eng. + US Eng.) • TNO-IZF (NL), Philips (D), U. Cambridge (UK), Limsi-CNRS (F) • Task: dictation of newspaper texts • Result: If a system is better on the common language than another system, it will also be better on its own language. • Comparison with human performance was studied.

  34. DISC Project • Reference methodology for SLDS development. • Best practice development and evaluation (existing components & procedures) • Results: Guidelines and Heuristics • 2 Guiding principles: Grid Aspects of SLDS components and Development Lifecycle of SLDS • 7 Participants: NIS (DK), LIMSI (F), IMS (D), KTH (S), Vocalis (UK), D-Benz (D), ELSNET (NL) • Duration: 1 year (1998) • Follow-up: DISC-2 (January 1999) information update, packaging, access and usability

  35. DISC Project

  36. EAGLES Evaluation WG • EAGLES was launched in 1993 • Aim: standards for NLP technology (including evaluation) • Eval. working group started from ISO 9126 (software) • User-oriented methodology (consumer report paradigm) • for adequacy evaluation or progress evaluation • Formalism (based on feature structures) for classifying products and users. • Case studies on: spelling checkers (LRE-TEMAA), grammar checkers and translators’ aids. • Follow-up: EAGLES-II (1995-1998), consolidate, extend and disseminate EAGLES results.

  37. ELSE Project • Evaluation in Language and SpeechEngineering • 8 partners: MIP (DK), LIMSI (FR), DFKI (D), U. Pisa (I), EPFL (CH), XRCE (FR), U. Sheffiel (UK), CECOJI (FR)+ ELSNET & ELRA • Duration: January 1998 - April 1999. Budget: 414 KECU • Draw a blueprint for an evaluation infrastructure (IST Key Actions of FP5 ?) • Evaluation Paradigm: contrastive quantitative Technology Evaluation.

  38. Actors in the infrastructure European Commission ELRA Evaluators Participants (EU / non EU) L. R. Producers Research Industry Citizens Users & Customers

  39. Évaluation (Europe) • COCOSDA • SAM & SAM-A • Morpholympics • Actions de recherche concerté de l  ’AUPELF • GRACE (CNRS) • VerbMobil • ELSE • EAGLES • TSNLP • DIET • TEMAA • SQALE • SPARKLE • DISC • MATE Traitement Automatique des Langues et Industrie de la Langue Patrick Paroubek / Limsi-CNRS

  40. Évaluation (Europe) • CLASS EvaluationURL: http: //www.limsi.fr/TLP/CLASS • Disponibles sur le site : Actes de LREC2000 CLASS atelier satellite sur l’évaluation. • Actes de EACL 2OO1, Toulouse, atelier « Evaluation for Language & Dialog Systems » • Présentations du Bullet Course on the paradigm of Evaluation in Speech and Language, Juillet, Paris 02 et 032001. Traitement Automatique des Langues et Industrie de la Langue Patrick Paroubek / Limsi-CNRS

  41. Évaluation (Europe) CLEF: recherche d’information interlingue SENSEVAL: désambiguïsation sémantique SMARTKOM: nouveau projet allemand. TCSTAR technologie pourinterprète automatique ECOM (ELRA) évaluation Traitement Automatique des Langues et Industrie de la Langue Patrick Paroubek / Limsi-CNRS

  42. FRANCIL Program Created : June 1994 Coordinator:J. Mariani, F. Néel Networking (70 laboratories, 9 countries) Training Collaborative Research Actions (ARP) Strategic Research Actions (ARC) Budget: 4 Meuro / 4 years - 2 Meuro ARC

  43. ARC Use of the evaluation paradigm for accompanying research : Infrastructure for evaluation (protocols, metrics, organization...) Language Resources for systems development and evaluation Discussion of the advantages and disadvantages of different approaches based on objective evaluation conducted on common data Written and spoken language

  44. ARC ILEC (Written Language) Language Resources for written French language and system evaluation: A1 (Amaryllis): Natural Language Access to textual information A2 (Arcade): (Bi/Multi)lingual (French-English) corpus alignment A3: Automated terminological database design A4: Text understanding

  45. ARC ILOR (Spoken language) • Language Resources for spoken French language and system evaluation B1: Voice Dictation (large vocabulary recognition) B2: Vocal Dialog B3: Text-to-Speech synthesis

  46. ARC: Calendar & Budget • Call for proposals in July 1994, selection in November 1994 of 50 proposals (34 labs) out of 89 proposals. • 2 evaluation campaigns of a two year time span (1996-1997 and 1998-1999) • Total budget (6 ARCs) = 2 Meuros ( 4 years) 167 Keuros / campaign / control task (1 evaluator, ~ 7 evaluatees, 3 different countries)

  47. CNRS CCIIL GRACE Action • Control Task: POS tagging for French. • Corpora: Train.= 10 Mw, D.R.= 450Kw, T.= 650 Kw • Call for tenders November 1995. Training January 1996. • Dry run October 1996. Workshop (JST April 1997). • Tests December 1997. Workshop in May 1998. • First results disclosed on the WEB in November 1998. • 18+3 participants, 5 countries (CA, USA, D, CH, FR). • Budget 800 Keuros • Byproducts: eval. results, com. prod., 1 Mw valid. corpus

  48. TechnoLangue TECHNOLANGUE Programme d’infrastructure en soutien à la R&D, la R&Drestant dans les RRIT et le programme spécifique« Veille » RNRT RNTL RIAM VSE

More Related