Campagne d’Evaluation de systèmes de Questions-Réponses : EQueR - PowerPoint PPT Presentation

campagne d evaluation de syst mes de questions r ponses equer n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Campagne d’Evaluation de systèmes de Questions-Réponses : EQueR PowerPoint Presentation
Download Presentation
Campagne d’Evaluation de systèmes de Questions-Réponses : EQueR

play fullscreen
1 / 24
Campagne d’Evaluation de systèmes de Questions-Réponses : EQueR
112 Views
Download Presentation
nelson
Download Presentation

Campagne d’Evaluation de systèmes de Questions-Réponses : EQueR

- - - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

  1. Campagne d’Evaluation de systèmes de Questions-Réponses : EQueR Brigitte Grau (LIR – LIMSI)

  2. Base de connaissances factuelles et encyclopédi-ques Collection de documents répertoriés Web Recherche d’information précise • Besoin particulier : • requête précise : une question en langage naturel • Granularité de la réponse : "passage retrieval" Qui a tué Henri IV ?

  3. SUJET SUJET COD COD Pers <poignarder> Henri IV Tuer synonyme de poignarder Tuer => mort = rendre son dernier soupir ou Ville dans le contexte Extraction à partir de textes … C’est à Paris, rue de la Ferronnerie, qu’Henri IV a rendu son dernier soupir… D’autre part, on peut rappeler que les rues encombrées et étroites du Paris d’avant Haussmann étaient très favorables aux guets-apens. La facilité avec laquelle Ravaillac a pu poignarder Henri IV peut paraître incroyable ! … Qui a poignardé Henri IV ? Qui a tué Henri IV ? Où a été tué Henri IV ?

  4. Différents composants Traitement des documents Extraction de la réponse Analyse des questions Sélection de passages ou de phrases Analyse des phrases Extraction des réponses Evaluation des réponses Etiquetage morpho-syntaxique Analyse syntaxique Désambiguation Typage des réponses Choix de mots pivots Reconnaissance des entités nommées Sélection de documents ou de passages Moteur de recherche Constitution de la requête

  5. Approche linguistique • Composants concernés • Détermination du type de réponse : • Des entités nommées classiques à des catégories spécialisées • Reformulation Web • Ecriture de patrons d’extraction liés au type d’information cherché • De patrons très figés à des règles de reformulation • Appariement de représentations de phrase (question/phrases candidates) • Fondée sur : • Etiquetage morpho-syntaxique • Segmentation en groupe • Analyse syntaxique • Analyse sémantique

  6. Approches statistiques et apprentissage • Composants concernés • Sélection des documents • Sélection de passages • Apprentissage de patrons d’extraction • Evaluation de la réponse • Un degré de confiance

  7. Connaissances • Lexiques spécialisés pour entités nommées • Bases de connaissances spécialisées • Connaissances sémantiques générales • Sources • WordNet pour l’anglais • Pour le français ? • Connaissances • Relations de dépendances hiérarchiques • Relations de synonymie • Règles de déduction : modélisation des définitions WordNet

  8. Evaluations existantes • Etats-Unis : TREC • Tâche Q/A depuis TREC8 (1999) • Europe : CLEF • Tâche Q/A depuis 2003, analogue à Trec • Multilingue • Japon : NTCIR • Tâche Q/A depuis 2003, analogue à Trec • France : EQuER • Campagne en 2004

  9. Que doit-on évaluer ? La justesse de la réponse La concision et la complétude • Ne pas trop en dire, mais dire tout ce qui est nécessaire La pertinence de la réponse • La réponse peut être différente selon le contexte L’interaction avec l'utilisateur Le temps de réponse La facilité d'utilisation du système   =   

  10. EQueR • Organisateur : ELDA (Paris) • Responsable scientifique : Brigitte Grau (LIMSI) • Fournisseurs de corpus et d’outils : • ELDA : corpus général • CISMEF : corpus médical • Systal / Pertimm : moteur de recherche • Participants : • 3 institutions privées : France Télécom, Sinequa, Synapse • 5 laboratoires publics : • Limsi-CNRS, LIA & iSmart, STIM / AP-HP, CEA, Université de Neuchâtel

  11. Présentation générale • Objectifs • Faire une photographie de l’état de l’art en France • Permettre le développement de l’activité en fournissant des corpus aux chercheurs • Trois tâches étaient prévues • Tâche « généraliste » • Tâche « spécialisée », domaine spécifique (médical) • Tâche « généraliste » Web  abandonnée • 2 types de réponses • passages de 250 caractères • réponses courtes

  12. Les corpus de documents • Corpus « général » • 1,5 Go environ (constitution ELDA) • Articles, dépêches de presse et rapports institutionnels • Le Monde (1992-2000) • Le Monde Diplomatique (1992-2000) • SDA (Schweitzeriche Depeschenagentur (1994-1995) • Le Sénat (1996-2001) • Corpus « médical » • 50 Mo environ (constitution CISMEF/STIM) tirés des sites Web • Articles scientifiques du domaine médical, recommandations • Santé Canada • Orphanet • CHU Rouen • FNLCC (Fédération Nationale de Lutte Contre le Cancer)

  13. 500 questions générales 407 questions factuelles Qui a écrit Germinal ? Emile Zola 31 questions de type liste Quels sont les 7 pays du G7 ? Allemagne, Canada, Etats-Unis, France,Grande-Bretagne, Italie et Japon 32 questions de type définition Qui est Alexander Popov ? Nageur russe 30 questions de type oui/non Existe-t-il une ligne de TGV Valenciennes-Paris ? OUI 200 questions médicales 81 questions factuelles Citer un traitement de la schyzophrénie. La neurochirurgie 25 questions de type liste Quels sont les 4 stades du cancer de l’ovaire ? 70 questions de type définition 24 questions de type oui/non Le mercure est-il un métal toxique ? OUI Corpus de questions Taux fixé pour chaque type de question Selon les sources : extraction de balises de mots-clés ou de titres

  14. Déroulement de l’évaluation • Distribution des corpus de documents • Tests des systèmes sur 1 semaine • Distribution des questions et des documents fournis par Pertimm pour chacune • Envoi des résultats (2 runs par tâche) • Nombre de réponses permises • Maximum 5 pour questions factuelles et de type définition • 1 pour questions de type oui/non • Maximum 20 pour les questions de type liste • Evaluation des résultats par des juges humains • 2 juges par run • Un spécialiste pour tâche médicale • 4 valeurs : correct, incorrect, inexact, non justifié

  15. Mesures • 2 métriques utilisées : • MRR : Moyenne de l’inverse du Rang (Mean Reciprocal Rank) • Questions « factuelles » simples. • Questions dont la réponse est une « définition ». • Questions dont la réponse est « oui/non ». • NIAP : Précision moyenne (Non Interpolated Average Precision) • Questions dont la réponse est une « liste ».

  16. Résultats (1) • Tâche générale • 7 participants • Tâche spécialisée • 5 participants

  17. Résultats (2)

  18. Comparaison avec l’existant • Comparaison : • 5 Réponses courtes • TREC10 (2001) • NTCIR (2003) • Meilleur système actuel sur l’anglais : • 83% de réponses correctes avec 1 seule réponse fournie (TREC11)

  19. Bilan • Constitution d’un ensemble de données • Ensemble des spécifications de la campagne, corpus, outils et résultats. • But : • Permettre à n’importe quel industriel ou académique de faire tourner son système dans des conditions identiques afin de pouvoir évaluer lui-même son système.

  20. Pour aller plus loin • Pour améliorer les systèmes de question-réponse • Selon les questions, différentes stratégies possibles • Maîtriser la difficulté des questions • Savoir quelle approche est meilleure qu’une autre pour chaque composant • Connaître l’impact d’un composant sur le résultat final • Question-réponse comme évaluation de processus par la tâche • Exemples : Entité Nommée, résolution d’anaphore, analyse syntaxique

  21. Différents types de questions (1) Moldovan, D., Pasca M., Harabagiu S., Surdeanu M., “Performance Issues and Error Analysis in an Open-Domain Question Answering system”, ACM transactions on Information Systems (TOIS), 2003 • Réponse factuelle • La réponse est extraite telle quelle ou moyennant quelques variations morphologiques simples. • Une approche mot-clés peut alors tout à fait convenir. • Réponse issue d’un raisonnement simple • La réponse est extraite d’un court passage toujours mais amène à recourir à des connaissances sémantiques pour gérer des variations ou élaborer un raisonnement simple. • Exemple : • Comment est mort Socrate ? • En buvant du vin empoisonné -> faire le lien entre mort et empoisonner.

  22. Différents types de questions (2) • Fusion de réponses • Les éléments de réponses sont répartis sur plusieurs documents • Il s’agit de les assembler en un tout cohérent. • Cela peut aller de simples listes à la constitution de modes d’emploi. • Interaction à gérer • Questions s’enchaînant dans un même contexte, relatif à la première question -> TREC9 • Raisonnement par analogie • Les réponses ne sont pas explicites dans les documents • Entraînent la décomposition en plusieurs questions et leur interprétation par analogie aux faits existant.

  23. Evaluation des composants d’un système • Etablir des cadres d’évaluation systématiques, voire des plates-formes • Permettrait le développement et l’évaluation de processus sans avoir à développer un système complet • Approfondissement du principe consistant à fournir les documents aux participants

  24. Conclusion • EQueR : évaluation sur le français • 7 participants • CLEF : depuis 2004, évaluation monolingue sur le français • 4 participants en 2005, plus que les autres langues • Originalité d’EQueR • A gardé la tâche évaluation de passage • Réintroduit à TREC 2005 • Introduction de questions booléennes • Similitudes avec l’évaluation « Recognizing Textual entailment » du réseau Pascal • Introduction d’une tâche spécialisée • Poursuivre EQueR à CLEF ?