1 / 22

Impact du « biais des ex aequo  » dans les évaluations de Recherche d’Information

CORIA’10: Conférence en Recherche d’Information et Applications 18-20 mars, Sousse, Tunisie. Impact du « biais des ex aequo  » dans les évaluations de Recherche d’Information. Guillaume Cabanac, Gilles Hubert, Mohand Boughanem, Claude Chrisment.

Download Presentation

Impact du « biais des ex aequo  » dans les évaluations de Recherche d’Information

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. CORIA’10: Conférence en Recherche d’Information et Applications18-20 mars, Sousse, Tunisie Impact du « biais des ex aequo »dans les évaluationsde Recherche d’Information Guillaume Cabanac, Gilles Hubert, Mohand Boughanem, Claude Chrisment

  2. Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al. Plan • Motivation scénario de participation à TREC • Contexte évaluer l’efficacité des SRIProblématique biais des ex aequo influençant les résultats • Proposition stratégies de réordonnancement • Expérimentationimpact du biais des ex aequo • Conclusion et perspectives

  3. Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al. Plan • Motivation scénario de participation à TREC • Contexte évaluer l’efficacité des SRIProblématique biais des ex aequo influençant les résultats • Proposition stratégies de réordonnancement • Expérimentationimpact du biais des ex aequo • Conclusion et perspectives

  4. 1. Motivation  illustration du biais des « ex aequo »G. Cabanac et al. Scénario de participation à TREC (1/2) Topic 031 “satellite launch contracts” 5 documents pertinents Chris Ellen la seule différence C = (N, 0.8), (P, 0.8), (N, 0.5) E = (N, 0.8), (P, 0.8), (N, 0.5) malchanceux chanceux Pourquoi de telles différences ?

  5. 1. Motivation  illustration du biais des « ex aequo »G. Cabanac et al. Scénario de participation à TREC (2/2) Chris Ellen C = (N, 0.8), (P, 0.8), (N, 0.5) E = (N, 0.8), (P, 0.8), (N, 0.5) la seule différence Après 15 jours de dur labeur…  Seule différence : le nom du document 

  6. Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al. Plan • Motivation scénario de participation à TREC • Contexte évaluer l’efficacité des SRIProblématique biais des ex aequo influençant les résultats • Proposition stratégies de réordonnancement • Expérimentationimpact du biais des ex aequo • Conclusion et perspectives

  7. 2. Contexte & problématique  Biais des « ex aequo »G. Cabanac et al. Mesurer l’efficacité des Systèmes de RI • User-centered vs. System-focused[Spärk Jones & Willett, 1997] • Campagnes d’évaluation • 1958 Cranfield UK • 1992 TREC TextRetrievalConference USA • 1999 NTCIR NII Test Collection for IR Systems Japon • 2001 CLEF Cross-LanguageEvaluation Forum Europe • … • Méthodologie « Cranfield » • Tâche • Collection de test • Corpus • Topics • Qrels • Mesures : MAP, P@X... [Voorhees, 2007]

  8. 2. Contexte & problématique  Biais des « ex aequo »G. Cabanac et al. Évaluer un run : réordonnancement de TREC • Qrels = qid, iter,docno, rel Run = qid, iter,docno, rank,sim, run_id pertinents[1 ; 127] (N, 0.8), (P, 0.8), (N, 0.5) Réordonnancement de TRECqid asc, sim desc, docno desc (P, 0.8), (N, 0.8), (N, 0.5) Mesure d’efficacitéMAP, P@X, MRR…

  9. Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al. Plan • Motivation scénario de participation à TREC • Contexte évaluer l’efficacité des SRIProblématique biais des ex aequo influençant les résultats • Proposition stratégies de réordonnancement • Expérimentationimpact du biais des ex aequo • Conclusion et perspectives

  10. 3. Proposition  Stratégies de réordonnancementG. Cabanac et al. Conséquences du biais des ex aequo • Mesures d’évaluation d’un SRI s • RR(s,t) 1/rang pour le 1er document pertinent, pour le topict • P(s,t,d) précision au document d, pour le topict • AP(s,t)précision moyenne pour le topict • MAP(s)précision moyenne globale • Biais des ex aequo • La collection Wall Street Journal serait-elle plus pertinente qu’AssociatedPress ? • Problème 1 comparaison de 2 systèmes AP(s1, t) vs. AP(s2, t) • Problème 2 comparaison de 2 topics AP(s, t1) vs. AP(s, t2) Sensibles au rang des documents Ellen Chris

  11. 3. Proposition  Stratégies de réordonnancementG. Cabanac et al. Réordonnancements alternatifs non biaisés • Réordonnancement conventionnel (TREC) • Ex aequo triés de Z à A qidasc, simdesc, docnodesc • Réordonnancement réaliste • Les pertinents en dernier qidasc, simdesc, relasc, docnodesc •  Réordonnancement optimiste • Les pertinents en premier qidasc, simdesc, reldesc, docnodesc ex aequo ex aequo

  12. Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al. Plan • Motivation scénario de participation à TREC • Contexte évaluer l’efficacité des SRIProblématique biais des ex aequo influençant les résultats • Proposition stratégies de réordonnancement • Expérimentationimpact du biais des ex aequo • Conclusion et perspectives

  13. 4. Expérimentation  Impact du biais des ex aequoG. Cabanac et al. Impact du biais des ex aequo • Étude menée sur 4 tâches de TREC • 22 éditions • 1360 runs • Évaluation de l’impact du biais des ex aequo • Proportion des ex aequo dans les runs soumis  fréquence du biais • Impact sur les valeurs des mesures • Top 5 des différences constatées • Pourcentage de la différence observée • Significativité de la différence observée : t-test pairé unilatéral 1993 1997 1998 1999 2000 2002 2004 2009 web filtering routing adhoc 3 Go de données issues de trec.nist.gov

  14. 4. Expérimentation  Impact du biais des ex aequoG. Cabanac et al. Proportion des ex aequo dans les runs soumis En moyenne 25,2 % d’un run = docs ex aequo En moyenne 10,6 docs par groupe de similarité

  15. 4. Expérimentation  Impact du biais des ex aequoG. Cabanac et al. Impact du biais sur Reciprocal Rank (RR)

  16. 4. Expérimentation  Impact du biais des ex aequoG. Cabanac et al. Impact du biais sur Average Precision (AP)

  17. 4. Expérimentation  Impact du biais des ex aequoG. Cabanac et al. Impact du biais sur Mean Average Precision (MAP) Différence en terme de rangs(t de Kendall) non significative

  18. 4. Expérimentation  Impact du biais des ex aequoG. Cabanac et al. Phénomène de « bourrage » des runs Pourquoi restituer des documentsévalués non pertinents (sim = 0) ? ... ... ... Éventuellement pour grappiller des points ? Ellen ... ... ...  Problème minimisé avec la stratégie de réordonnancement réaliste pertinents en queue de liste Chris gecrd2@adhoc-1993

  19. 4. Expérimentation  Impact du biais des ex aequoG. Cabanac et al. Travaux connexes en évaluation de la RI Fiabilité du nombre de topics ?[Buckley & Voorhees, 2000]  25[Voorhees & Buckley, 2002] tx erreur[Voorhees, 2009] n collections Fiabilité des qrels ?[Voorhees, 1998] qualité[Al-Maskari et al., 2008] TREC vs. TREC [Voorhees, 2007] Fiabilité des mesures ?[Buckley & Voorhees, 2000] MAP  [Sakai, 2008] ‘system biais’[Moffat & Zobel, 2008] nouvelles mesures [Mothe et al., 2010] redondance Fiabilité du pooling ?[Zobel, 1998] approximation [Sanderson & Joho, 2004] manuel[Buckley et al., 2007] adapt. taille [Cabanac et al., 2010] biais des ex aequo

  20. Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al. Plan • Motivation scénario de participation à TREC • Contexte évaluer l’efficacité des SRIProblématique biais des ex aequo influençant les résultats • Proposition stratégies de réordonnancement • Expérimentationimpact du biais des ex aequo • Conclusion et perspectives

  21. Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al. Conclusions et perspectives • Contexte : évaluation de la RI • TREC et autres campagnes basées sur trec_eval • Identification du biais des ex aequo • Facteur chance  mesure = f (qualité_intrinsèque, chance) • Phénomène de « bourrage » des runs • Proposition : stratégies de réordonnancement non biaisées • Approche réaliste : parmi des ex aequo, les non pertinents seront en dernier • Impact significatif du biais des ex aequo •  Étude de (conventionnelle, réaliste) pour les mesures RR, AP et MAP • Corrélation forte, mais différence statistiquement significative • Pas de différence significative sur les rangs issus de la MAP ( de Kendall) • Perspectives : étude du bourrage, mesures sans réordonnement

  22. CORIA’10: Conférence en Recherche d’Information et Applications18-20 mars, Sousse, Tunisie Merci

More Related