Impact du « biais des ex aequo » dans les évaluations de Recherche d’Information

CORIA’10: Conférence en Recherche d’Information et Applications18-20 mars, Sousse, Tunisie Impact du « biais des ex aequo »dans les évaluationsde Recherche d’Information Guillaume Cabanac, Gilles Hubert, Mohand Boughanem, Claude Chrisment

Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al. Plan • Motivation scénario de participation à TREC • Contexte évaluer l’efficacité des SRIProblématique biais des ex aequo influençant les résultats • Proposition stratégies de réordonnancement • Expérimentationimpact du biais des ex aequo • Conclusion et perspectives

1. Motivation  illustration du biais des « ex aequo »G. Cabanac et al. Scénario de participation à TREC (1/2) Topic 031 “satellite launch contracts” 5 documents pertinents Chris Ellen la seule différence C = (N, 0.8), (P, 0.8), (N, 0.5) E = (N, 0.8), (P, 0.8), (N, 0.5) malchanceux chanceux Pourquoi de telles différences ?

1. Motivation  illustration du biais des « ex aequo »G. Cabanac et al. Scénario de participation à TREC (2/2) Chris Ellen C = (N, 0.8), (P, 0.8), (N, 0.5) E = (N, 0.8), (P, 0.8), (N, 0.5) la seule différence Après 15 jours de dur labeur…  Seule différence : le nom du document 

2. Contexte & problématique  Biais des « ex aequo »G. Cabanac et al. Mesurer l’efficacité des Systèmes de RI • User-centered vs. System-focused[Spärk Jones & Willett, 1997] • Campagnes d’évaluation • 1958 Cranfield UK • 1992 TREC TextRetrievalConference USA • 1999 NTCIR NII Test Collection for IR Systems Japon • 2001 CLEF Cross-LanguageEvaluation Forum Europe • … • Méthodologie « Cranfield » • Tâche • Collection de test • Corpus • Topics • Qrels • Mesures : MAP, P@X... [Voorhees, 2007]

2. Contexte & problématique  Biais des « ex aequo »G. Cabanac et al. Évaluer un run : réordonnancement de TREC • Qrels = qid, iter,docno, rel Run = qid, iter,docno, rank,sim, run_id pertinents[1 ; 127] (N, 0.8), (P, 0.8), (N, 0.5) Réordonnancement de TRECqid asc, sim desc, docno desc (P, 0.8), (N, 0.8), (N, 0.5) Mesure d’efficacitéMAP, P@X, MRR…

3. Proposition  Stratégies de réordonnancementG. Cabanac et al. Conséquences du biais des ex aequo • Mesures d’évaluation d’un SRI s • RR(s,t) 1/rang pour le 1er document pertinent, pour le topict • P(s,t,d) précision au document d, pour le topict • AP(s,t)précision moyenne pour le topict • MAP(s)précision moyenne globale • Biais des ex aequo • La collection Wall Street Journal serait-elle plus pertinente qu’AssociatedPress ? • Problème 1 comparaison de 2 systèmes AP(s1, t) vs. AP(s2, t) • Problème 2 comparaison de 2 topics AP(s, t1) vs. AP(s, t2) Sensibles au rang des documents Ellen Chris

3. Proposition  Stratégies de réordonnancementG. Cabanac et al. Réordonnancements alternatifs non biaisés • Réordonnancement conventionnel (TREC) • Ex aequo triés de Z à A qidasc, simdesc, docnodesc • Réordonnancement réaliste • Les pertinents en dernier qidasc, simdesc, relasc, docnodesc •  Réordonnancement optimiste • Les pertinents en premier qidasc, simdesc, reldesc, docnodesc ex aequo ex aequo

4. Expérimentation  Impact du biais des ex aequoG. Cabanac et al. Impact du biais des ex aequo • Étude menée sur 4 tâches de TREC • 22 éditions • 1360 runs • Évaluation de l’impact du biais des ex aequo • Proportion des ex aequo dans les runs soumis  fréquence du biais • Impact sur les valeurs des mesures • Top 5 des différences constatées • Pourcentage de la différence observée • Significativité de la différence observée : t-test pairé unilatéral 1993 1997 1998 1999 2000 2002 2004 2009 web filtering routing adhoc 3 Go de données issues de trec.nist.gov

4. Expérimentation  Impact du biais des ex aequoG. Cabanac et al. Proportion des ex aequo dans les runs soumis En moyenne 25,2 % d’un run = docs ex aequo En moyenne 10,6 docs par groupe de similarité

4. Expérimentation  Impact du biais des ex aequoG. Cabanac et al. Impact du biais sur Reciprocal Rank (RR)

4. Expérimentation  Impact du biais des ex aequoG. Cabanac et al. Impact du biais sur Average Precision (AP)

4. Expérimentation  Impact du biais des ex aequoG. Cabanac et al. Impact du biais sur Mean Average Precision (MAP) Différence en terme de rangs(t de Kendall) non significative

4. Expérimentation  Impact du biais des ex aequoG. Cabanac et al. Phénomène de « bourrage » des runs Pourquoi restituer des documentsévalués non pertinents (sim = 0) ? ... ... ... Éventuellement pour grappiller des points ? Ellen ... ... ...  Problème minimisé avec la stratégie de réordonnancement réaliste pertinents en queue de liste Chris gecrd2@adhoc-1993

4. Expérimentation  Impact du biais des ex aequoG. Cabanac et al. Travaux connexes en évaluation de la RI Fiabilité du nombre de topics ?[Buckley & Voorhees, 2000]  25[Voorhees & Buckley, 2002] tx erreur[Voorhees, 2009] n collections Fiabilité des qrels ?[Voorhees, 1998] qualité[Al-Maskari et al., 2008] TREC vs. TREC [Voorhees, 2007] Fiabilité des mesures ?[Buckley & Voorhees, 2000] MAP  [Sakai, 2008] ‘system biais’[Moffat & Zobel, 2008] nouvelles mesures [Mothe et al., 2010] redondance Fiabilité du pooling ?[Zobel, 1998] approximation [Sanderson & Joho, 2004] manuel[Buckley et al., 2007] adapt. taille [Cabanac et al., 2010] biais des ex aequo

Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al. Conclusions et perspectives • Contexte : évaluation de la RI • TREC et autres campagnes basées sur trec_eval • Identification du biais des ex aequo • Facteur chance  mesure = f (qualité_intrinsèque, chance) • Phénomène de « bourrage » des runs • Proposition : stratégies de réordonnancement non biaisées • Approche réaliste : parmi des ex aequo, les non pertinents seront en dernier • Impact significatif du biais des ex aequo •  Étude de (conventionnelle, réaliste) pour les mesures RR, AP et MAP • Corrélation forte, mais différence statistiquement significative • Pas de différence significative sur les rangs issus de la MAP ( de Kendall) • Perspectives : étude du bourrage, mesures sans réordonnement

CORIA’10: Conférence en Recherche d’Information et Applications18-20 mars, Sousse, Tunisie Merci

Impact du « biais des ex aequo » dans les évaluations de Recherche d’Information

Impact du « biais des ex aequo » dans les évaluations de Recherche d’Information

Presentation Transcript

Recommandations pour la recherche de facteurs biologiques de risque dans le cadre de la maladie thromboembolique veineus

Réflexions sur la recherche comme instrument d’évolution professionnelle Margot Phaneuf inf., Ph. D. Extrait d’un dida

Islam en Amérique du Nord

EDUS 1101 Méthodologie de l’observation

SOUTENANCE D’HDR

Université Paris X-Nanterre – IUP

Les sons dans les mots

Méthodologie de la recherche en Sciences de l’information et de la communication

Recherche documentaire

La confiance dans les autres et dans les institutions

FORMATION SUR : SCOPUS

Recherche dans des bases de données de séquences biologiques

The Impact of IT on Hospitals

L’Administration de la recherche Séance de présentation

Systèmes d’information dans les entreprises (GTI515)

La Dyslipidémie Recherche dans le cadre de la biochimie métabolique

LE SYSTÈME D’INFORMATION DOCUMENTAIRE

Moteur de recherche

Recherche documentaire

Introduction au Mémoire de Fin d’Etudes Recherche et EBM La recherche en SSP

Christophe Ochando