1 / 25

Parametri za ocenjivanje efikasnosti pronala ž enja

Parametri za ocenjivanje efikasnosti pronala ž enja. Cvetana Krstev Čas 5. Merenje efikasnosti sistema za pronalaženje informacija.

Download Presentation

Parametri za ocenjivanje efikasnosti pronala ž enja

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Parametri za ocenjivanje efikasnosti pronalaženja Cvetana Krstev Čas 5.

  2. Merenje efikasnosti sistema za pronalaženje informacija • Predstavili smo sisteme za pronalaženje informacija zasnovane na predstavljanju dokumenata izabranom listom termina (koja je nekako izabrana) i razna proširenja osnovne ideje: parametri blizine, podsecanje upitnih termina, sinonimi, težine dodeljenih termina • Ali kako da znamo koji od ovih pristupa je zaista efikasan i u kojim situacijama?

  3. Evaluacija sistema za pronalaženje informacija • Da bismo ad hoc izmerili efikasnost nekog sistema za pronalaženje informacija na neki standardan način, potrebna nam je kolekcija za testiranje koja se sastoji od tri stvari: • Kolekcija dokumenata • Paket informacionih potreba koje se obično izražavaju preko upita • Skup procena relevantnosti koji se obično izražava dodeljivanjem binarne vrednosti (relevantan / nije relevantan) svakom paru (upit,dokument)

  4. Kolekcija dokumenata za testiranje • Obično se naziva zlatni standard • I kolekcija dokumenata i paket informacionih potreba treba da bude razumne veličine. • Kolekcija dokumenata treba da bude dovoljno velika i raznovrsna da rezultati merenja efikasnosti ne bi suviše zavisili od samog izbora dokumenata, a dovoljno mala da se njihova relevantnost može proceniti za svaku informacionu potrebu • Praksa pokazuje da je 50 informacionih potreba donja granica

  5. Odnos informacione potrebe korisnika i upita • Relevantnost se određuje relativno u odnosu na informacionu potrebu, a ne na upit. • Primer: • Informaciona potreba: • Information on whether drinking red wine is more effective at reducing your risk of heart attacks than drinking white wine. • Može se prevesti u sledeći upit: • wine AND red AND white AND heart AND attack AND effective • Dokument je relevantan ako odgovara informacionim potrebama korisnika, a ne ako slučajno sadrži reči sadržane u upitu. • Zlatni standard treba da omogući procenu raznih sistema – na primer, koliko nekisistemi omogućavaju „inteligentne“ upite.

  6. Još jedan primer • Informaciona potreba: • penzioni zakon u republikama bivše Jugoslavije • Google – ništa na prvoj strani • "penzioni zakon" AND "republika bivše Jugoslavije" • Google – ništa na prvoj strani (govori se samo o građanima Srbije koji su staž ostvarivali i u republikama bivše YU) • "penzioni zakon" AND (Srbija OR Hrvatska OR Slovenija...) • Google – prvi odgovor relevanantan, svi relevantni na prvoj stanici odnose se na Srbiju

  7. Poznate kolekcije za testiranje • Cranfield kolekcija • Iz Velike Britanije, sadrži 1398 članaka iz oblasti aerodinamike i paket od 225 upita – iscrpno procenjena relevantnost • TREC8 (Text Retrieval Conference) • 528.000 novinskih vesti i 150 informacionih potreba – nije iscrpno procenjena relevantnost • Reuters-RCV1 • 806.791 dokumenata • 20 Newsgroups • Po 1000 članaka iz 20 izabranih Newsgroups

  8. Parametri odziv i preciznostza ocenu sistema za pronalaženje bez rangirnaih rezultata • Dva glavna parametra za ocenjivanje efikasnosti pronalaženja su u upotrebiveć godinama. To su: • odnos izdvojenih relevantnih stavki i ukupno relevantnih stavki, ili odziv (engl. recall- R) • odnos izdvojenih relevantnih stavki i ukupno izdvojenih stavki, ili preciznost (engl.precision- P).

  9. Odnos parametara odziv i preciznost • Za uska pitanja, preciznost je velika - skoro sve izdvojeno je i relevantno - ali je odziv mali jer je u stvari jako malo relevantnih stavki pronađeno. Kako se formulacije upita šire, ukupan broj pronađenih relevantnih dokumenata raste, što povećava odziv. Ali u isto vreme raste i broj izdvojenih nerelevantnih stavki, a to smanjuje preciznost. To jest, uski upiti dajuvisoku preciznost a mali odziv, dok široki upiti daju obrnuti rezultat - veliki odziv a malu preciznost. • Ova dva parametra su obrnuto recipročna.

  10. Podela kolekcije dokumenata upitom na četiri dela Izvađene stavke Neizvađene stavke Nerelevatne stavke Relevatne stavke

  11. Preciznost: P=a/(a+b) b – izvađene nerelevatne stavke a – izvađene relevantne stvake d – neizvađene nerelevantne stavke c – neizvađene relevatne stavke Skupovi a i d treba da budu što veči Skupovi b i c treba da budu što manji Odziv: R= a/(a+c)

  12. Varijacije parametara odziv i preciznost u zavisnosti od širine upita malo pronađenih nerelevantnih uzak upit malo pronađenih relevantnih mnogo nepronađenih relevantnih

  13. Varijacije parametara odziv i preciznost u zavisnosti od širine upita širok upit više pronađenih nerelevantnih više pronađenih relevantnih

  14. Odnos parametara preciznost i odziv • Odziv uvek može da bude visok, čak 1 (tj. 100%) ako ponudimo korisniku sva dokumenta. Odziv je neopadajuća funkcija broja pronađenih dokumenata • Preciznost obično opada sa brojem pronađenih dokumenata R a+b (x1, x2) (x1x2  f(x1)  f(x2)) P a+b (x1, x2) (x1x2  f(x1)  f(x2))

  15. Alternativna mera – mera tačnosti • To je mera koja utvrđuje koliki deo klasifikovanih dokumenata je ispravno klasifikovan, tj. ispravno smešten u grupu relevantnih odnosno nerelevantnih dokumenata. A (accuracy) = (a+d)/(a+b+c+d) = (a+d)/sve • Ovo je mera uspešnosti klasifikacije, tj. uspešnog klasifikovanja dokumenta relevantan/nerelantan

  16. Neadekvatnost mere tačnosti za merenje uspešnosti sistema za pronalaženje • Podaci su često vrlo iskrivljeni. Naime, najčešće je najveći deo dokumenata kolekcije nerelevantan, i do 99,9%. Ako bismo želeli da podesimo sistem na maksimalnu tačnost dovoljno je da odbacimo sva dokumenta i dobićemo tačnost od skoro 100%. • Za korisnike je to nepoželjno jer oni najčešće žele da dobiju bar neki odgovor, čak iako je on izmešan sa dosta nerelevantnih odgovora.

  17. Jedan parametar koji meri izbalansiranost odziva i preciznosti • U opštem slučaju korisnik želi da dobije određen nivo odziva pri čemu će tolerisati određen procenat pogrešno određenih relevantnih odgovora (b) • U posebnom slučaju • Veb surfer obično želi da mu svi rezultati na prvoj stranici budu relevantni (visoka preciznost) dok ga uopšte ne interesuje da pronađe sve relevantne niti misli da ih gleda • Istraživač koji radi za tajnu službu želi da pronađe sve relevantne i uopšte ga ne brine ako će zato morati da pregleda i mnogo nerelevantnih ponuđenih.

  18. F-mera koja se zasniva na harmonijskoj sredini • Šta je harmonijska sredina? • Aritmetička sredina: A=(P+R)/2 • Geometrijska sredina: G=PR • Harmonijska sredina: H=2/(1/P+1/R) Uvek važi: H  G  A Harmonijska sredina naginje manjoj od dve vrednosti Ona teži da neutrališe uticaj većeg, a potencira značaj manjeg

  19. Prednosti F-mere • Zašto aritmetička sredina nije dobra? • Pošto uvek možemo da dobijemo odziv 100% ako izdvojimo sva dokumenta, preciznost će biti skoro 0, ali aritmetička sredina će biti 50%, tako da ispada da je rezultat pronalaženja skoro dobar • Neka je 1 dokument kolekcije relevantan, i neka je on među 10.000 pronađenih dokumenata. Tada je: • R= 1 (ili 100%) • P= 1/10000 = 0,0001 (ili 0,01%) • A=(1+0,0001)/2 = 0,50005 (ili 50,005%) • F= (2*1*0,0001)/(1+0,0001) = 0,0002 (ili 0,02%)

  20. Davanje prednosti odzivu ili preciznosti Takvu vrednost α bi izabrao veb surfer Takvu vrednost α bi izabrao radnik tajne službe

  21. Evalucija rezultata rangiranog pronalaženja • Preciznost, odziv iF-mera se definišu na neuređenim skupovima • Ove mere moraju da se prošire ili da se uvedu nove mere ako se rezultati pronalaženja rangiraju (npr. Google) • U ovom slučaju se računaju preciznost i odziv za prvih kdokumenata. Kada sek menja dobija se kriva zavisnosti preciznosti od odziva

  22. Grafikon preciznost-odziv

  23. Izgled grafikona preciznost-odziv • Ovaj graf ima prepoznatljiv testerast izgled. Zašto? • Ako je (k+1)-i dokument nerelevantan onda odziv ostaje isti a preciznost pada • Ako je (k+1)-i dokument relevantan onda rastu i preciznost i odziv i kriva skače nagore i udesno. • Ponekad se uklanjaju ovi zupci tako što se koristi interpolacija: • interpolirana preciznost se dobija kao maksimalna preciznost na nekom utvrđenom nivou odzivar. • Opravdanje za ovo je da je skoro svako spreman da gleda malo više dokumenata ako će time dobiti nešto više relevantnih • Crvena linija na prethodnom grafikonu. • Sa rastom odziva, dodavanje novog dokumenata pronađenim dokumentima jako malo utiče na preciznost (pri kraju grafikona plava i crvena linija se skoro poklapaju).

  24. Interpolirana srednja preciznost u 11 tačaka • Izučavanje celokupne krive preciznost-odziv je informativno ali nepraktično • Za svaku informacionu potrebu iz probnog skupa se računa interpolirana preciznost na 11 nivoa odziva: 0.0, 0.1, 0.2, ..., 0.9, 1.0. • Za svaki od 11 nivoa odziva se zatim računa srednja vrednost interpoliranih preciznost za sve informacione potrebe

  25. Grafikon srednjih interpoliranih vrednosti preciznosti za 11 nivoa odziva (za 50 upita tj. informacionih potreba)

More Related