1 / 24

Princippet om polyrepræsentation: teori, eksperimenter og erfaringer

Princippet om polyrepræsentation: teori, eksperimenter og erfaringer. Mette Skov og Birger Larsen Danmarks Biblioteksskole. Temadag om Udviklingstendenser indenfor indeksering og repræsentation, 3. oktober 2007. Disposition. Princippet om polyrepræsentation - et kognitivt perspektiv på IR

payton
Download Presentation

Princippet om polyrepræsentation: teori, eksperimenter og erfaringer

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Princippet om polyrepræsentation: teori, eksperimenter og erfaringer Mette Skov og Birger Larsen Danmarks Biblioteksskole Temadag om Udviklingstendenser indenfor indeksering og repræsentation, 3. oktober 2007

  2. Disposition • Princippet om polyrepræsentation - et kognitivt perspektiv på IR • Empiriske undersøgelser af polyrepræsentation • Repræsentationer af informationsrummet (dokumenter og informationssystemer) • Repræsentationer af brugerens kognitive rum • Konklusion af nuværende undersøgelser • Hvad kan vi bruge resultaterne til? Og hvad er næste skridt?

  3. Det kognitive synspunkt • Princippet om polyrepræsentation er forankret i det kognitive synspunkt, hvor information retrieval & seeking (IR&S) opfattes som processer og kognition(bl.a. Ingwersen 1996; Ingwersen & Järvelin, 2005) • Holistisk tilgang hvor kognitive strukturer fra alle komponenter og aktører i IR&S processen indgår, f.eks. forfattere, indeksører og designere af tesauri, databaser og brugergrænseflader • Det medfører stor variation af forskellige kognitive repræsentationer og fortolkninger indenfor én og samme søgesituation

  4. Kognitiv model af centrale komponenter i IS&R Information Information Org. Org. objects objects Cognitive Cognitive IR IR Social Social Social Social Social Social Information Information Interface Interface Actor(s Actor(s ) ) Context Context context context Retrieval Retrieval Interaction Interaction Interaction Interaction (team) (team) IT: Engines IT: Engines Cultural Cultural Logics Logics Algorithms Algorithms = = Cognitive transformation and influence over time Cognitive transformation and influence over time = Interactive communication of cognitive structures = Interactive communication of cognitive structures

  5. Hypotesen om polyrepræsentation • Motivationen bag princippet om polyrepræsentation er at udnytte variationer af kontekst som indgår i en interaktiv IR proces (Ingwersen, 1996; Ingwersen og Järvelin, 2005) • Dvs. udnytte den store variation af (allerede eksisterende) repræsentationer til at optimere søgning • Jo flere kognitivt og funktionelt forskellige repræsentationer, der peger på dokumenter i såkaldte kognitive overlap, desto større er sandsynligheden for at dokumenterne er relevante

  6. Engine P defined … CITATIONS In-links to titles authors & passages PX PY Engine Y defined … rank/cognitive overlap Engine Xdefined …rank/ cognitive overlap TOTAL COGNITIVE OVERLAP XY AUTHOR(s) Text - images Headings Captions Titles References Out-links Request Version … COGNITIVE OVERLAP from Engine X Task / Problem Description … THESAURUS structure COGNITIVE OVERLAP defined cognitive overlap in X defined cognitive overlap in X SELECTORs Journal name Publication year Database(s) Corporate source Country INDEXERS Class codes Descriptors Document type Weights Polyrepræsentation i forskellige sammenhænge Informationsrummet: dokumenter(2 eksperimenter) Brugerens kognitive rum (1 eksperiment) Informationsrummet: IR systemer (1 eksperiment)

  7. Skov et al. (2006) udnyttede fire forskellige dokument-repræsentationer Variation m.h.t.: Forskellige kognitive ophav (TI/AB vs. MJ og MN) Samme kognitive ophav men funktionelt forskellige (TI/AB og RF) Titel/abstracts (TI/AB) Referencer (RF) Major MeSH (MJ) og Minor MeSH (MN) RF TI/AB TI RF MJ MN AB MN OL11 OL6 OL8 OL4 OL3 OL1 OL10 OL7 OL5 OL2 OL9 Polyrepræsentation af dokumentrepræsentationer

  8. Polyrepræsentation af dokument-repræsentationer (Skov et al.) • Formål: Empirisk undersøgelse af hvorvidt udnyttelse af kognitivt og funktionelt forskellige repræsentationer kan optimere søgning? • Data: CF-testsamlingen (1239 poster fra Medline), 4 dok-repræsentationer, 29 topics, best match og Boolesk søgning (InQuery-systemet) • Metode: Identifikation af alle kognitive overlaps mellem repræsentationerne ved anvendelse af to typer af søgninger (naturligt sprog og struktureret sprog)

  9. Titel/abstract (ti/ab) Referencer (rf) Major MeSH (mj) Minor MeSH (mn) Resultater – overlaps

  10. Titel/abstract (ti/ab) Referencer (rf) Major MeSH (mj) Minor MeSH (mn) Resultater – overlaps

  11. Resultater og konklusion (Skov et al.) • Generelt bekræftes hypotesen om polyrepræsentation. Jo flere repræsentationer der peger på et dokument desto højere præcision • Struktureret søgning giver højere præcision end søgning i naturligt sprog • Struktureret søgesprog er nødvendigt pga. polyrepræsentations boolske natur • Query expansion i tesaurus er nødvendigt for at sikre kvalitet og undgå tomme overlap • Overlap, hvor referencer indgår, har højere præcision end dem uden. Dette understreger vigtigheden af at inkludere kognitivt forskellige repræsentationer

  12. Kompleks polyrepræsentation:Boomerangeffekten • Kombination af princippet om polyrepræsentation og søgning via citationer • Citationssøgning kan give gode resultater med gode kildedokumenter, men disse kan være svære at få fat i • Idé: brug polyrepræsentation til at identificere kildedokumenter automatisk • Udforsket i ph.d.-projekt (Larsen, 2004) • Tager udgangspunkt i emnesøgninger i videnskabelige dokumenter • Udtrækker og vægter referencer, og laver en fremadrettet citationssøgning med disse kildedokumenter • 2 versioner: en Boolesk og en best match

  13. II III (OL0) (OL0) IV I (OL0) (OL0) Step 2citations Step 1documents TI AB DE ii i iv iii OL1 OL1 OL1 OL2 OL2 OL3 OL1 OL1 OL2 OL2 OL1 Step 3documents = Ranking with threshold OL = Overlap Level Boomerangeffekten Fra Larsen (2004), s. 82

  14. Boomerangeffekten: resultater • Den Booleske version gav meget lovende resultater • 4 repræsentationer (TI, AB, ”ID”, basic index), 3 work tasks, 100 dokumenter bedømt per task (Larsen, 2002) • Højere precision i indre overlap: hele vejen op, og både i step 1 og step 3. Mange ekstra relevante dokumenter fundet • Best match versionen gav gode resultater, men ikke bedre end baseline • 11 repræsentationer (TI, AB, AU keywords, figur- og tabel, intro. + konkl., citerede titler, citationsindeks, DE og ID) • Del af INEX: 12.107 XML dokumenter, 23 work tasks • 2 baselines: bag-of-words og ustruktureret polyrep uden citationer

  15. Boomerangeffekten: best match • Baseline (bag-of-words) klarede sig bedst • Både boomerang og polyrep. påvirkes kraftigt af antallet af top-dokumenter i step 1 Results for the ‘generalized’ INEX2002 scoring function

  16. The Polyrepresentation Continuum Structured Unstructured Exact matchSetsOverlapsPseudo-ranking Best matchThresholdsFusion of ranks Continuous ranking Boomerangeffekten, refleksioner • Struktureret (=Boolesk) fungerede godt, ustruktureret knap så godt • Polyrep Boolesk af natur? • Polyrep continuum? • For mange / for dårlige repræsentationer? • Struktur nødvendigt?

  17. Engine P defined … PX PY Engine Y defined … rank/cognitive overlap Engine Xdefined …rank/ cognitive overlap TOTAL COGNITIVE OVERLAP XY Polyrepræsentation af IR systemer • Lund (speciale, 2005) undersøgte kombinationer af de 12 bedste TREC5 systemer med 30 topics (40+ relevante dokumenter) • Kognitivt forskellige systemer (nogle mere end andre) • En slags ”data fusion”: Ekstra vægt til dokumenter i overlap • Fuse12: top-100 inverteret og summeret over alle 12 systemer med boosting for dokumenter i overlap (100x, 90x, …) • Fuse4;3a;3b;3c…: Samtlige mulige overlap mellem de 4 bedste systmer • Supersystem: fordi Fuse4 ofte fandt mindreend 100 dokumenter, blev Fuse 3a etc slået samen i et supersystem(mix af vægte)

  18. Med mange relevante dokumenter per topic klarer polyrepræsentation sig bedre end input systemerne (ved top-100) Fusioner at de 3-5 bedste systemer var bedre end det bedste input systemer: Når kognitivt forskellige systemer blev kombineret var performance signifikant bedre Når kognitivt lignende systemer blev kombineret faldt performance Konklusioner ’Blødgøring’ af de Booleske sæt fungerede godt: tilføjelse af overlap fra lavere niveauer gav gode resultater Stor samling med mange dokumenter flere dokumenter i overlap? Polyrepræsentation af IR systemer Baseret på Lund, Schneider & Ingwersen (2006)

  19. Request Version … COGNITIVE OVERLAP from Engine X Task / Problem Description … defined cognitive overlap in X defined cognitive overlap in X Polyrep. af brugernes kognitive rum • Mange muligheder (se Ingwersen & Järvelin, 2005, p. 335 ff) • Kelly, Dollu & Fu (2005) undersøgte udtrækning og kombination af forskellige funktionelle repræsentationer af brugernes kognitive rum ved at stille 4 spørgsmål i interfacet: • Q1: Hvor mange gange har du tidligere søgt på emnet; • Q2: Beskriv hvad du allerede ved om emnet (16,18 ord); • Q3: Hvorfor er interesseret i at vide noget om emnet (10,67 ord); • Q4: Kan du give ekstra ord der beskriver emnet (3,3 ord) • Ord fra svarene blev kombineret og sammenlagt på forskellige måder med højere vægte for gentagne termer = ikke meget struktur

  20. Polyrep. af brugernes kognitive rum • Del af TREC 2004 HARD track: 13 søgere, 45 tasks med relevance vurderinger • Anvendte clarification forms med Q1-Q4 til at kontekstualisere tasks • Meget interessante resultater: • Alle enkeltvise Q og Q-kombinationer klarede sig bedre end baselinen • Alle ord (BL+Q2+Q3+Q4) gav bedst resultater af alle • Meget stærk korrelation mellem query-længde og performance • “...probing users with different, but related questions might elicit most robust and useful problem descriptions.” (p. 463) • Kelly, Dollu & Xin Fu (2005) giver meget stræk støtte til polyrepræsentation af brugernes kognitive rum •  flere forsøg med mere avancerede vægtninger af overlap

  21. Konklusioner og vejen frem • Princippet om polyrepræsentation • giver en teoretisk ramme for at udnytte mange forskellige typer af indeksering til at opnå bedre resultater • Mange hypoteser kan genereres og der er en teori at fortolke resultaterne i forhold til • Er holistisk og inddrager både system- og brugersiden • Ser ud til at fungere også empirisk i delkomponenter • Mangler endnu tests der kombinerer bruger og systemsiden (forventning om gode resultater) • Kan lede til meget komplekse kombinationer…

  22. Konklusioner og vejen frem • Næste skridt • Erfaringsopsamling med en lang række forskellige data  vigtigt for tuning af algoritmer • Flere laboratorietests af kombinationer af dokumenter og informationssystemer • Laboratorietests med brugerdata og brugere • Tests af implementering i operationelle miljøer • Undersøge applikation på federated/intergrated search • Tests af berigelse af bibliografiske poster (lektørudtalelser, anmeldelser, logdata)

  23. Tak for opmærksomheden

  24. Referencer • Ingwersen, P. (1996). Cognitive perspectives of informationretrieval interaction: elements of a cognitive IR theory. Journal of Documentation, 52(1), 3-50. • Ingwersen, P. & Järvelin, K. (2005). The turn: integration of information seeking and retrieval in context. Springer. • Kelly, D., Dollu, V.D. & Xin Fu.: The loquacious user: A document-independent source of terms for query expansion. In: Proceedings of the 28th Annual ACM SIGIR Conference on Research and Development in Information retrieval. ACM Press, New York NY (2005) 457-464 • Larsen, B. (2002): Exploiting citation overlaps for information retrieval: generating a boomerang effect from the network of scientific papers. Scientometrics, 54(2), 155-178. • Larsen, B. (2004): References and citations in automatic indexing and retrieval systems : experiments with the boomerang effect. Copenhagen: Royal School of Library and Information Science. XIII, 297 p. (PhD dissertation) [http://www.db.dk/blar/dissertation] • Lund, B.R., Schneider, J.W. & Ingwersen, P. (2006). Impact of relevance intensity in test topics on IR performance in polyrepresentative exploratory search systems. In: White, Ryen, Muresan, G. & Marchionini, G. (eds.), Evaluating Exploratory Search Systems, Proceedings of the SIGIR 2006 EESS Workshop: 42-46. • Skov, M., Larsen, B. & Ingwersen, P. (2006): Inter and intra-document contexts applied in polyrepresentation. In: Proceedings of the first symposium on Information Interaction in Context (IIiX), 18-20 October, 2006, Copenhagen, Denmark. 

More Related