1 / 32

Indeksering med semantiske komponenter øger præcision

Indeksering med semantiske komponenter øger præcision. Marianne Lykke Nielsen Informationsinteraktion og Informationsarkitektur Danmarks Biblioteksskole. Temadag Udviklingstendenser indenfor indeksering og repræsentation Danmarks Biblioteksskole 4. oktober 2007. Agenda.

Download Presentation

Indeksering med semantiske komponenter øger præcision

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Indeksering med semantiske komponenter øger præcision Marianne Lykke Nielsen Informationsinteraktion og Informationsarkitektur Danmarks Biblioteksskole Temadag Udviklingstendenser indenfor indeksering og repræsentation Danmarks Biblioteksskole 4. oktober 2007 Oktober 2007

  2. Agenda • Forskningsprojektet – problemstilling og samarbejdspartnere • Indeksering med semantiske komponenter • Brugerevaluering • Resultater og konklusioner Oktober 2007

  3. Problemstilling og udgangspunkt • Emnesøgning i domænespecifikke IR systemer kan være problematisk: • Domænespecifikke IR systemer indeholder ofte store dokumentmængder om et begrænset sæt af emner • Domæneeksperter har ofte specifikke informationsbehov, der er relateret til en konkret arbejdsopgave • Fremfundne dokumenter skal ikke blot være emnemæssig relevante, men relevante i forhold til den konkrete arbejdsopgave • Begrænset tid til søgning Oktober 2007

  4. Problemstilling og udgangspunkt • Indeksering udgør basis for informationsgenfinding • To basis, komplementære indekseringsmetoder: • Intellektuel, manuel indeksering, ofte ved anvendelse af kontrollerede indekseringssprog • Automatisk, computer-baseret indeksering, baseret på tekstord • Indekseringsproblemer: • Emner – hvilke emner skal indekseres, og med hvilken grad af ekshautivitet og specificitet • Terminologi – hvilke ord og sprogbrug skal anvendes til at udtrykke emnerne • Konsistens – hvordan sikrer vi konsistens • Omkostninger – indeksering tager tid og kræver domæne viden og specifikke kompetencer Oktober 2007

  5. Oktober 2007

  6. Oktober 2007

  7. Forskningssamarbejde og forskningsteam Almen medicin Peter Vedsted MD, Ph.D. Forskningsenheden for Almen medicin, Århus Universitet Jens Rubak MD Praksis.dk, Århus Amt/Region Midtjylland Informations- og computervidenskab Lois Delcambre, Ph.D., Professor Susan Price, MD, Ph.D. studerende Computer Science Department Portland State University, USA Marianne Lykke Nielsen, Ph.D., Lektor Forksningsprogrammet: Informationsinteraktion og informationsarkitektur Danmarks bibliotekskole sundhed.dk Vibeke LukFrans la Cour Informationsspecialist IT konsulent sundhed.dk Autonomy Finansieret af US National Science Foundation samt sundhed.dk og Århus Amt Oktober 2007

  8. Case study • sundhed.dk: national, dansk sundhedsportal • Aktiv siden 2001, 25.000 dokumenter • To hovedmålgrupper: borgere og medarbejdere fra sundhedssektoren • Anvender både automatiske og manuelle indekseringsmetoder: • ICPC • ICD-10 • Borgertesaurus • Stor og varieret gruppe af indeksører • 17 regioner • Op til 250 indeksører per region • Forskningsprojektet har fokus på praktiserende læger Oktober 2007

  9. Indeksering med semantiske komponenter (SC) • Opmærkning af teksters semantiske elementer, semantiske komponenter, som supplement til andre indekseringsmetoder • Elementer, der indeholder information om bestemte aspekter af dokumentets overordnede emne, f.eks. diagnosticering, behandling, henvisning, risikofaktorer • Metoden bygger på formodningen, at indeksering med SC er nem og hurtig, og vil medføre bedre kvalitet og konsistens, fordi forskning viser: • Domæneeksperter kender dokumenttyper indenfor et bestemt domæne. De kender dokumentstruktur og bruger denne viden, når de læser og anvender dokumenter (Dillon, 1991; Orlikowaki & Yates, 1994; Bishop, 1999) • Indhold og struktur i domænespecifikke dokumenter modsvarer struktur (aspekter eller facetter) i domænespecifikke informationsbehov (Ely et al, 1999,2000; Price, Delcambre, Nielsen, 2006) Oktober 2007

  10. Klinisk metode General information Praktisk information Oktober 2007

  11. General information Klinisk metode Risikofaktorer Efterbehandling Oktober 2007

  12. Indeksering med semantiske komponenter (SC) • En semantisk komponent opmærker den del af dokumentet, som giver information om et bestemt aspekt • For bestemte dokumenttyper (genrer) eksisterer et fælles sæt af semantiske komponenter • For eksempel, har dokumenttypen Klinisk metode6 semantiske komponenter: • General information, Praktisk information, Henvisningsvejledning, Efterbehandling, Risikofaktorer, Forventet resultat • I sundhed.dk har vi identificeret 6 dokumenttyper med hver deres sæt af semantiske komponenter: • Klinisk problem, Klinisk metode, Services, Lægemidler, Kliniske enheder, Opslag Oktober 2007

  13. Oktober 2007

  14. Oktober 2007

  15. Oktober 2007

  16. Udover søgetermen, der angiver hovedemnet … … indtaster man søgetermer, der skal forekomme i bestemte semantiske komponenter – med det formål at præcisere søgningen Oktober 2007

  17. Man kan også indtaste en * for at finde de dokumenter om astma, der er dokumenttypen klinisk problem, og som indeholder en semantisk komponent vedr. henvisning Oktober 2007

  18. Brugerevaluering - søgning • Sammenligning mellem standard søgesystem (System 1) og eksperimentelt søgesystem med semantiske komponenter (system (2) • Testpersoner: 30 praktiserende læger, som har erfaring med sundhed.dk og online informationssøgning • Træningssession: introduktion til semantiske komponenter og de to søgesystemer • Søgeopgaver: 4 kontrollerede, simulerede søgeopgaver • 2 søgeopgaver udføres i kontrol søgesystemet • 2 søgeopgaver udføres i det eksperimentelle søgesystem • Tilfældig fordeling af rækkefølge for søgeopgaver og søgesystemer • Data indsamling: • Søgeadfærd, gradueret relevansvurdering (bruger og system relevans), tidsforbrug, brugervurdering af brugervenlighed, tillid, tilfredshed Oktober 2007

  19. Søgeopgave Søgeopgave C Søgecase: Anna er barnløs. Hun har to haft to spontane aborter. Hun er nu klar til at prøve at blive gravid igen. Der er noget med folinsyre. Skal hun tage det, og hvor meget skal hun tage? Søgeopgave: Find dokumenter, der hjælper dig med at bestemme, om Anna skal tage folinsyre, og hvis, hvilken dosis hun skal tage. Oktober 2007

  20. Testpersoner Oktober 2007

  21. Søgeperformance Oktober 2007

  22. Søgeperformance Oktober 2007

  23. Anvendelse af Semantiske komponenter Oktober 2007

  24. Brugervenlighed Oktober 2007

  25. Brugerholdninger • 73% af brugerne indikerer, at de vil bruge SC i mere end 50% af deres søgninger • SC er brugbar til bestemte søgeopgaver • SC er brugbare til komplicerede, specifikke søgeopgaver – for opgaver, hvor du er på “nyt, og ukendt territorium” • SC skal læres, er ikke intuitive • Brugere skal modtage undervisning for at bruge SC effektivt • Labels er ikke intuitive • Bedre funktionalitet • Direkte adgang fra interface til den semantiske komponent i teksten • Udeladelse af dokumentklasser og færre SC • Personalisering Oktober 2007

  26. Opsummering • Vi ønskede at udvikle indekseringsmetode til forbedring af præcision i søgning • Vi udviklede metoden Indeksering med semantiske komponenter – som supplement til både manuel og automatisk indeksering • Vi testede metodens effektivitet i forhold til praktiserende lægers informationssøgning i sundhed.dk • Vi erfarede, at metoden sammenlignet med standard kontrol system øger præcision og ranking af dokumenter • Vi ønsker at videreudvikle metoden: i.f.t. andre domæner, valg og brug af dokumentklasser og semantiske komponenter, automatisk opmærkning med SC – via automatisk kategorisering eller via opmærkning med f.eks. XML tags Oktober 2007

  27. Litteratur Dillon, M (1991). Reader’s model of text structures: the case of academic articles. International Journal of Man-Machine Studies, 35. 913 – 925. Ely, J, Osheroff, J, Ebell, M, Bergus, G, Levy, B Chambliss, M & Evans, E (1999). Analysis of wquestions asked by family doctors regarding patient care. BMJ, 310 (7206). 358 – 361. Ely, J, Osheroff, J, Gorman, P, Ebell, M, Bergus, G, Levy, B Chambliss, M, Pifer, E & Stavri, P (2000). A taxonomy of generic clinical questions: classification study. BMJ, 321 (7278). 429 - 432. Hearst, M & Plaunt, C (1993). Subtopic structuring for full length document access. Proceedings of the ACM SIGIR Conference on Research and Development in Information Retrieval. 59 – 69. Orlikowaki, W J & Yates, J (1994). Genre repertoire: the structuring of communicative practices in organizations. Administrative Science Quarterly, 39. 541 – 574. Price, S, Delcambre, L & Nielsen, M L (2006). Using semantic components to express questions against document collections. Proceedings International Workshop on Health Information and Knowledge Management (HIKM 2006), Arlington (VA). Price, S, Nielsen, M L, Delcambre, L & Vedsted, P (2007). Semantic components enhance retrieval of domain-specific documents. Proceedings of the ACM Sixteenth Conference on Information and Knowledge Management (CIKM), Lisboa, November 6 - 8, 2007. Oktober 2007

  28. Brugerevaluering - indeksering • Sammenligning mellem traditionel emneordsindeksering og indeksering med semantiske komponenter • Testpersoner: 16 danske sundhed.dk indeksører • Træningsforløb: introduktion indeksering med semantiske komponenter (SC) • Indekseringsopgaver: 12 sundhed.dk dokumenter • 6 dokumenter indekseres med SC • 6 dokumenter indekseres med emneord ved brug af ICPC, ICD-10, Borgertesaurus • Tilfældig sekvens af indekseringsrækkefølge og metode • Data indsamling: • Indekseringsdata • Tidsforbrug • Brugernes vurdering af graden af brugervenlighed (ease of use), tillid, tilfredshed Oktober 2007

  29. Brugervenlighed Oktober 2007

  30. Oktober 2007

  31. Oktober 2007

  32. Søgeperformance Oktober 2007

More Related