1 / 100

Hermann-Paul-Centrum für Linguistik

Hermann-Paul-Centrum für Linguistik. Nutzung von Termhäufigkeiten bei der medizinischen Dokumentenrecherche Stefan Schulz, Kornél Markó, Rüdiger Klar Universitätsklinikum Freiburg Abteilung Medizinische Informatik. Medizinische Informatik in Freiburg.

Download Presentation

Hermann-Paul-Centrum für Linguistik

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Hermann-Paul-Centrum für Linguistik Nutzung von Termhäufigkeiten bei der medizinischen DokumentenrechercheStefan Schulz, Kornél Markó, Rüdiger KlarUniversitätsklinikum FreiburgAbteilung Medizinische Informatik

  2. Medizinische Informatik in Freiburg Medizinische Informatik Direktor Prof. Dr. Klar • Wissenschaftliche Schwerpunkte • Patientenbezogene Dienste: Krankenhausinformationssystem • Patientenunabhängige Auskunfts- und Wissensdienste • Grundlagen zur Modellierung medizinischer Konzepte • Begriffliche Ordnungssysteme in der Medizin • Konzepte zur Integration von Elektronischer Patientenakte und medizinischen Wissensdiensten • Text-Retrieval / Cross-Language Retrieval

  3. Dokumentenrecherche Medizinische Suchmaschinen • Unterschiedliche Dokumentenarten • Mehrsprachigkeit • Diverse Nutzergruppen • Hohe sprachliche Variabilität • Dokumentenumfang

  4. Nutzung von Termhäufigkeiten bei der medizinischen Dokumentenrecherche • Kontext: Semantische Indexierung • Termhäufigkeiten zur lexikalischer Disambiguierung • Termhäufigkeiten zum Relevanz-Ranking • Termhäufigkeiten bei der Lexikonvalidierung

  5. Nutzung von Termhäufigkeiten bei der medizinischen Dokumentenrecherche • Kontext: Semantische Indexierung • Termhäufigkeiten zur lexikalischer Disambiguierung • Termhäufigkeiten zum Relevanz-Ranking • Termhäufigkeiten bei der Lexikonvalidierung

  6. Konventionelle Suchtechnologien Todesursachenstatistik Statistik Todesursachen Statistik Todesursache

  7. Konventionelle Suchtechnologien Todesursachenstatistik Statistik Todesursachen Statistik Todesursache

  8. Konventionelle Suchtechnologien Anstieg der Cholestase-parameter

  9. Konventionelle Suchtechnologien Anstieg der Cholestase-parameter

  10. Konventionelle Suchtechnologien Anstieg der Cholestase-parameter

  11. Konventionelle Suchtechnologien Anstieg der Cholestase-parameter

  12. Problem • Variabilität fachsprachlicher Ausdrücke beeinträchtigt Rechercheergebnis • Maschinelle Indexierung (z.B. Web-Suchmaschinen) semantisch „blind“ • Manuelle Indexierung (z.B. MEDLINE) aufwendig • Morphosaurus-Ansatz: lexikonbasierte automatische semantische Indexierung

  13. Semantische Indexierung durch MORPHOSAURUS Subwort Thesaurus: Gruppierung von synonymen Subwörtern Subwort Lexikon: gastr stomach Magen ventric chamber hepat, hepar liver leber -itis, inflamm, entzünd nephr- ren- kidney niere #GASTR #CHAMBER #HEPAR #INFLAMM #NEPHR

  14. High TSH values suggest the diagnosis of primary hypo-thyroidism ... Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion ... Original Semantische Indexierung durch MORPHOSAURUS

  15. high tsh values suggest the diagnosis of primary hypo-thyroidism ... High TSH values suggest the diagnosis of primary hypo-thyroidism ... Orthografische Normalisierung Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion ... erhoehte tsh werte erlauben die diagnose einer primaeren schilddruesenunterfunktion ... Orthografische Regeln Original Semantische Indexierung durch MORPHOSAURUS

  16. high tsh values suggest the diagnosis of primary hypo-thyroidism ... High TSH values suggest the diagnosis of primary hypo-thyroidism ... Orthografische Normalisierung Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion ... erhoehte tsh werte erlauben die diagnose einer primaeren schilddruesenunterfunktion ... Orthografische Regeln Original Zerlegungsalgorithmus Subwort-Lexikon hightsh value s suggest the diagnos is of primar y hypothyroid ism er hoeh te tsh wert e erlaub en die diagnos e einer primaer en schilddruese n unterfunktion Semantische Indexierung durch MORPHOSAURUS

  17. high tsh values suggest the diagnosis of primary hypo-thyroidism ... High TSH values suggest the diagnosis of primary hypo-thyroidism ... Orthografische Normalisierung Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion ... erhoehte tsh werte erlauben die diagnose einer primaeren schilddruesenunterfunktion ... Orthografische Regeln Original Zerlegungsalgorithmus Subwort-Lexikon #up tsh #value #suggest #diagnost #primar #hypo #thyre Semantische Normalisierung hightsh value s suggest the diagnos is of primar y hypothyroid ism #up tsh #value #permit #diagnost #primar #thyre #hypo #function Subwort- Thesaurus er hoeh te tsh wert e erlaub en die diagnos e einer primaer en schilddruese n unterfunktion Semantische Indexierung durch MORPHOSAURUS Interlingua (Semantische Deskriptoren)

  18. high tsh values suggest the diagnosis of primary hypo-thyroidism ... High TSH values suggest the diagnosis of primary hypo-thyroidism ... Orthografische Normalisierung Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion ... erhoehte tsh werte erlauben die diagnose einer primaeren schilddruesenunterfunktion ... Orthografische Regeln Original Zerlegungsalgorithmus Subwort-Lexikon hightsh value s suggest the diagnos is of primar y hypothyroid ism er hoeh te tsh wert e erlaub en die diagnos e einer primaer en schilddruese n unterfunktion Semantische Indexierung durch MORPHOSAURUS Interlingua (Semantische Deskriptoren) #up tsh #value #suggest #diagnost #primar #hypo #thyre Semantische Normalisierung #up tsh #value #permit #diagnost #primar #thyre #hypo #function Subwort- Thesaurus

  19. Sprachübergreifende Suche mit MORPHOSAURUS

  20. Sprachübergreifende Suche mit MORPHOSAURUS

  21. Sprachübergreifende Suche mit MORPHOSAURUS Korrelation von Hypertonie und Läsion der Weißen Substanz…

  22. Sprachübergreifende Suche mit MORPHOSAURUS Korrelation von Hypertonie und Läsion der Weißen Substanz… #correl #hyper #tens #lesion #whit #matter

  23. Sprachübergreifende Suche mit MORPHOSAURUS Korrelation von Hypertonie und Läsion der Weißen Substanz… #correl #hyper #tens #lesion #whit #matter

  24. Benutzerfreundlichkeit Todesursachenstatistik Statistik Todesursache Statistik Todesursachen

  25. Benutzerfreundlichkeit Todesursachenstatistik Statistik Todesursache Statistik Todesursachen

  26. Mehrsprachigkeit Behandlung Hirnhautentzündung automatic all

  27. Mehrsprachigkeit Behandlung Hirnhautentzündung automatic all

  28. Nutzung von Termhäufigkeiten bei der medizinischen Dokumentenrecherche • Kontext: Semantische Indexierung • Termhäufigkeiten zur lexikalischer Disambiguierung • Termhäufigkeiten zum Relevanz-Ranking • Termhäufigkeiten bei der Lexikonvalidierung

  29. Mehrdeutigkeit • Quellen von Mehrdeutigkeiten sind lexikalische Ressourcen (vgl. WordNet) • „Bruch“ -> {#fraktur, #hernie} • Ohne Weltwissen nicht interpretierbar: „Bruch des Kleinfingers“, „Bruch in der Leiste“ • Alternative: Kontextinformationen und Wortstatistiken zur Disambiguierung

  30. Corpusstatistik w = 4

  31. Corpusstatistik [#fraktur #finger] = 3 w = 4

  32. Corpusstatistik [#fraktur #finger] = 3 [#finger #unterbrech] = 1

  33. Corpusstatistik [#fraktur #finger] = 3 [#finger #unterbrech] = 1 [#unterbrech #kontin.] = 1 . . . . . . .

  34. Disambiguierung • Ambiguität von „Bruch des Fingers“: • [{ #fraktur,#hernie} #finger] • [#fraktur #finger] = 3 • [#hernie #finger] = 0 • -> mit „Bruch“ ist „Fraktur“ gemeint…

  35. Nutzung von Termhäufigkeiten bei der medizinischen Dokumentenrecherche • Kontext: Semantische Indexierung • Termhäufigkeiten zur lexikalischer Disambiguierung • Termhäufigkeiten zum Relevanz-Ranking • Termhäufigkeiten bei der Lexikonvalidierung

  36. Termhäufigkeiten zum Relevanz-Ranking • Anfrage: „Statistik Todesursache“ Welches Dokument passt am besten zur Anfrage?

  37. Termhäufigkeiten zum Relevanz-Ranking • TF/IDF: Term-Frequenz/Inverse Dokument-Frequenz • Prinzip: statistische Ermittlung der „Wichtigkeit“ von einzelnen Wörtern • Prämisse: Wörter, welche in einem Dokument häufig, in anderen aber sehr selten sind, sind gute Deskriptoren des Dokumenteninhalts

  38. Termhäufigkeiten zum Relevanz-Ranking • Inverse Dokument-Frequenz anhand einer Kollektion von 1 Mio Dokumenten: • „Todesursache“ kommt in 100 Dokumenten vor. IDF(Todesursache)=: 100/1000000=0.0001 • „Statistik“ kommt in 1000 Dokumenten vor. IDF(Statistik) = 1000/1000000=0.001 • Termfrequenz anhand von Dokument 1 • „Todesursache kommt 3mal vor, „Statistik“ 1mal und insgesamt beinhaltet das Dokument 100 Wörter. • TF(Todesursache) = 3/100 = 0.03 • TF(Statistik) = 1/100 = 0.01 • Termfrequenz anhand von Dokument 2 • „Todesursache“ kommt 2mal vor, „Statistik“ 7mal und insgesamt hat das Dokument 300 Wörter. • TF(Todesursache) = 2/300 = 0.007 • TF(Statistik) = 7/300 = 0.023 • Das Ranking ergibt sich aus dem Verrechnen von TF und IDF: • Dokument 1: (0.03/0.0001) * (0.01/0.001) = 300 * 10 = 3000 • Dokument 2: (0.007/0.0001) * (0.023/0.001) = 70 * 23 = 1610 • Dokument 1 erhält ein besseres Ranking, obwohl Dokument 2 insgesamt mehr Treffer aufweist!

  39. Nutzung von Termhäufigkeiten bei der medizinischen Dokumentenrecherche • Kontext: Semantische Indexierung • Termhäufigkeiten zur lexikalischer Disambiguierung • Termhäufigkeiten zum Relevanz-Ranking • Termhäufigkeiten bei der Lexikonvalidierung

  40. Vergleichbare Korpora in unterschiedlichen Spachen Sprache 1 Sprache 2 Sprache 3 Diabetes mellitus tipo 1 (ya no debe usarse el término Diabetes Insulino dependiente) Característicamente se da en la época temprana de la vida y se debe a un deficit absoluto de insulina, dado por la destrucción de las células beta del páncreas por procesos autoinmunes ó idiopáticos. Sólo cerca de 1 entre cada 20 personas diabéticas tiene diabetes tipo 1, la cual se presenta más frecuentemente en jóvenes y niños. Este tipo de diabetes se conocía como diabetes mellitus insulinodependiente o diabetes juvenil. En ella, las células beta del páncreas no producen insulina o apenas producen. En los primeros años de la enfermedad suelen quedar reservas pancreáticas que permiten una secreción mínima de insulina (este período se denomina luna de miel). Diabetes Typ 1 Bei diesem Krankheitstyp zerstört das körpereigene Immunsystem selbst im Rahmen einer Entzündungsreaktion die insulinproduzierenden Betazellen in der Bauchspeicheldrüse. Diese Entzündungsreaktion setzt wahrscheinlich bereits in frühester Kindheit ein. Die daraus folgende Zerstörung der insulinproduzierenden Betazellen führt nach und nach zu einem zunehmenden Insulinmangel. Erst wenn ca. 80-90 Prozent der Beta-Zellen zerstört sind manifestiert sich ein Typ-1-Diabetes. In der Anfangsphase der Erkrankung ist also durchaus noch eine kleine Insulinrestproduktion vorhanden. Type 1 diabetes mellitus Type 1 diabetes mellitus — formerly known as insulin-dependent diabetes (IDDM), childhood diabetes, is characterized by loss of the insulin-producing beta cells of the islets of Langerhans of the pancreas leading to a deficiency of insulin. It should be noted that there is no known preventative measure that can be taken against type 1 diabetes. Most people affected by type 1 diabetes are otherwise healthy and of a healthy weight when onset occurs. Diet and exercise cannot reverse or prevent type 1 diabetes. Sensitivity and responsiveness to insulin are usually normal, especially in the early stages. kindiiqzyqa 1 diabetesiiiryxa candiwijixa kindiiqzyqa 1 diabetesiiiryxa candiwijixa — formeriiijyxa knowledgiiiprqa insuliniiqwrwa - {referriiiijqa,addictiiiiqka} diabetesiiiryxa ( iddm ) , childreniijxjza diabetesiiiryxa , featuriikqjra lostiiqpxka insuliniiqwrwa - productiiiyjya betaiiipxya cellulrijzyqa isletiijrjka langerhansiikirxa pancreatiiqxira {plumbiiiqjya,leaderijqirpa,ledijzjrka,deriviiirxka} deficriprzra insuliniiqwrwa . noted nooneiiirxqa knowledgiiiprqa precautiiipyya {activitiiiizpa,mensurationiixwika} {kannerikyik,couldiiiiiya,lataijwipz} {beveragiiipjia,extractiiiywra,gripiijkipa,genommiikryi,tomadikqypz} againstiiijyra kindiiqzyqa 1 diabetesiiiryxa . mostiizrpwa {nationiikzrya,someoneiijpyxa} {loveiikjwwa,infestatiiipqwa} kindiiqzyqa 1 diabetesiiiryxa healthiijjiwa diabetesiiiryxa {kindiiqzyqa,guyijwpkka,speciesippjxwa} 1 pathiiiyiia {kindiiqzyqa,guyijwpkka,speciesippjxwa} destriiprwqa somaliijxxza selfiijrria imunipyqpza systemiiqipra iniiiqija frameiijizqa phlogistiiixxka reactiizwrxa insuliniiqwrwa productiiiyjya betaiiipxya cellulrijzyqa iniiiqija pancreatiiqxira . phlogistiiixxka reactiizwrxa sitijwwkya likeliijrkjka iniiiqija precociijijra esteriiiykra childreniijxjza . {aftereffectiiizypa,followiiipqza} destriiprwqa insuliniiqwrwa productiiiyjya betaiiipxya cellulrijzyqa ledijzjrka reariiipjxa reariiipjxa highgrade_extent_or_weightrikxxka insuliniiqwrwa deficriprzra . primariiiyiya 80 - 90 percentipjwwka beta - cellulrijzyqa destriiprwqa manifestiikpixa {kindiiqzyqa,guyijwpkka,speciesippjxwa} - 1 - diabetesiiiryxa . iniiiqija incipientiiiwqwa phasiiiykwa . diabetesiiiryxa candiwijixa {kindiiqzyqa,guyijwpkka, speciesippjxwa} hum ( ya nooneiiirxqa debe usediiqkyxa el stoppiijqwpa diabetesiiiryxa insuliniiqwrwa {referriiiijqa,addictiiiiqka} ) featuriikqjra se da iniiiqija la epoca precociijijra la vida se debe a un deficit absolutiiiikpa insuliniiqwrwa , dado viaijpiwpa la nooneiiirxqa changiiiiwqa las cellulrijzyqa beta del pancreas viaijpiwpa {vorgangripiqx,techniqueiikqpja,decursipqyxp,lawsuitriqzqxa} selfiijrria imunipyqpza opippwqa idio pathiiiyiia os . justijqjjqa cerca hum entre cada dois zero someoneiijpyxa diabetesiiiryxa tiene diabetesiiiryxa {kindiiqzyqa,guyijwpkka,speciesippjxwa} hum , la cual se showijpiqqa morerijyqpa frequentriqjwia iniiiqija

  41. Häufigkeit semantischer Deskriptoren kindiiqzyqa 1 diabetesiiiryxa candiwijixa kindiiqzyqa 1 diabetesiiiryxa candiwijixa — formeriiijyxa knowledgiiiprqa insuliniiqwrwa - {referriiiijqa,addictiiiiqka} diabetesiiiryxa ( iddm ) , childreniijxjza diabetesiiiryxa , featuriikqjra lostiiqpxka insuliniiqwrwa - productiiiyjya betaiiipxya cellulrijzyqa isletiijrjka langerhansiikirxa pancreatiiqxira {plumbiiiqjya,leaderijqirpa,ledijzjrka,deriviiirxka} deficriprzra insuliniiqwrwa . noted nooneiiirxqa knowledgiiiprqa precautiiipyya {activitiiiizpa,mensurationiixwika} {kannerikyik,couldiiiiiya,lataijwipz} {beveragiiipjia,extractiiiywra,gripiijkipa,genommiikryi,tomadikqypz} againstiiijyra kindiiqzyqa 1 diabetesiiiryxa . mostiizrpwa {nationiikzrya,someoneiijpyxa} {loveiikjwwa,infestatiiipqwa} kindiiqzyqa 1 diabetesiiiryxa healthiijjiwa diabetesiiiryxa {kindiiqzyqa,guyijwpkka,speciesippjxwa} 1 pathiiiyiia {kindiiqzyqa,guyijwpkka,speciesippjxwa} destriiprwqa somaliijxxza selfiijrria imunipyqpza systemiiqipra iniiiqija frameiijizqa phlogistiiixxka reactiizwrxa insuliniiqwrwa productiiiyjya betaiiipxya cellulrijzyqa iniiiqija pancreatiiqxira . phlogistiiixxka reactiizwrxa sitijwwkya likeliijrkjka iniiiqija precociijijra esteriiiykra childreniijxjza . {aftereffectiiizypa,followiiipqza} destriiprwqa insuliniiqwrwa productiiiyjya betaiiipxya cellulrijzyqa ledijzjrka reariiipjxa reariiipjxa highgrade_extent_or_weightrikxxka insuliniiqwrwa deficriprzra . primariiiyiya 80 - 90 percentipjwwka beta - cellulrijzyqa destriiprwqa manifestiikpixa {kindiiqzyqa,guyijwpkka,speciesippjxwa} - 1 - diabetesiiiryxa . iniiiqija incipientiiiwqwa phasiiiykwa . diabetesiiiryxa candiwijixa {kindiiqzyqa,guyijwpkka, speciesippjxwa} hum ( ya nooneiiirxqa debe usediiqkyxa el stoppiijqwpa diabetesiiiryxa insuliniiqwrwa {referriiiijqa,addictiiiiqka} ) featuriikqjra se da iniiiqija la epoca precociijijra la vida se debe a un deficit absolutiiiikpa insuliniiqwrwa , dado viaijpiwpa la nooneiiirxqa changiiiiwqa las cellulrijzyqa beta del pancreas viaijpiwpa {vorgangripiqx,techniqueiikqpja,decursipqyxp,lawsuitriqzqxa} selfiijrria imunipyqpza opippwqa idio pathiiiyiia os . justijqjjqa cerca hum entre cada dois zero someoneiijpyxa diabetesiiiryxa tiene diabetesiiiryxa {kindiiqzyqa,guyijwpkka,speciesippjxwa} hum , la cual se showijpiqqa morerijyqpa frequentriqjwia iniiiqija 1000 100 10 1

  42. Portugiesisch/Englisch Deutsch / Englisch

  43. Zusammenfassung

  44. Vielen Dank! Kontakt: stschulz@uni-freiburg.de Medizinische Informatik

  45. Proof-of-Concepts I • Deutsche Zentralbibliothek für Medizin (ZBMed), Köln: • Bibliographische Suche über 300.000 einsprachige Dokumente • Deutsches Institut für Medizinische Dokumentation und Klassifikation (DIMDI), Köln: • Bibliographische Suche über 600.000 mehrsprachige Dokumente • Health on the Net Foundation (HON), Genf: • Studie mit 5,000 Dokumenten • Hautklinik Freiburg: • „Google“-Suche für patientenbezogene Daten (EPA)

  46. Proof-of-Concepts II • Hautklinik Freiburg:

  47. Proof-of-Concepts III • ICD Kodierbrowser: • Suche in 15,278 ICD-Codes

  48. Evaluation • OHSUMED-Corpus (Hersh et al., 1994) • Untermenge von MEDLINE • ~300,000 englische Dokumente • 106 englische Benutzeranfragen, von Experten übersetzt ins Deutsche, Portugiesische, Spanische, Französische und Schwedische • Relevanz der Dokumente manuell markiert

  49. Evaluation 121% 111% 99% 84% 79% 79%

  50. Hermann-Paul-Centrum für Linguistik Probabilistische Methoden in der Anwendung und Pflege eines medizinischen DokumentenrecherchesystemsStefan Schulz, Kornél Markó, Rüdiger KlarUniversitätsklinikum FreiburgAbteilung Medizinische Informatik

More Related