1 / 9

Aufgaben V

Aufgaben V. Bemerkung zu clustering Probabilistic IR Indexierung von Dokumenten Thesauri. 1. Klassifikation. Welche Sorten von Klassifikationen gibt es? Erl äutern Sie Facettenklassifikation, Registerklassifikation und Dezimalklassifikation?

mulan
Download Presentation

Aufgaben V

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Aufgaben V • Bemerkung zu clustering • Probabilistic IR • Indexierung von Dokumenten • Thesauri Seminar Textmining WS 06/07

  2. Seminar Textmining WS 06/07

  3. 1. Klassifikation • Welche Sorten von Klassifikationen gibt es? • Erläutern Sie Facettenklassifikation, Registerklassifikation und Dezimalklassifikation? • Lässt sich eine Polyhierarchie stets in eine Monohierarchie überführen? Gegeben seien drei Dokumente und zwei Klassen. • D1 = T1 T1 • D2 = T2 T2 • D3 = T1 T2 T3 • K1 = T1 • K2 = T2 Klassifizieren Sie die Dokumente in die zwei Klassen unter berücksichtigung einer Term-Term Korrelationsmatrix Seminar Textmining WS 06/07

  4. 2. Probabilistic Information Retrieval • Im binary independence model, wenn P(rel), wie gross ist dann P(nrel)? • Es werden Wahrscheinlichkeiten genutzt, um auszurechnen, wie ein Dokument zu einer query passt • f(d,q) liefert einen Wert, der aussagt, wie sehr d zu q passt. Dadurch lassen sich alle d zu q ranken. • f(d,q) = log (Pq(rel|(d1,…,dn)) / (1-Pq(rel…))) Um aber Pq abschaetzen zu können wird bedingte Unabhängigkeit angenommen, somit • f(d,q) = Summei di log ((pi(1-qi)) / (qi(1-pi)) ) • Dabei ist pi die Wkt. Dass ein relevantes Dokument Term i beinhaltet • Und qi ist die Wkt., dass ein irrelevantes Dok. Term i beinhaltet • Nach Schätzung durch Relevanzurteile dann nur noch einsetzen Seminar Textmining WS 06/07

  5. 2.1. Daten Berechnen sie, wie sehr Dokumente zu query passen, wenn Relevanz, Dokumente und Terme gegeben sind. T1 T2 T3 T4 T5 rel(q1) D1 1 1 1 0 0 n D2 1 1 0 0 1 n D3 0 0 1 1 1 n D4 0 1 1 0 0 r D5 1 1 0 0 0 r D6 1 0 1 0 1 r D7 0 1 0 1 0 n pi1 (ri/r) qi1 (fi-ri)/(f-r) • fi ist dok. mit i - f ist zahl dokumente • ri ist rel. mit i - r ist zahl rel. dokum. q1 1 1 0 0 1 • f(d,q) = Summei dUNDqi log ((pi(1-qi)) / (qi(1-pi)) ) f(d1,q1) = f(d2,q1) = f(d3,q1) = F(d4,q1) = F(d5,q1) = F(d6,q1) = F(d7,q1) = Seminar Textmining WS 06/07

  6. 2.2. Daten T1 T2 T3 T4 T5 rel(q1) D1 1 1 1 0 0 n D2 1 1 0 0 1 n D3 0 0 1 1 1 n D4 0 1 1 0 0 r D5 1 1 0 0 0 r D6 1 0 1 0 1 r D7 0 1 0 1 0 n pi1 2/3 2/3 2/3 0 1/3 (ri/r) qi1 2/4 3/4 2/4 2/4 2/4 (fi-ri)/(f-r) • fi ist dok. mit i - f ist zahl dokumente • ri ist rel. mit i - r ist zahl rel. dokum. q1 1 1 0 0 1 f(d1,q1) = Si di log ((pi(1-qi)) / (qi(1-pi)) ) %aber nur da, wo Ti und Di != 0 = 1*log(0.6*0.5/0.5*0.3) + 1*log(0.6*0.25/0.75*0.3) +0 + 0 + 0 = = 0.3 + -0.18 + 0 + 0 + 0 = 0.12 f(d2,q1) = 0.3 + -0.18 + 0 + 0 + -0.3 = -0.18 f(d3,q1) = 0 + 0 + 0 + 0 + -0.3 = -0.3 F(d4,q1) = 0 + -0.18 + 0 + 0 + 0 = -0.18 F(d5,q1) = 0.3 + -0.18 + 0 + 0 + 0 = 0.12 F(d6,q1) = 0.3 + 0 + 0 + 0 + -0.3 = 0 F(d7,q1) = 0 + -0.18 + 0 + 0 + 0 = -0.18 Seminar Textmining WS 06/07

  7. 3. Indexierung von Dokumenten • Welche Indexierungsvarianten sind Ihnen bekannt? • Welche Terme sollen im Index stehen? • Welche Faktoren spielen eine negative Rolle? Seminar Textmining WS 06/07

  8. 3.1. Indexierung von Dokumenten • Welche Indexierungsvarianten sind Ihnen bekannt? • Titelbasiertes indexieren • Schlagwörterbasiert • Abstract • Ordnungssystem (Klassifikationssystem) • Welche Terme sollen im Index stehen? • Welche Faktoren spielen eine negative Rolle? • Ambiguität • Historisch verwandte Begriffe • Metaphorische Benutzung • Fachterminologie • Unspezifische Terme • Verwendung der Terme bei Recherche und bei Indexierung Seminar Textmining WS 06/07

  9. 3.2. WordNet 00003226 03 n 02 organism 0 being 0 055 @ 00003009 n 0000 + 02536315 v 0201 -c 00270602 a 0000 -c 00323358 a 0000 -c 01615477 a 0000 ~ 00004358 n 0000 ~ ... 01242256 05 n 01 conspecific 0 001 @ 00003226 n 0000 | an organism belonging to the same species as another organism doc Seminar Textmining WS 06/07

More Related