1 / 27

Indizierungstechniken im Information Retrieval

Indizierungstechniken im Information Retrieval. Steffen Lang 10.01.06. Seminar S2D2 - Indizierungstechniken im IR. Warum Indizieren?. Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss. Schnelleres Auffinden relevanter Dokumente Bsp.:.

kipp
Download Presentation

Indizierungstechniken im Information Retrieval

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Indizierungstechniken im Information Retrieval Steffen Lang 10.01.06

  2. Seminar S2D2 - Indizierungstechniken im IR Warum Indizieren? Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Schnelleres Auffinden relevanter Dokumente • Bsp.: • Informationen über Maseratisaus Buch mit 500 Seiten • Vier Seiten befassen sich mit Maseratis • Index umfasst eine Seite • Zeitaufwand ohne Index ca. 100-mal größer Steffen Lang - 10.01.06

  3. Seminar S2D2 - Indizierungstechniken im IR Merkmale eines Index Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Eignung für verschiedene Retrieval-Modelle • Dauer einer Anfrage in Abhängigkeit der Größe der Dokumentenkollektion n • Größe des Index in Abhängigkeit von n • Algebraische (Vektorraummodell) • Boolesche • Fuzzy Steffen Lang - 10.01.06

  4. Seminar S2D2 - Indizierungstechniken im IR Übersicht Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Vier verschiedene Indizierungstechniken • Unterscheidung anhand • Invertierte Listen • Signatur-Dateien • Suffix-Arrays • Latent Semantic Indexing • Aufbau • Ablauf einer Anfrage • Merkmale der vorherigen Folie Steffen Lang - 10.01.06

  5. Vokabular Vorkommen 1 2 Autos Maserati Maybach Mazda 3 1, 3 2, 3 1 Ein Maserati ist schneller als ein Mazda. Ein Maybach ist teuer. Maybach und Maserati sind seltene Autos. 3 Seminar S2D2 - Indizierungstechniken im IR Invertierte Listen Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Liste für jeden Indexterm mit dessen Vorkommen • Vokabular: Menge aller Indexterme • Vorkommen: Menge der Dokument-IDs, evtl. mit Gewichten Steffen Lang - 10.01.06

  6. Seminar S2D2 - Indizierungstechniken im IR Ablauf einer Anfrage Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Anfrage in einzelne Terme zerlegen • Terme im Vokabular suchen • Vorkommen der Terme finden • Vorkommen kombinieren Maserati OR Mazda Autos Maserati Maybach Mazda 3 1, 3 2, 3 1 Maserati 1, 3 Mazda Steffen Lang - 10.01.06

  7. Seminar S2D2 - Indizierungstechniken im IR Merkmale Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Modelle: • Anfragedauer: O(n0.8) (*) • Größe: O(n0.85) (*) • (*) nach R. Baeza-Yates, B. Ribeiro-Neto: Modern Information Retrieval • Algebraische • Boolesche • Fuzzy Steffen Lang - 10.01.06

  8. Seminar S2D2 - Indizierungstechniken im IR Vor- und Nachteile Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Sublineare Anfragedauer • Sublineare Größe • Gut Komprimierbar • Suche nach Teilworten nicht möglich Steffen Lang - 10.01.06

  9. 1 2 3 Ein Maserati ist schneller als ein Mazda. Ein Maybach ist teuer. Maybach und Maserati sind seltene Autos. 4 Seminar S2D2 - Indizierungstechniken im IR Signatur-Dateien (1) Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Dokumente werden in Blöcke zerlegt • Hashfunktion h bildet Terme auf Signatur aus B Bits ab h(Autos) = 001 h(Maserati) = 010 h(Maybach) = 100 h(Mazda) = 011 Steffen Lang - 10.01.06

  10. S1 S2 S3 S4 010 011 100 011 1 2 3 Ein Maserati ist schneller als ein Mazda. Ein Maybach ist teuer. Maybach und Maserati sind seltene Autos. 4 Seminar S2D2 - Indizierungstechniken im IR Signatur-Dateien (2) Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • ODER-Verknüpfung der Signaturen eines Blocks i ergibt Blocksignatur Si • Menge der Si ergibt Signatur-Datei h(Autos) = 001 h(Maserati) = 010 h(Maybach) = 100 h(Mazda) = 011 Signatur-Datei Steffen Lang - 10.01.06

  11. Seminar S2D2 - Indizierungstechniken im IR Ablauf einer Anfrage (1) Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Signaturen der Anfrageterme berechnen • ODER-Anfragen: Ergebnisse vereinigen • UND-Anfragen: Signatur Q der Anfrage durch ODER- Verknüpfung bilden Q Maserati AND Autos 011 h(Autos) = 001 h(Maserati) = 010 h(Maybach) = 100 h(Mazda) = 011 Steffen Lang - 10.01.06

  12. S1 S2 S3 S4 010 011 100 011 Q & S1 = 010 Q & S2 = 011 Q & S3 = 000 Q & S4 = 011 False Positive Treffer Seminar S2D2 - Indizierungstechniken im IR Ablauf einer Anfrage (2) Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Anfragesignatur mit Signaturen der Blöcke mit UND verknüpfen • Potentieller Treffer falls Q & Si = Q • Fehler zulassen oder Online-Suche Q 011 Steffen Lang - 10.01.06

  13. Seminar S2D2 - Indizierungstechniken im IR Ablauf einer Anfrage (3) Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Problem an Blockgrenzen • Bsp.: Suche nach Satz mit Maybach und Maserati • Lösung: Blöcke überlappen lassen 1 2 3 Ein Maserati ist schneller als ein Mazda. Ein Maybach ist teuer. Maybach und Maserati sind seltene Autos. 4 Steffen Lang - 10.01.06

  14. Seminar S2D2 - Indizierungstechniken im IR Merkmale Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Modelle: Boolesche • Anfragedauer: O(n) • Größe: O(n) Steffen Lang - 10.01.06

  15. Seminar S2D2 - Indizierungstechniken im IR Vor- und Nachteile Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Schnelle Bitoperationen • gut für Phrasensuche geeignet • False Positives • Für wenige Retrieval-Modelle geeignet Steffen Lang - 10.01.06

  16. 1 3 2 4 5 c ab b 5 abc c c abc 1 3 2 4 Seminar S2D2 - Indizierungstechniken im IR Suffix-Arrays Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Kompakte Speicherform für Suffix-Trees • Blätter werden in lexikographischer Reihenfolge in einem Array gespeichert ababc Suffix-Tree Suffix-Array Steffen Lang - 10.01.06

  17. 1 3 2 4 5 S1=ababc S2=babc Seminar S2D2 - Indizierungstechniken im IR Ablauf einer Anfrage Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Anfrage Q als String betrachten • Binäres Suchen der Suffixe S1 und S2 mit S1≤Q<S2 • Pointer zwischen denen zu S1 und S2 als Ergebnis ababc Q = ab Ergebnis: 1, 3 Steffen Lang - 10.01.06

  18. Seminar S2D2 - Indizierungstechniken im IR Merkmale Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Modelle: Boolesche • Anfragedauer: O(logn) • Größe: O(n) Steffen Lang - 10.01.06

  19. Seminar S2D2 - Indizierungstechniken im IR Vor- und Nachteile Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Für nicht-textuelle Daten geeignet • Suche nach Teilwörtern möglich • langsamere Suche als bei Invertierter Liste Steffen Lang - 10.01.06

  20. Seminar S2D2 - Indizierungstechniken im IR Latent Semantic Indexing (1) Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Grundlage: Term-Dokument-Matrix • Werte geben Gewicht eines Terms im Dokument an Steffen Lang - 10.01.06

  21. Seminar S2D2 - Indizierungstechniken im IR Latent Semantic Indexing (2) Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Matrix im Allgemeinen hochdimensional • Singulärwertzerlegung und anschließende Reduktion auf kleinere Matrix • möglichst genaue Erhaltung der Dokumentinformationen Steffen Lang - 10.01.06

  22. Term-Konzept-Relation 0.58 0 0.58 0 0.58 0 0 0.71 0 0.71 Maserati Maybach ( 1 1 0 0 0 ) = ( 1.16 0 ) Seminar S2D2 - Indizierungstechniken im IR Ablauf einer Anfrage Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Anfrageauswertung durch Vektor- Matrizenmultiplikation und Abstandsbestimmung Steffen Lang - 10.01.06

  23. Seminar S2D2 - Indizierungstechniken im IR Merkmale Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Modelle: LSI • Anfragedauer: hoch, abhängig von Dimensionen • Größe: abhängig von Dimensionen Steffen Lang - 10.01.06

  24. Seminar S2D2 - Indizierungstechniken im IR Vor- und Nachteile Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Semantische Beziehungen werden erkannt • ermöglicht bessere Resultate • aufwendige Berechnung • langsame Anfrageauswertung Steffen Lang - 10.01.06

  25. Seminar S2D2 - Indizierungstechniken im IR Zusammenfassung Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss Steffen Lang - 10.01.06

  26. Seminar S2D2 - Indizierungstechniken im IR Ausblick Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Datenbestände wachsen • Prozessoren werden schneller • Größter Zeitaufwand für Plattenzugriffe • Zunehmende Bedeutung der Kompression Steffen Lang - 10.01.06

  27. Seminar S2D2 - Indizierungstechniken im IR Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss Vielen Dank für die Aufmerksamkeit! Fragen? Steffen Lang - 10.01.06

More Related