indizierungstechniken im information retrieval l.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Indizierungstechniken im Information Retrieval PowerPoint Presentation
Download Presentation
Indizierungstechniken im Information Retrieval

Loading in 2 Seconds...

play fullscreen
1 / 27

Indizierungstechniken im Information Retrieval - PowerPoint PPT Presentation


  • 48 Views
  • Uploaded on

Indizierungstechniken im Information Retrieval. Steffen Lang 10.01.06. Seminar S2D2 - Indizierungstechniken im IR. Warum Indizieren?. Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss. Schnelleres Auffinden relevanter Dokumente Bsp.:.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Indizierungstechniken im Information Retrieval' - kipp


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide2

Seminar S2D2 - Indizierungstechniken im IR

Warum Indizieren?

Motivation

Invertierte Listen

Signatur-Dateien

Suffix-Arrays

LSI

Schluss

  • Schnelleres Auffinden relevanter Dokumente
  • Bsp.:
  • Informationen über Maseratisaus Buch mit 500 Seiten
  • Vier Seiten befassen sich mit Maseratis
  • Index umfasst eine Seite
  • Zeitaufwand ohne Index ca. 100-mal größer

Steffen Lang - 10.01.06

slide3

Seminar S2D2 - Indizierungstechniken im IR

Merkmale eines Index

Motivation

Invertierte Listen

Signatur-Dateien

Suffix-Arrays

LSI

Schluss

  • Eignung für verschiedene Retrieval-Modelle
  • Dauer einer Anfrage in Abhängigkeit der Größe der Dokumentenkollektion n
  • Größe des Index in Abhängigkeit von n
  • Algebraische (Vektorraummodell)
  • Boolesche
  • Fuzzy

Steffen Lang - 10.01.06

slide4

Seminar S2D2 - Indizierungstechniken im IR

Übersicht

Motivation

Invertierte Listen

Signatur-Dateien

Suffix-Arrays

LSI

Schluss

  • Vier verschiedene Indizierungstechniken
  • Unterscheidung anhand
  • Invertierte Listen
  • Signatur-Dateien
  • Suffix-Arrays
  • Latent Semantic Indexing
  • Aufbau
  • Ablauf einer Anfrage
  • Merkmale der vorherigen Folie

Steffen Lang - 10.01.06

slide5

Vokabular

Vorkommen

1

2

Autos

Maserati

Maybach

Mazda

3

1, 3

2, 3

1

Ein Maserati ist schneller als ein Mazda. Ein Maybach ist teuer. Maybach und Maserati sind seltene Autos.

3

Seminar S2D2 - Indizierungstechniken im IR

Invertierte Listen

Motivation

Invertierte Listen

Signatur-Dateien

Suffix-Arrays

LSI

Schluss

  • Liste für jeden Indexterm mit dessen Vorkommen
  • Vokabular: Menge aller Indexterme
  • Vorkommen: Menge der Dokument-IDs, evtl. mit Gewichten

Steffen Lang - 10.01.06

slide6

Seminar S2D2 - Indizierungstechniken im IR

Ablauf einer Anfrage

Motivation

Invertierte Listen

Signatur-Dateien

Suffix-Arrays

LSI

Schluss

  • Anfrage in einzelne Terme zerlegen
  • Terme im Vokabular suchen
  • Vorkommen der Terme finden
  • Vorkommen kombinieren

Maserati OR Mazda

Autos

Maserati

Maybach

Mazda

3

1, 3

2, 3

1

Maserati

1, 3

Mazda

Steffen Lang - 10.01.06

slide7

Seminar S2D2 - Indizierungstechniken im IR

Merkmale

Motivation

Invertierte Listen

Signatur-Dateien

Suffix-Arrays

LSI

Schluss

  • Modelle:
  • Anfragedauer: O(n0.8) (*)
  • Größe: O(n0.85) (*)
  • (*) nach R. Baeza-Yates, B. Ribeiro-Neto: Modern Information Retrieval
  • Algebraische
  • Boolesche
  • Fuzzy

Steffen Lang - 10.01.06

slide8

Seminar S2D2 - Indizierungstechniken im IR

Vor- und Nachteile

Motivation

Invertierte Listen

Signatur-Dateien

Suffix-Arrays

LSI

Schluss

  • Sublineare Anfragedauer
  • Sublineare Größe
  • Gut Komprimierbar
  • Suche nach Teilworten nicht möglich

Steffen Lang - 10.01.06

slide9

1

2

3

Ein Maserati ist schneller als ein Mazda. Ein Maybach ist teuer. Maybach und Maserati sind seltene Autos.

4

Seminar S2D2 - Indizierungstechniken im IR

Signatur-Dateien (1)

Motivation

Invertierte Listen

Signatur-Dateien

Suffix-Arrays

LSI

Schluss

  • Dokumente werden in Blöcke zerlegt
  • Hashfunktion h bildet Terme auf Signatur aus B Bits ab

h(Autos) = 001

h(Maserati) = 010

h(Maybach) = 100

h(Mazda) = 011

Steffen Lang - 10.01.06

slide10

S1

S2

S3

S4

010 011 100 011

1

2

3

Ein Maserati ist schneller als ein Mazda. Ein Maybach ist teuer. Maybach und Maserati sind seltene Autos.

4

Seminar S2D2 - Indizierungstechniken im IR

Signatur-Dateien (2)

Motivation

Invertierte Listen

Signatur-Dateien

Suffix-Arrays

LSI

Schluss

  • ODER-Verknüpfung der Signaturen eines Blocks i ergibt Blocksignatur Si
  • Menge der Si ergibt Signatur-Datei

h(Autos) = 001

h(Maserati) = 010

h(Maybach) = 100

h(Mazda) = 011

Signatur-Datei

Steffen Lang - 10.01.06

slide11

Seminar S2D2 - Indizierungstechniken im IR

Ablauf einer Anfrage (1)

Motivation

Invertierte Listen

Signatur-Dateien

Suffix-Arrays

LSI

Schluss

  • Signaturen der Anfrageterme berechnen
  • ODER-Anfragen: Ergebnisse vereinigen
  • UND-Anfragen: Signatur Q der Anfrage durch ODER- Verknüpfung bilden

Q

Maserati AND Autos

011

h(Autos) = 001

h(Maserati) = 010

h(Maybach) = 100

h(Mazda) = 011

Steffen Lang - 10.01.06

slide12

S1

S2

S3

S4

010 011 100 011

Q & S1 = 010

Q & S2 = 011

Q & S3 = 000

Q & S4 = 011

False Positive

Treffer

Seminar S2D2 - Indizierungstechniken im IR

Ablauf einer Anfrage (2)

Motivation

Invertierte Listen

Signatur-Dateien

Suffix-Arrays

LSI

Schluss

  • Anfragesignatur mit Signaturen der Blöcke mit UND verknüpfen
  • Potentieller Treffer falls Q & Si = Q
  • Fehler zulassen oder Online-Suche

Q

011

Steffen Lang - 10.01.06

slide13

Seminar S2D2 - Indizierungstechniken im IR

Ablauf einer Anfrage (3)

Motivation

Invertierte Listen

Signatur-Dateien

Suffix-Arrays

LSI

Schluss

  • Problem an Blockgrenzen
  • Bsp.: Suche nach Satz mit Maybach und Maserati
  • Lösung: Blöcke überlappen lassen

1

2

3

Ein Maserati ist schneller als ein Mazda. Ein Maybach ist teuer. Maybach und Maserati sind seltene Autos.

4

Steffen Lang - 10.01.06

slide14

Seminar S2D2 - Indizierungstechniken im IR

Merkmale

Motivation

Invertierte Listen

Signatur-Dateien

Suffix-Arrays

LSI

Schluss

  • Modelle: Boolesche
  • Anfragedauer: O(n)
  • Größe: O(n)

Steffen Lang - 10.01.06

slide15

Seminar S2D2 - Indizierungstechniken im IR

Vor- und Nachteile

Motivation

Invertierte Listen

Signatur-Dateien

Suffix-Arrays

LSI

Schluss

  • Schnelle Bitoperationen
  • gut für Phrasensuche geeignet
  • False Positives
  • Für wenige Retrieval-Modelle geeignet

Steffen Lang - 10.01.06

slide16

1

3

2

4

5

c

ab

b

5

abc

c

c

abc

1

3

2

4

Seminar S2D2 - Indizierungstechniken im IR

Suffix-Arrays

Motivation

Invertierte Listen

Signatur-Dateien

Suffix-Arrays

LSI

Schluss

  • Kompakte Speicherform für Suffix-Trees
  • Blätter werden in lexikographischer Reihenfolge in einem Array gespeichert

ababc

Suffix-Tree

Suffix-Array

Steffen Lang - 10.01.06

slide17

1

3

2

4

5

S1=ababc

S2=babc

Seminar S2D2 - Indizierungstechniken im IR

Ablauf einer Anfrage

Motivation

Invertierte Listen

Signatur-Dateien

Suffix-Arrays

LSI

Schluss

  • Anfrage Q als String betrachten
  • Binäres Suchen der Suffixe S1 und S2 mit S1≤Q<S2
  • Pointer zwischen denen zu S1 und S2 als Ergebnis

ababc

Q = ab

Ergebnis: 1, 3

Steffen Lang - 10.01.06

slide18

Seminar S2D2 - Indizierungstechniken im IR

Merkmale

Motivation

Invertierte Listen

Signatur-Dateien

Suffix-Arrays

LSI

Schluss

  • Modelle: Boolesche
  • Anfragedauer: O(logn)
  • Größe: O(n)

Steffen Lang - 10.01.06

slide19

Seminar S2D2 - Indizierungstechniken im IR

Vor- und Nachteile

Motivation

Invertierte Listen

Signatur-Dateien

Suffix-Arrays

LSI

Schluss

  • Für nicht-textuelle Daten geeignet
  • Suche nach Teilwörtern möglich
  • langsamere Suche als bei Invertierter Liste

Steffen Lang - 10.01.06

slide20

Seminar S2D2 - Indizierungstechniken im IR

Latent Semantic Indexing (1)

Motivation

Invertierte Listen

Signatur-Dateien

Suffix-Arrays

LSI

Schluss

  • Grundlage: Term-Dokument-Matrix
  • Werte geben Gewicht eines Terms im Dokument an

Steffen Lang - 10.01.06

slide21

Seminar S2D2 - Indizierungstechniken im IR

Latent Semantic Indexing (2)

Motivation

Invertierte Listen

Signatur-Dateien

Suffix-Arrays

LSI

Schluss

  • Matrix im Allgemeinen hochdimensional
  • Singulärwertzerlegung und anschließende Reduktion auf kleinere Matrix
  • möglichst genaue Erhaltung der Dokumentinformationen

Steffen Lang - 10.01.06

slide22

Term-Konzept-Relation

0.58 0

0.58 0

0.58 0

0 0.71

0 0.71

Maserati Maybach

( 1 1 0 0 0 )

=

( 1.16 0 )

Seminar S2D2 - Indizierungstechniken im IR

Ablauf einer Anfrage

Motivation

Invertierte Listen

Signatur-Dateien

Suffix-Arrays

LSI

Schluss

  • Anfrageauswertung durch Vektor- Matrizenmultiplikation und Abstandsbestimmung

Steffen Lang - 10.01.06

slide23

Seminar S2D2 - Indizierungstechniken im IR

Merkmale

Motivation

Invertierte Listen

Signatur-Dateien

Suffix-Arrays

LSI

Schluss

  • Modelle: LSI
  • Anfragedauer: hoch, abhängig von Dimensionen
  • Größe: abhängig von Dimensionen

Steffen Lang - 10.01.06

slide24

Seminar S2D2 - Indizierungstechniken im IR

Vor- und Nachteile

Motivation

Invertierte Listen

Signatur-Dateien

Suffix-Arrays

LSI

Schluss

  • Semantische Beziehungen werden erkannt
  • ermöglicht bessere Resultate
  • aufwendige Berechnung
  • langsame Anfrageauswertung

Steffen Lang - 10.01.06

slide25

Seminar S2D2 - Indizierungstechniken im IR

Zusammenfassung

Motivation

Invertierte Listen

Signatur-Dateien

Suffix-Arrays

LSI

Schluss

Steffen Lang - 10.01.06

slide26

Seminar S2D2 - Indizierungstechniken im IR

Ausblick

Motivation

Invertierte Listen

Signatur-Dateien

Suffix-Arrays

LSI

Schluss

  • Datenbestände wachsen
  • Prozessoren werden schneller
  • Größter Zeitaufwand für Plattenzugriffe
  • Zunehmende Bedeutung der Kompression

Steffen Lang - 10.01.06

slide27

Seminar S2D2 - Indizierungstechniken im IR

Motivation

Invertierte Listen

Signatur-Dateien

Suffix-Arrays

LSI

Schluss

Vielen Dank für die Aufmerksamkeit!

Fragen?

Steffen Lang - 10.01.06