Information Retrieval

Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs

Was ist IR? • „Information Storage and Retrieval”Das systematische Vorgehen, um Daten zu sammeln und derart zu katalogisieren, dass sie auf Anfrage wieder aufgefunden und angezeigt werden können. • Für Suchmaschinen  „alle“ Dokumente im Internet aufspüren, analysieren und auf Abfrage optimal wiedergeben Information Retrieval - Seminar Web Suchmaschinen

Inhalt / Ausblick • Motivation • Einblick: Web Traversierung • IR-Probleme • Methoden der Index-Erstellung • Methoden des IR auf dem Index • Zusammenfassung Information Retrieval - Seminar Web Suchmaschinen

Motivation Informationsgehalt im Internet: • Mai 2003 Anzahl der Seiten > 6 Milliarden • verdoppelt sich alle 4-8 Monate • rund 40% des Internets verändert sich monatlich • um dieses Potential zu nutzen gewünschte Inhalte effizient & gezielt finden • Textinformation rechnergestützt auswerten Information Retrieval - Seminar Web Suchmaschinen

Dokumentensuche im Web 1. Suchroboter (aka: Web robot, wanderer, worm, walker, spider, knownbot) traversieren das Web pro Anfrage • Nutzer gibt Suchbegriff an • Roboter durchsucht systematisch das Web nach Dokumenten • Relevanzberechnung • Rückgabe einer rang-sortieren Liste • Größe des Netzes & Wachstum machen diesen Ansatz praktisch unmöglich Information Retrieval - Seminar Web Suchmaschinen

Dokumentensuche im Web 2. vorbereiteter Index wird durchsucht • Index ist ein durchsuchbares Archiv mit Referenzen zu Dokumenten im Web • Suche wird auf dem Index ausgeführt Information Retrieval - Seminar Web Suchmaschinen

Der Index (1) • Index ist eine Dokumentenrepräsentation • Dokumente durch Inhaltsbeschreibung und enthaltenen Termen repräsentiert • Terme dienen zu Ermittlung der Relevanz bei Suchanfragen • Terme können automatisch oder von Spezialisten erzeugt werden Information Retrieval - Seminar Web Suchmaschinen

Index-Erzeugung (1) • Seiten sammelnAnalysieren,AufbereitenIndex • Programme (Robots, Crawler) suchen „alle“ Webseiten • Ausgehend von einer Anfangsadresse werden alle URLs in Tiefen- oder Breitensuche verfolgt. • von Menge von Anfangsadressen aus- abhängig von der Popularität der jeweiligen Seite • Partitionierung des WWW- ausgehend von Internetnamen oder Landesgrenzen - wird das WWW rekursiv durchsucht. • Auslesen von Metaangaben (manuell erstellte Beschreibungen) • Textanalyse • Ermitteln von inhaltsrelevanten Termen zum Dokument, Häufigkeit Information Retrieval - Seminar Web Suchmaschinen

Index-Erzeugung (3)-Qualität • Effektivität eines Indexing Systems wird bestimmt über: • Indexing exhaustivity: Erfassungsgrad der Dokumententhemen in den Index- exhaustive: alle Aspekte der Themen erfassen- nonexhaustive: weniger, aber die Kernthemen • Term specificity: Grad, zu welchem die Menge aller vorhandenen nützlichen Dokumente erfasst werden • allgemeine/umfassende Terme  viele nützliche & viele unnütze Resultate • genaue Terme  weniger Resultate, evtl. auch verpasste gute Ergebnisse Information Retrieval - Seminar Web Suchmaschinen

IR Qualität (1) Genannte Parameter haben Auswirkung auf das Indexierungssystem: • Resultierende Retrieval Effiziens über 2 Parameter beschrieben: • Recall (Vollständigkeit) • Precision (Trefferquote) Information Retrieval - Seminar Web Suchmaschinen

IR Qualität (2) - Recall • Recall (Vollständigkeit)Wieviele der relevanten Dokumente werden erfasst? • Verhältnis der - Anzahl erfasster, relevanter Dokumente zur - Anzahl relevanter Dokumente Information Retrieval - Seminar Web Suchmaschinen

IR Qualität (3) - Precision • Precision:wieviele relevante Dokumente werden erfasst • Verhältnis der - Anzahl erfasster, relevanter Dokumentezur- Anzahl erfasster Dokumente Information Retrieval - Seminar Web Suchmaschinen

Speed Recall Precision IR Qualität (2) • Optimal: hohe Recall & Precision • Aber gehen jeweils auf Kosten des anderen • Effektivität wird gemessen anhand verschiedenen Precision, bei festen Recall-Werten • Kompromiss: Information Retrieval - Seminar Web Suchmaschinen

Der Index (4) • Suchmaschinen nutzen „inverted index“ • besteht aus • durchsuchbares Wörterbuch, mit allen Wörtern im Index, enthält • # Vorkommen • Verweis auf „ inverted list“ des Wortes • „ inverted list“ für jedes Wort im Index, enthält • Verweise auf Dokumente • Häufigkeit des Wortes im Dokument • weitere Optimierungen, z.B. Position/Offset des Wortes im Dokument Information Retrieval - Seminar Web Suchmaschinen

„Inverted Index“, Beispiel Lexikon inverted index list Information Retrieval - Seminar Web Suchmaschinen

„Index Builder“ • „Index Builder“Sortierung, 1. nach Term, dann nach DocID,… Information Retrieval - Seminar Web Suchmaschinen

Indexierungsmethoden Automatische Indexierungsmethoden: • Single Term Indexierung • Statistische Methoden • Informationstheoretische Methoden • Probabilistische Methoden • Mutli-Term / Phrasen – Indexierung • Statistische Methoden • Probabilistische Methoden • Linguistische Methoden Information Retrieval - Seminar Web Suchmaschinen

Single Term Indexing (1) Welche Wörter eines Dokumentes in den Index? • alle Worte herauslösen • unwichtige Worte herausfiltern („Stoppwörter“, Füllworte,…) • evtl. Rückführung auf Wortstamm • Häufigkeit im Dokument ermitteln Information Retrieval - Seminar Web Suchmaschinen

Single Term Indexing (2) • pro Dokument wird analysiert • Menge der auftretenden Wörter • deren Häufigkeiten • Ziel: hohes Recall • Vorgehensweisen, Wörter zu gewichten: • Statistisch • informations-theoretisch • probabilistische Information Retrieval - Seminar Web Suchmaschinen

Single Term Indexing(3)-statistisch Statistische Methode • z.B. basiert rein auf Termhäufigkeitwij = tfij * log(N / dfj) • tfij – Term Frequency, des Terms j im Dokument i • dfj – Document Frequency, Häufigkeit des Terms in allen Dokumenten Information Retrieval - Seminar Web Suchmaschinen

Single Term Indexing (4)-inf.th. Informationstheoretische Methode • basiert auf Aussage:„Term, dessen Vorkommen am unwahrscheinlichsten ist, birgt meiste Information“ • Methode bevorzugt in einzelnen Dokumenten konzentrierte Terme Information Retrieval - Seminar Web Suchmaschinen

Single Term Indexing(5)-probal. Probabilistische Methode • basiert auf Relevanz-Wahrscheinlichkeit • erfordert „Training“ für Berechnungsgrundlage • Benutzer bewerten Relevanz von Suchresultaten • aus Trainingsergebnissen wird Termgewichtung basierend auf bedingter Wahrscheinlichkeit des Auftretens eines Terms berechnet Information Retrieval - Seminar Web Suchmaschinen

Multi-Term/Phrase Indexing (1) • „Phrasen“ verhindern Doppeldeutigkeit einzelner Wörter ohne Zusammenhang • Term trägt spezifischere Bedeutung • soll Precision erhöhen • Methoden zur Erzeugung von Phrasen für Index: • statistisch • probabilistisch • sprachtheoretisch Information Retrieval - Seminar Web Suchmaschinen

Multi Term Indexing (2) -statistisch Statistische Methode • „Phrase“ besteht aus Kopf und Zusätzen • Hier muss der Kopf in weiteren Dokumenten auftretenund weiteren Komponenten im gleichen Satz • wenn Kombinationen in vielen Dokumenten auftreten, werden diese gruppiert • (dies erzwingt keine semantische Beziehung zwischen den Worten), fehleranfällig Information Retrieval - Seminar Web Suchmaschinen

Multi Term Indexing (3) –lingust. Linguistische Methode • Einsatz von sprachlicher Analyse für Term- Zusammenhängen(Adjektive, Substantive, Verben) • verbessert statistischen Methoden, Reduktion falscher Wortzusammenhänge • Einbringen semantischer Faktoren in die Gruppierung Information Retrieval - Seminar Web Suchmaschinen

Multi Term Indexing (4) -probabil. Probabilistische Methode • erzeugt komplexe Indexstrukturen, basierend auf Abhängigkeiten der Terme • man müsste exponentielle Anzahl von Term-Kombinationen betrachten • daher kaum Anwendung Information Retrieval - Seminar Web Suchmaschinen

Information Retrieval • Rückblick auf Indexerzeugung • Auffinden von Dokumenten im Netz • Analyse des Inhaltes • Metainformationen • Textinformationen (Inhalt) auswerten • Kurzbeschreibung erstellen (Terme) • Single- vs. Multi-term Indexing • jetzt: RetrievalSuchmechanismen auf dem Index Information Retrieval - Seminar Web Suchmaschinen

Ein IR-Modell wird beschrieben durch: Repräsentation für Dokumente & Abfragen Strategien zur Bewertung der Relevanz von Dokumenten bzgl. der Abfrage eines Benutzer Ranking-Methoden, gewichtete Ordnung der Resultate Methoden zum Erhalt von nutzerrelevantem-Feedback 4 Verfahren: Boolesche Verfahren Statistische Verfahren Vektorraum Verfahren Probabilistisches Verfahren Hybrid Verfahren Information Retrieval Modelle Information Retrieval - Seminar Web Suchmaschinen

Boolesches Modell (1) • basiert auf Mengenlehre und boolescher Algebrabekannteste Verfahren, oft von IR Systemen genutzt • Abfragen werden gebildet durch Terme, verbunden durch logische Operatoren • Term aus Query im Dokument enthalten? • Dokument ist Treffer, wenn boolesche Auswertung der Query wahr ist Information Retrieval - Seminar Web Suchmaschinen

Boolesches Modell (2)-Beispiel Information Retrieval - Seminar Web Suchmaschinen

Boolesches Verfahren (3) • Vorteile: • leicht implementierbar • effizient in Anwendung (Computer & DB) • Nachteile: • nicht triviale Queries schwierig zu formulieren • „Ganz oder gar nicht“ • keine Gewichtung  keine Reihenfolge Information Retrieval - Seminar Web Suchmaschinen

Boolesches Verfahren,erweitert (3) • „Smart Boolean“ • Anwender gibt sprachliche Frage ein, wird dann automatisch in ein boolesches Konstrukt umgewandelt • Techniken, um Abfragen einzuschränken & zu erweitern Information Retrieval - Seminar Web Suchmaschinen

Boolesches Verfahren,erweitert (4) • Fuzzy-Mengen Modell • Ziel: Boolesche Strenge aufweichen & Ranking • Fuzzytheorie • auch Dokumente als Resultat, die wenn Query nur teilweise WAHR ist • Ergebnisstufen zwischen 0 und 1  Aufweichung des GoG • Stufe beschreibt, wie stark Term dem Query entspricht Information Retrieval - Seminar Web Suchmaschinen

Vektorraumverfahren (1) • Wurde in den 60ern in Havard im Laufe des „Smart“-Projektes entwickelt und in den 80ern überarbeitet • Dokumente & Abfragen als Vektoren in einem mehrdimensionalen Vektorraum aufgefasst • Dimensionen sind die Terme des Dokumentenindexes • Vektoren enthalten Gewichte aller Terme • Terme in Query können gewichtet werden Information Retrieval - Seminar Web Suchmaschinen

Vektorraumverfahren (2) Jedes Dokument wird anhand des Auftretens & Gewichtung der Suchterme im Dokument, durch einen Vektor repräsentiert. Nähe zum Query-Vektor bestimmt Suchresultat &-Reihenfolge. Dokument 1 Term1 Query Dokument 2 Term2 Dokument 3 Term3 Information Retrieval - Seminar Web Suchmaschinen

Vektorraumverfahren (3) • im „Smart“-Projekt wurden heuristische Formeln zur Berechnung von Gewichten für die Indexierung entwickelt verbesserte Suchergebnisse • Trefferberechnung: Vergleich von Dokumenten- & Query-Vektoren • Vergleich z.B. cosinus-basiert Information Retrieval - Seminar Web Suchmaschinen

Vektorraumverfahren (4) • Vorteile: • Relevanzabstufungen möglich (durch Termgewichtungen) • Sortierung nach Ähnlichkeitsgrad möglich Rang • Nachteile: • es wird vorausgesetzt, dass Therme wechselseitig unabhängig sind Information Retrieval - Seminar Web Suchmaschinen

Hybrid-Modell (extended boolean) • Verbindung des Booleschen Modells mit dem Vektormodell, für freie Gewichtung • Idee: • Nutzer kann boolesche Anfrage stellen • zusätzlicher Parameter steuert die Interpretation; wie strikt AND,OR ausgewertet werden • von 2 bis unendlich • 2  keine Unterscheidung zwischen AND,OR • unendlich  binäres „Ranking“ (Treffer, nicht Treffer) • beste Werte, empirische Untersuchungen: 2 <= p <= 5 Information Retrieval - Seminar Web Suchmaschinen

Probabilistisches Verfahren (1) • Berechnung der Wahrscheinlichkeit, dass Dokument relevant ist • Training erforderlich • Berechnung stützt sich auf Parameter: • Wahrscheinlichkeit der Relevanz UND • Irrelevanz eines Dokumentes auf die Query • Kostenparameter. Verlust bei • Auffinden eines irrelevanten Dokumentes • Nichtauffinden eines relevanten Dokumentes Information Retrieval - Seminar Web Suchmaschinen

Probabilistisches Verfahren (2) • Vorteile: • Gefundene Dokumente werden nach Wahrscheinlichkeit ihrer Relevanz sortiert • Nachteil: • ist so gut, wie die Wahrscheinlichkeitsberechnung eingepegelt ist (Training) • Häufigkeit eines Terms im Dokument ist irrelevant Information Retrieval - Seminar Web Suchmaschinen

IR-Modelle-Zusammenfassung Boolesches Modell im Vergleich schlechte Ergebnisse, aber verbreitet. Information Retrieval - Seminar Web Suchmaschinen

Relevanz der Ergebnisse • alle relevanten Dokumente gefunden? Ranking hilfreich? • Relevanz-Feedback vom Anwender gewünscht • Anwender bewertet Dokument des Suchergebnisses • 2-Level: brauchbar – nicht brauchbar • Multi-Level: Zwischenstufen & im Bezug zu anderen Dokumenten (weniger relevant als…) Information Retrieval - Seminar Web Suchmaschinen

Relevanz-Feedback-Nutzung 1. Query anpassen • Gewichtungen der Query verändern (Termgewichte des Queryvektors) • Query Erweiterung (Hinzufügen von Termen) • Query Splitting Information Retrieval - Seminar Web Suchmaschinen

Relevanz-Feedback-Nutzung (2) 2. Index verändern • Index manipulieren (Gewichtungen im Index) Information Retrieval - Seminar Web Suchmaschinen

Relevanz-Feedback (4) • kein Suchdienst bietet heute Relevanz-Feedback Techniken! • Gefahren? Information Retrieval - Seminar Web Suchmaschinen

Zusammenfassung • Rückblick: • versch. Methoden zur Bestimmung der Relevanz von Query zu indexierten Dokumenten • damit verbunden, Ranking-Verfahren • Hilfe vom Benutzer wünschenswert Information Retrieval - Seminar Web Suchmaschinen

IR und das WWW • IR viele Einsatzfelder • Besonderheiten im Web: • riesige Datenmengen, dunkle Bereiche im Web (~500x sichtbares Web) , wachsend) • oft nicht-statische Seiten (generierte Seiten, DB) • Dynamik (verdoppelt sich alle 4-8 Monate) tote Links • Sprachenvielfalt • Duplikate • hohe Verlinkung (~8Links/Seite)  Indexierungsaufwand • Benutzerverhalten kennen (Geschwindigkeit, Ergebnisseiten) Information Retrieval - Seminar Web Suchmaschinen

Noch Fragen ? Information Retrieval - Seminar Web Suchmaschinen

Literaturangaben • Venkat N. Gudivada, Vijay V. Raghavan, William I. Grosky, Rajesh Kasanagottu.: Information Retrieval on the World Wide Web. IEEE Internet Computing. September-October 1997 (Vol. 1, No. 5). pp. 58-68 • Mei Kobayashi, Koichi Takeda. Information Retrieval on the Web. ACM Computing Surveys, Vol. 32, No. 2, June 2000. pp 144-173. • IR und das Web, Interuniversitäres Seminar 2001, Martin Waldburger, PDF • „Building Fast Search Engines“, Hugh E. Williams, http://www.hughwilliams.com/t1.pdf • Datamining im WWW,Knowledge Discovery im Internet, Johann Zehentner, Ausarbeitung 2000 Information Retrieval - Seminar Web Suchmaschinen

Information Retrieval