1 / 49

Information Retrieval

Information Retrieval. IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs. Was ist IR?. „Information Storage and Retrieval” Das systematische Vorgehen, um Daten zu sammeln und derart zu katalogisieren, dass sie auf Anfrage wieder aufgefunden und angezeigt werden können.

kara
Download Presentation

Information Retrieval

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs

  2. Was ist IR? • „Information Storage and Retrieval”Das systematische Vorgehen, um Daten zu sammeln und derart zu katalogisieren, dass sie auf Anfrage wieder aufgefunden und angezeigt werden können. • Für Suchmaschinen  „alle“ Dokumente im Internet aufspüren, analysieren und auf Abfrage optimal wiedergeben Information Retrieval - Seminar Web Suchmaschinen

  3. Inhalt / Ausblick • Motivation • Einblick: Web Traversierung • IR-Probleme • Methoden der Index-Erstellung • Methoden des IR auf dem Index • Zusammenfassung Information Retrieval - Seminar Web Suchmaschinen

  4. Motivation Informationsgehalt im Internet: • Mai 2003 Anzahl der Seiten > 6 Milliarden • verdoppelt sich alle 4-8 Monate • rund 40% des Internets verändert sich monatlich • um dieses Potential zu nutzen gewünschte Inhalte effizient & gezielt finden • Textinformation rechnergestützt auswerten Information Retrieval - Seminar Web Suchmaschinen

  5. Dokumentensuche im Web 1. Suchroboter (aka: Web robot, wanderer, worm, walker, spider, knownbot) traversieren das Web pro Anfrage • Nutzer gibt Suchbegriff an • Roboter durchsucht systematisch das Web nach Dokumenten • Relevanzberechnung • Rückgabe einer rang-sortieren Liste • Größe des Netzes & Wachstum machen diesen Ansatz praktisch unmöglich Information Retrieval - Seminar Web Suchmaschinen

  6. Dokumentensuche im Web 2. vorbereiteter Index wird durchsucht • Index ist ein durchsuchbares Archiv mit Referenzen zu Dokumenten im Web • Suche wird auf dem Index ausgeführt Information Retrieval - Seminar Web Suchmaschinen

  7. Der Index (1) • Index ist eine Dokumentenrepräsentation • Dokumente durch Inhaltsbeschreibung und enthaltenen Termen repräsentiert • Terme dienen zu Ermittlung der Relevanz bei Suchanfragen • Terme können automatisch oder von Spezialisten erzeugt werden Information Retrieval - Seminar Web Suchmaschinen

  8. Index-Erzeugung (1) • Seiten sammelnAnalysieren,AufbereitenIndex • Programme (Robots, Crawler) suchen „alle“ Webseiten • Ausgehend von einer Anfangsadresse werden alle URLs in Tiefen- oder Breitensuche verfolgt. • von Menge von Anfangsadressen aus- abhängig von der Popularität der jeweiligen Seite • Partitionierung des WWW- ausgehend von Internetnamen oder Landesgrenzen - wird das WWW rekursiv durchsucht. • Auslesen von Metaangaben (manuell erstellte Beschreibungen) • Textanalyse • Ermitteln von inhaltsrelevanten Termen zum Dokument, Häufigkeit Information Retrieval - Seminar Web Suchmaschinen

  9. Index-Erzeugung (3)-Qualität • Effektivität eines Indexing Systems wird bestimmt über: • Indexing exhaustivity: Erfassungsgrad der Dokumententhemen in den Index- exhaustive: alle Aspekte der Themen erfassen- nonexhaustive: weniger, aber die Kernthemen • Term specificity: Grad, zu welchem die Menge aller vorhandenen nützlichen Dokumente erfasst werden • allgemeine/umfassende Terme  viele nützliche & viele unnütze Resultate • genaue Terme  weniger Resultate, evtl. auch verpasste gute Ergebnisse Information Retrieval - Seminar Web Suchmaschinen

  10. IR Qualität (1) Genannte Parameter haben Auswirkung auf das Indexierungssystem: • Resultierende Retrieval Effiziens über 2 Parameter beschrieben: • Recall (Vollständigkeit) • Precision (Trefferquote) Information Retrieval - Seminar Web Suchmaschinen

  11. IR Qualität (2) - Recall • Recall (Vollständigkeit)Wieviele der relevanten Dokumente werden erfasst? • Verhältnis der - Anzahl erfasster, relevanter Dokumente zur - Anzahl relevanter Dokumente Information Retrieval - Seminar Web Suchmaschinen

  12. IR Qualität (3) - Precision • Precision:wieviele relevante Dokumente werden erfasst • Verhältnis der - Anzahl erfasster, relevanter Dokumentezur- Anzahl erfasster Dokumente Information Retrieval - Seminar Web Suchmaschinen

  13. Speed Recall Precision IR Qualität (2) • Optimal: hohe Recall & Precision • Aber gehen jeweils auf Kosten des anderen • Effektivität wird gemessen anhand verschiedenen Precision, bei festen Recall-Werten • Kompromiss: Information Retrieval - Seminar Web Suchmaschinen

  14. Der Index (4) • Suchmaschinen nutzen „inverted index“ • besteht aus • durchsuchbares Wörterbuch, mit allen Wörtern im Index, enthält • # Vorkommen • Verweis auf „ inverted list“ des Wortes • „ inverted list“ für jedes Wort im Index, enthält • Verweise auf Dokumente • Häufigkeit des Wortes im Dokument • weitere Optimierungen, z.B. Position/Offset des Wortes im Dokument Information Retrieval - Seminar Web Suchmaschinen

  15. „Inverted Index“, Beispiel Lexikon inverted index list Information Retrieval - Seminar Web Suchmaschinen

  16. „Index Builder“ • „Index Builder“Sortierung, 1. nach Term, dann nach DocID,… Information Retrieval - Seminar Web Suchmaschinen

  17. Indexierungsmethoden Automatische Indexierungsmethoden: • Single Term Indexierung • Statistische Methoden • Informationstheoretische Methoden • Probabilistische Methoden • Mutli-Term / Phrasen – Indexierung • Statistische Methoden • Probabilistische Methoden • Linguistische Methoden Information Retrieval - Seminar Web Suchmaschinen

  18. Single Term Indexing (1) Welche Wörter eines Dokumentes in den Index? • alle Worte herauslösen • unwichtige Worte herausfiltern („Stoppwörter“, Füllworte,…) • evtl. Rückführung auf Wortstamm • Häufigkeit im Dokument ermitteln Information Retrieval - Seminar Web Suchmaschinen

  19. Single Term Indexing (2) • pro Dokument wird analysiert • Menge der auftretenden Wörter • deren Häufigkeiten • Ziel: hohes Recall • Vorgehensweisen, Wörter zu gewichten: • Statistisch • informations-theoretisch • probabilistische Information Retrieval - Seminar Web Suchmaschinen

  20. Single Term Indexing(3)-statistisch Statistische Methode • z.B. basiert rein auf Termhäufigkeitwij = tfij * log(N / dfj) • tfij – Term Frequency, des Terms j im Dokument i • dfj – Document Frequency, Häufigkeit des Terms in allen Dokumenten Information Retrieval - Seminar Web Suchmaschinen

  21. Single Term Indexing (4)-inf.th. Informationstheoretische Methode • basiert auf Aussage:„Term, dessen Vorkommen am unwahrscheinlichsten ist, birgt meiste Information“ • Methode bevorzugt in einzelnen Dokumenten konzentrierte Terme Information Retrieval - Seminar Web Suchmaschinen

  22. Single Term Indexing(5)-probal. Probabilistische Methode • basiert auf Relevanz-Wahrscheinlichkeit • erfordert „Training“ für Berechnungsgrundlage • Benutzer bewerten Relevanz von Suchresultaten • aus Trainingsergebnissen wird Termgewichtung basierend auf bedingter Wahrscheinlichkeit des Auftretens eines Terms berechnet Information Retrieval - Seminar Web Suchmaschinen

  23. Multi-Term/Phrase Indexing (1) • „Phrasen“ verhindern Doppeldeutigkeit einzelner Wörter ohne Zusammenhang • Term trägt spezifischere Bedeutung • soll Precision erhöhen • Methoden zur Erzeugung von Phrasen für Index: • statistisch • probabilistisch • sprachtheoretisch Information Retrieval - Seminar Web Suchmaschinen

  24. Multi Term Indexing (2) -statistisch Statistische Methode • „Phrase“ besteht aus Kopf und Zusätzen • Hier muss der Kopf in weiteren Dokumenten auftretenund weiteren Komponenten im gleichen Satz • wenn Kombinationen in vielen Dokumenten auftreten, werden diese gruppiert • (dies erzwingt keine semantische Beziehung zwischen den Worten), fehleranfällig Information Retrieval - Seminar Web Suchmaschinen

  25. Multi Term Indexing (3) –lingust. Linguistische Methode • Einsatz von sprachlicher Analyse für Term- Zusammenhängen(Adjektive, Substantive, Verben) • verbessert statistischen Methoden, Reduktion falscher Wortzusammenhänge • Einbringen semantischer Faktoren in die Gruppierung Information Retrieval - Seminar Web Suchmaschinen

  26. Multi Term Indexing (4) -probabil. Probabilistische Methode • erzeugt komplexe Indexstrukturen, basierend auf Abhängigkeiten der Terme • man müsste exponentielle Anzahl von Term-Kombinationen betrachten • daher kaum Anwendung Information Retrieval - Seminar Web Suchmaschinen

  27. Information Retrieval • Rückblick auf Indexerzeugung • Auffinden von Dokumenten im Netz • Analyse des Inhaltes • Metainformationen • Textinformationen (Inhalt) auswerten • Kurzbeschreibung erstellen (Terme) • Single- vs. Multi-term Indexing • jetzt: RetrievalSuchmechanismen auf dem Index Information Retrieval - Seminar Web Suchmaschinen

  28. Ein IR-Modell wird beschrieben durch: Repräsentation für Dokumente & Abfragen Strategien zur Bewertung der Relevanz von Dokumenten bzgl. der Abfrage eines Benutzer Ranking-Methoden, gewichtete Ordnung der Resultate Methoden zum Erhalt von nutzerrelevantem-Feedback 4 Verfahren: Boolesche Verfahren Statistische Verfahren Vektorraum Verfahren Probabilistisches Verfahren Hybrid Verfahren Information Retrieval Modelle Information Retrieval - Seminar Web Suchmaschinen

  29. Boolesches Modell (1) • basiert auf Mengenlehre und boolescher Algebrabekannteste Verfahren, oft von IR Systemen genutzt • Abfragen werden gebildet durch Terme, verbunden durch logische Operatoren • Term aus Query im Dokument enthalten? • Dokument ist Treffer, wenn boolesche Auswertung der Query wahr ist Information Retrieval - Seminar Web Suchmaschinen

  30. Boolesches Modell (2)-Beispiel Information Retrieval - Seminar Web Suchmaschinen

  31. Boolesches Verfahren (3) • Vorteile: • leicht implementierbar • effizient in Anwendung (Computer & DB) • Nachteile: • nicht triviale Queries schwierig zu formulieren • „Ganz oder gar nicht“ • keine Gewichtung  keine Reihenfolge Information Retrieval - Seminar Web Suchmaschinen

  32. Boolesches Verfahren,erweitert (3) • „Smart Boolean“ • Anwender gibt sprachliche Frage ein, wird dann automatisch in ein boolesches Konstrukt umgewandelt • Techniken, um Abfragen einzuschränken & zu erweitern Information Retrieval - Seminar Web Suchmaschinen

  33. Boolesches Verfahren,erweitert (4) • Fuzzy-Mengen Modell • Ziel: Boolesche Strenge aufweichen & Ranking • Fuzzytheorie • auch Dokumente als Resultat, die wenn Query nur teilweise WAHR ist • Ergebnisstufen zwischen 0 und 1  Aufweichung des GoG • Stufe beschreibt, wie stark Term dem Query entspricht Information Retrieval - Seminar Web Suchmaschinen

  34. Vektorraumverfahren (1) • Wurde in den 60ern in Havard im Laufe des „Smart“-Projektes entwickelt und in den 80ern überarbeitet • Dokumente & Abfragen als Vektoren in einem mehrdimensionalen Vektorraum aufgefasst • Dimensionen sind die Terme des Dokumentenindexes • Vektoren enthalten Gewichte aller Terme • Terme in Query können gewichtet werden Information Retrieval - Seminar Web Suchmaschinen

  35. Vektorraumverfahren (2) Jedes Dokument wird anhand des Auftretens & Gewichtung der Suchterme im Dokument, durch einen Vektor repräsentiert. Nähe zum Query-Vektor bestimmt Suchresultat &-Reihenfolge. Dokument 1 Term1 Query Dokument 2 Term2 Dokument 3 Term3 Information Retrieval - Seminar Web Suchmaschinen

  36. Vektorraumverfahren (3) • im „Smart“-Projekt wurden heuristische Formeln zur Berechnung von Gewichten für die Indexierung entwickelt verbesserte Suchergebnisse • Trefferberechnung: Vergleich von Dokumenten- & Query-Vektoren • Vergleich z.B. cosinus-basiert Information Retrieval - Seminar Web Suchmaschinen

  37. Vektorraumverfahren (4) • Vorteile: • Relevanzabstufungen möglich (durch Termgewichtungen) • Sortierung nach Ähnlichkeitsgrad möglich Rang • Nachteile: • es wird vorausgesetzt, dass Therme wechselseitig unabhängig sind Information Retrieval - Seminar Web Suchmaschinen

  38. Hybrid-Modell (extended boolean) • Verbindung des Booleschen Modells mit dem Vektormodell, für freie Gewichtung • Idee: • Nutzer kann boolesche Anfrage stellen • zusätzlicher Parameter steuert die Interpretation; wie strikt AND,OR ausgewertet werden • von 2 bis unendlich • 2  keine Unterscheidung zwischen AND,OR • unendlich  binäres „Ranking“ (Treffer, nicht Treffer) • beste Werte, empirische Untersuchungen: 2 <= p <= 5 Information Retrieval - Seminar Web Suchmaschinen

  39. Probabilistisches Verfahren (1) • Berechnung der Wahrscheinlichkeit, dass Dokument relevant ist • Training erforderlich • Berechnung stützt sich auf Parameter: • Wahrscheinlichkeit der Relevanz UND • Irrelevanz eines Dokumentes auf die Query • Kostenparameter. Verlust bei • Auffinden eines irrelevanten Dokumentes • Nichtauffinden eines relevanten Dokumentes Information Retrieval - Seminar Web Suchmaschinen

  40. Probabilistisches Verfahren (2) • Vorteile: • Gefundene Dokumente werden nach Wahrscheinlichkeit ihrer Relevanz sortiert • Nachteil: • ist so gut, wie die Wahrscheinlichkeitsberechnung eingepegelt ist (Training) • Häufigkeit eines Terms im Dokument ist irrelevant Information Retrieval - Seminar Web Suchmaschinen

  41. IR-Modelle-Zusammenfassung Boolesches Modell im Vergleich schlechte Ergebnisse, aber verbreitet. Information Retrieval - Seminar Web Suchmaschinen

  42. Relevanz der Ergebnisse • alle relevanten Dokumente gefunden? Ranking hilfreich? • Relevanz-Feedback vom Anwender gewünscht • Anwender bewertet Dokument des Suchergebnisses • 2-Level: brauchbar – nicht brauchbar • Multi-Level: Zwischenstufen & im Bezug zu anderen Dokumenten (weniger relevant als…) Information Retrieval - Seminar Web Suchmaschinen

  43. Relevanz-Feedback-Nutzung 1. Query anpassen • Gewichtungen der Query verändern (Termgewichte des Queryvektors) • Query Erweiterung (Hinzufügen von Termen) • Query Splitting Information Retrieval - Seminar Web Suchmaschinen

  44. Relevanz-Feedback-Nutzung (2) 2. Index verändern • Index manipulieren (Gewichtungen im Index) Information Retrieval - Seminar Web Suchmaschinen

  45. Relevanz-Feedback (4) • kein Suchdienst bietet heute Relevanz-Feedback Techniken! • Gefahren? Information Retrieval - Seminar Web Suchmaschinen

  46. Zusammenfassung • Rückblick: • versch. Methoden zur Bestimmung der Relevanz von Query zu indexierten Dokumenten • damit verbunden, Ranking-Verfahren • Hilfe vom Benutzer wünschenswert Information Retrieval - Seminar Web Suchmaschinen

  47. IR und das WWW • IR viele Einsatzfelder • Besonderheiten im Web: • riesige Datenmengen, dunkle Bereiche im Web (~500x sichtbares Web) , wachsend) • oft nicht-statische Seiten (generierte Seiten, DB) • Dynamik (verdoppelt sich alle 4-8 Monate) tote Links • Sprachenvielfalt • Duplikate • hohe Verlinkung (~8Links/Seite)  Indexierungsaufwand • Benutzerverhalten kennen (Geschwindigkeit, Ergebnisseiten) Information Retrieval - Seminar Web Suchmaschinen

  48. Noch Fragen ? Information Retrieval - Seminar Web Suchmaschinen

  49. Literaturangaben • Venkat N. Gudivada, Vijay V. Raghavan, William I. Grosky, Rajesh Kasanagottu.: Information Retrieval on the World Wide Web. IEEE Internet Computing. September-October 1997 (Vol. 1, No. 5). pp. 58-68 • Mei Kobayashi, Koichi Takeda. Information Retrieval on the Web. ACM Computing Surveys, Vol. 32, No. 2, June 2000. pp 144-173. • IR und das Web, Interuniversitäres Seminar 2001, Martin Waldburger, PDF • „Building Fast Search Engines“, Hugh E. Williams, http://www.hughwilliams.com/t1.pdf • Datamining im WWW,Knowledge Discovery im Internet, Johann Zehentner, Ausarbeitung 2000 Information Retrieval - Seminar Web Suchmaschinen

More Related