information retrieval n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Information Retrieval PowerPoint Presentation
Download Presentation
Information Retrieval

Loading in 2 Seconds...

play fullscreen
1 / 106

Information Retrieval - PowerPoint PPT Presentation


  • 263 Views
  • Uploaded on

Information Retrieval. Information Retrieval. Wer befasst sich mit Information Retrieval? Konferenzen – Messen Zeitschriften Wie findet man Literatur? Kurze Geschichte des Information Retrieval Grundlagen:

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

Information Retrieval


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
    Presentation Transcript
    1. Information Retrieval Information Retrieval

    2. Information Retrieval Wer befasst sich mit Information Retrieval? Konferenzen – Messen Zeitschriften Wie findet man Literatur? Kurze Geschichte des Information Retrieval Grundlagen: Relevanz – Pull / Push – konkreter vs. problemorientierter Informationsbedarf – Recall und Precision – Suche nach Datensätzen („Nadel-im-Heuhaufen“-Syndrom) – Berrypicking - informetrische Suchen – Informationsfilter – Informationsbarrieren – Typologie von Retrievalsystemen: Boolesche Systeme und natürlichsprachige Systeme – Weltregionen im Internet - invertierte Dateien Information Retrieval

    3. Information Retrieval Funktionalität Boolescher Retrievalsysteme: Datenbankaufruf - feldspezifische Suche - Suche im Basic Index - Blättern im Wörterbuch - Fragmentierung - mengentheoretische Operatoren - Abstandsoperatoren - Häufigkeitsoperatoren - hierarchische Suche – datenbankübergreifende Suche - Umformulierung von Suchergebnissen zu Suchargumenten –Anzeigen von Suchergebnissen - Bestellen von Volltexten - Suchprofile / SDI – Menüführung vs. Befehlssprache Gewichtetes Retrieval: Intellektuelles Gewichten von Schlagworten – Gewichten durch „Cracken“ von Ketten beim syntaktischen Indexieren – Termähnlichkeiten – Themencluster – variierbarer Thesaurus Information Retrieval

    4. Information Retrieval Informationslinguistik: Erkennen von Worten – Stoppworte – Wortstammanalyse – Lemmatisierung - Phrasenerkennung – Homonyme – Synonyme – Pronomina-Analysen – Fehlertoleranz – SOUNDEX - Besonderheiten der deutschen Sprache – MILOS/KASCADE Textstatistik (Relevance Ranking I): Worthäufigkeiten – dokumentspezifische Wortgewichtung – Position im Dokument – inverse Dokumenthäufigkeit – FREESTYLE - Vektorraummodell – probabilistisches Modell – INQUERY – Anreichern von Suchargumenten - ALTAVISTA - Relevance Feedback Information Retrieval

    5. Information Retrieval Link-Topologie (Relevance Ranking II): Zitationsindexierung - Link-Analyse – Hubs und Authorities - PageRank – kontextspezifischer PageRank – Nutzungsanalyse - GOOGLE Automatische Indexierung mit Vorzugsbennungen: Indexierung mit Deskriptoren und Notationen – FACTIVA - ortsabhängiges Ranking (GIS / regionale Klassifikation) Automatische Indexierung mit freien Schlagworten: Schlagwortvergabe bei SMART – automatische Klassifikation –Northern Light Assoziative Suche / „More like this“: linguistische Variante – zitatenanalytische Variante Information Retrieval

    6. Information Retrieval Informationsextraktion: bereichsspezifisches Retrieval – Faktenextraktion aus Volltexten – Faktenextraktion aus Literaturdatenbanken CLIR (Cross-Language Information Retrieval): Sprachidentifikation – maschinelles Übersetzen – wörterbuchunabhängige Verfahren Sponsored Links („Einkaufen“ in Ausgabelisten): Ersteigern von Listenpositionen – AdWords (GOOGLE) - OVERTURE Informationsvisualisierung: Formulierung des Sucharguments – Ausgabe von Nicht-WWW-Dokumenten – Ausgabe von WWW-Dokumenten – KARTOO - Ausgabe informetrischer Ergebnisse Information Retrieval

    7. Information Retrieval Basisliteratur: Reginald Ferber: Information Retrieval. Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web. – Heidelberg: dpunkt.verlag, 2003. William B. Frakes; Ricardo Baeza-Yates (Hrsg.): Information Retrieval. Data Structure & Algorithms. – Upper Saddle River, NJ: Prentice Hall, 1992. Eleonore Poetzsch: Information Retrieval. Einführung in Grundlagen und Methoden. – Potsdam: Verl. für Berlin-Brandenburg, 3. Aufl., 2002. Eleonore Poetzsch: Wirtschaftsinformation. Online – CD-ROM - Internet. – Potsdam: Verl. für Berlin-Brandenburg, 2001. Karen Sparck-Jones; Peter Willett (Hrsg.): Readings in Information Retrieval. – San Francisco: Morgan Kaufmann, 1997. Wolfgang G. Stock: Informationswirtschaft. Management externen Wissens. – München; Wien: Oldenbourg, 2000. Information Retrieval

    8. Information Retrieval Wer befasst sich mit Information Retrieval? Information Retrieval

    9. Information Retrieval Linguistik Informatik Retrievalsoftware Kommerzielle Datenbanken und Hosts Suchmaschinen im Internet Informationswissenschaft Information Retrieval

    10. Information Retrieval Konferenzen • ACM SIGIRConference on Research and Development in Information Retrieval (seit 1977; Fokus: informatische, computerlinguistische und informationswissenschaftliche Grundlagen) – ACM: Association for Computing Machinery – SIGIR: Special Interest Group on Information Retrieval • TREC (seit 1992; Fokus: Evaluation von Retrievalsystemen) – Text REtrieval Conference • World Wide Web Conference (seit 1994; Fokus: Retrieval-systeme im Internet) Information Retrieval

    11. Information Retrieval Messen (mit Tagungen) • Online Information (London) • National Online Meeting (USA) • ComInfo / DGI-Online-Tagung (Frankfurt/M.) (Fokus: jeweils auf kommerzielle Datenbanken und Hosts) Verbände in Deutschland • Fachgruppe Information Retrieval der Gesellschaft für Informatik • Online-Benutzergruppe in der DGI (OLBG) – DGI: Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis Information Retrieval

    12. Information Retrieval Zeitschriften: • Journal of the American Society for Information Science and Technology (JASIST) • Communications of the ACM • Information Processing & Management • Information Retrieval • Journal of Documentation Spezialsuchmaschine: • CiteSeer von NEC Research Institute (citeseer.com) C. Lee Giles; Kurt D. Bollacker; Steve Lawrence: CiteSeer: An Automatic Citation Indexing System. – In: Digital Libraries 98. – New York: ACM, 1998, 89-98. Information Retrieval

    13. Information Retrieval Eine kurze Geschichte des Information Retrieval: Beginn der Forschungen: Anfang der 60er Jahre • Experimente mit natürlichsprachigen Systemen: Gerard Salton (1927 – 1995) – Vektorraummodell, SMART • Vorbereitungen kommerzieller Online-Systeme: Roger Kent Summit (geb. 1930) – DIALOG Information Retrieval

    14. Information Retrieval Eine kurze Geschichte des Information Retrieval: Theoriebildungen / erste Anwendungen: 70er Jahre • Erstes Online-System: DIALOG 1972 • Theoretische Grundlagen, Gewichtungsverfahren: Karen Sparck-Jones / Donna Harman / C.J. „Keith“ van Rijsbergen (geb. 1943) • Probabilistisches Modell: Stephen E. Robertson van Rijsbergen Robertson Sparck-Jones Information Retrieval

    15. Information Retrieval Eine kurze Geschichte des Information Retrieval: Erfolg der Booleschen Online-Systeme in Praxis einsetzbare natürlichsprachige Systeme (nur moderat erfolgreich): 80er Jahre • diverse Online-Hosts, auch in Deutschland: GENIOS, GBI u.a. • natürlichsprachige Systeme: OKAPI, INQUERY; in Deutschland: AIR/PHYS: Gerhard Lustig, Norbert Fuhr, Gerhard Knorz Fuhr Knorz Information Retrieval

    16. Information Retrieval Eine kurze Geschichte des Information Retrieval: Boom durch Word Wide Web: 90er Jahre • großangelegte Retrievaltests: TREC (Donna Harman) • natürlichsprachige Oberflächen auch bei Online-Hosts: Freestyle, WIN • Retrievaltechniken für‘s Web: Technologieführer bei „klassisch“ orientierten Systemen: AltaVista (Louis Monier) • Technologieführer bei Systemen unter Nutzung der Web-Topologie: Google (Lawrence „Larry“ Page; Sergey Brin; Monika R. Henzinger) Monier Brin (li.) Page Henzinger Information Retrieval

    17. Grundlagen des Information Retrieval Information Retrieval

    18. Grundlagen des Information Retrieval DE Dokumen-tations-einheiten Treffer DBE Dok. Bezugs-einheiten Infor-mations-bedarf Frage Vergleich der Begriffe Information Retrieval Information Indexing Information Retrieval

    19. Grundlagen des Information Retrieval Relevanz - Pertinenz Relevanz: Wann ist ein Dokument für ein Suchargument relevant? • (1) wenn es objektiv zur Vorbereitung einer Entscheidung dient • (2) wenn es objektiv eine Wissenslücke schließt • (3) wenn es objektiv eine Frühwarnfunktion erfüllt Pertinenz: Wann ist ein Dokument für einen Nutzer pertinent? • (1) wenn es subjektiv zur Vorbereitung der Entscheidung eines Nutzers dient • (2) wenn es subjektiv eine Wissenslücke des Nutzers schließt • (3) wenn es subjektiv eine Frühwarnfunktion für den Nutzer erfüllt Information Retrieval

    20. Grundlagen des Information Retrieval Relevanz - Pertinenz Ziele des Information Retrieval: • Gewinnung relevanter / pertinenter Dokumente, die objektives Wissen enthalten • Umwandlung des gefundenen objektiven Wissens in subjektives Wissen beim Nutzer (was auch heißt: der Nutzer muss die Fähigkeit haben, das entsprechende Wissen zu verstehen) • Ableitung von Handlungen – aus dem gefundenen Wissen auf der Basis der eigenen Vorkenntnisse neues, handlungsrelevantes Wissen zu kreieren Information Retrieval

    21. Grundlagen des Information Retrieval Relevanz - Pertinenz Voraussetzungen für erfolgreiches Retrieval: • das richtige Wissen • zum richtigen Zeitpunkt („just in time“) • am richtigen Ort • im richtigen Umfang • in der richtigen Form • mit der richtigen Qualität, wobei „richtig“ heißt: • (1) Wissen, Zeitpunkt usw. haben (objektiv betrachtet) Relevanz • (2) Wissen, Zeitpunkt usw. werden vom Nutzer (subjektiv betrachtet) als passend eingeschätzt: haben Pertinenz Information Retrieval

    22. Grundlagen des Information Retrieval Retrieval: Pull und Push • Pull-Service: zur Befriedigung von ad-hoc auftretendem Informationsbedarf sucht ein Nutzer aktiv in Informationssystemen nach Wissen • Push-Service: zur Befriedigung eines (über einen gewissen Zeitraum) andauernden Informationsbedarf wird ein Nutzer vom Informationssystem mit jeweils aktuellem, neuem Wissen versorgt. Push-Services sorgen für current awareness • Arbeitsschritt 1: Festlegen eines Informationsprofils (führt Nutzer durch) • Arbeitsschritt 2: Periodische Lieferung von Wissen (führt Informationssystem automatisch durch) – „SDI“ (selective dissemination of information) oder „Alert“ Information Retrieval

    23. Grundlagen des Information Retrieval Pull-Service freier Zugang Pass-wörter Benutzer-sichten allgemeine Infor-mationen exklusive Infor-mationen zielgruppen-spezifische Informationen Push-Service (a) E-Mail-Verteiler (b) personalisiert auf Homepage Information Retrieval

    24. Grundlagen des Information Retrieval t2 erhalten durch Push-Service t1 bekannte Informationen gedeckter Informationsbedarf erhalten durch Pull-Service unbekannte Informationen ungedeckter Informationsbedarf Themenbearbeitungszeit R.Schönfelder: Inhaltliche und methodische Probleme einer rationellen Informationsplanung in Forschung und Entwicklung. – In: Informatik 22 (1975) 6, 49-52. Information Retrieval

    25. Grundlagen des Information Retrieval Frage- und Antworttypen • Konkreter Informationsbedarf (Faktenfrage) • Welchen Umsatz hatte Unternehmen X im Dezember 1998 in der Region Z? • Wo liegt der Schmelzpunkt von Kupfer? • Wie schloß der Dollarkurs letzten Freitag an der Frankfurter Börse? • Wann hat mein Geschäftspartner X Geburtstag? • Problemorientierter Informationsbedarf (Literatur) • Welche Methoden der fuzzy logic lassen sich beim Data Mining einsetzen? • Wie hängen Marketing und Qualitätsmanagement zusammen? • Wie bewerten Analysten das Unternehmen X? • Wie beschreiben Marktforscher das Konsumklima für ausländischen Wein in Ungarn? Valery I. Frants; Jacob Shapiro; Vladimir G. Voiskunskii: Automated Information Retrieval. – San Diego [u.a.]: Academic Press, 1997. - Kap. 2.3: The information need, 34-40. Information Retrieval

    26. Konkreter Informationsbedarf 1. Thematische Grenzen sind klar angesteckt. 2. Die Suchfrageformulie-rung ist durch exakte Terme ausdrückbar. 3. Eine Faktenfrage reicht aus, um den Bedarf zu decken. 4. Mit der Übermittlung der Fakteninformation ist das Informationsproblem erledigt. Problemorientierter Informationsbedarf 1. Thematische Grenzen sind nicht exakt. 2. Die Suchfrageformulie-rung läßt terminologische Varianten zu. 3. Es müssen diverse Doku-mente aus unterschiedlichen Quellen beschafft werden. 4. Mit der Übermittlung der Literaturinformation wird ggf. das Informationsproblem modifiziert oder ein neuer Bedarf entdeckt. Grundlagen des Information Retrieval Information Retrieval

    27. Grundlagen des Information Retrieval Aspekte der Relevanz: • Haben wir alle Datensätze gefunden, die handlungs-relevantes Wissen beinhalten? (Vollständigkeit; Recall) Recall = a / a + c • Haben wir nur solche Datensätze gefunden? (Genauigkeit, Precision) Precision = a / a + b a =: gefundene relevante Treffer b =: nichtrelevante Datensätze, die in der Treffermenge enthalten sind (Ballast) c =: relevante Datensätze in der Datenbank, die nicht gefunden wurden Information Retrieval

    28. Grundlagen des Information Retrieval • Recall und Precision beim konkreten Informationsbedarf Recall = 1 Precision = 1 • Recall und Precision beim problemorientierten Informationsbedarf inverse Relation zwischen Recall und Precision • bei Erhöhung des Recall: Absinken der Precision • bei Erhöhung der Precision: Absinken des Recall empirischer Schätzwert: Recall + Precision = 1 • Achtung Problem: dies ist ein theoretisches Modell; genaue Messergebnisse sind unmöglich, da der Wert c in großen Datenbanken prinzipiell unbekannt ist. Information Retrieval

    29. Grundlagen des Information Retrieval 100 Der “heilige Gral” der Rechercheure R e c a l l Zugewinn durch elaborierte „durchschnittliches“ Information Retrieval Suche 100 P r e c i s i o n Ross Evans: Beyond Boolean: Relevance ranking, natural language and the New Search Paradigm. – In: Proceedings of the Fifteenth National Online Meeting. – Medford: Learned Information, 1994, 121-128. Information Retrieval

    30. Grundlagen des Information Retrieval Suchansätze • (1) Suche nach Datensätzen (oder Teilen davon) „Nadel-im-Heuhaufen-Syndrom“ • Strategie beim problemorientierten Informationsbedarf: Berrypicking Marcia J. Bates: The design of browsing and berrypicking techniques for the online search interface. – In: Online Review 13 (1989), 407-424. Information Retrieval

    31. Grundlagen des Information Retrieval Suchansätze • (2) informetrische Suche Charakterisierung ganzer „Heuhaufen“, d.h. von Treffermengen • Faktenextraktion aus Datenbanken. Generierung von neuartigen Informationen durch das Retrieval • Rangordnungen • Zeitreihen • semantische Netze • Informationsflussgraphen • Hinweis: informetrische Suchen werden in der Vorlesung „Empirische Informationswissenschaft“ behandelt. Wolfgang G. Stock: Wirtschaftsinformationen aus informetrischen Online-Recherchen. – In: Nachrichten für Dokumentation 43 (1992), 301-315. Information Retrieval

    32. Grundlagen des Information Retrieval Informationsfilterung (erwünschte Einschränkung auf relevante / pertinente Dokumente) • durch Strukturierung der Dokumente • durch Indexieren (Informationsfilter i.e.S.) • Thesaurus • Klassifikation • Textwortmethode • Zitationsindexierung • usw. • durch Informationsverdichtung • Abstracts • Ontologien • Topic Maps Information Retrieval

    33. Grundlagen des Information Retrieval Informationsbarrieren (unerwünschte Einschränkung auf Teilmengen der relevanten / pertinenten Dokumente) • politisch-ideologische Barriere • Eigentumsbarriere • Gesetzesbarriere • Zeitbarriere • Effektivitätsbarriere • Finanzierungsbarriere • Terminologiebarriere • Fremdsprachenbarriere • Zugangsbarriere • Barrieren durch Mängel beim Information Retrieval • Bewusstheitsbarriere • Resonanzbarriere Heinz Engelbert: Der Informationsbedarf in der Wissenschaft. – Leipzig: Bibliographisches Institut, 1976. – Kap. 4: Informationsbarrieren, 59-72. Information Retrieval

    34. Grundlagen des Information Retrieval Informationsbarrieren Wolfgang G. Stock: Informationswissenschaft und –praxis in der Deutschen Demokratischen Republik. – Frankfurt: IDD Verl. Werner Flach, 1986, S. 64. Information Retrieval

    35. Grundlagen des Information Retrieval • Typologie von Retrievalsystemen • (1) Boolesche Systeme George Boole (1815 – 1864), englischer Mathematiker und Logiker („Boolesche Algebra“) • Boolesche Systeme erfordern die Übersetzung einer Anfrage in eine formale Sprache. • Country AND Western ANDNOT „Garth Brooks“ Information Retrieval

    36. Grundlagen des Information Retrieval • Typologie von Retrievalsystemen • (2) Natürlichsprachige Systeme Natürlichsprachige Systeme erwarten Anfragen in gewöhnlicher Sprache (mittels ganzer Sätze, einzelner Terme oder auch ganzer Musterdokumente). Beispiele: kommerzielle Content-Aggregatoren mit natürlichsprachiger Suche: WIN (Westlaw), Target (DIALOG), Freestyle (Lexis-Nexis); Content-Aggregatoren mit natürlichsprachiger automatischer Indexierung: FACTIVA, Dialog Profound, Dialog NewsEdge; alle Suchmaschinen im WWW Komponenten: a) Informationslinguistik (Abgleich Suchargument – Dokumente) b) Informationsstatistik (Relevance Ranking) c) nicht immer: Ordnungssysteme (terminologische Kontrolle) Information Retrieval

    37. Grundlagen des Information Retrieval • Typologie von Retrievalsystemen • (3) Kombinierte Systeme Boolesches und natürlichsprachiges Retrieval in Kombination (a) zuerst Boolesches Retrieval, danach in Treffermenge Relevance Ranking Beispiele: diverse Content-Aggregatoren, AltaVista (b) zuerst Informationslinguistik, danach in Treffermenge Feinrecherche mittels Boolescher Operatoren Beispiel: Lexis-Nexis Information Retrieval

    38. Grundlagen des Information Retrieval Weltregionen des Internet: Die „Oberfläche“ • digitale Dokumente im Web • (prinzipiell) auffindbar durch Suchwerkzeuge • Dokumente sind u.U. unerwünschter Ballast („Spam“) • Suchwerkzeuge / Typen: • Suchmaschinen • Webkataloge • Meta-Suchmaschinen • Portale Information Retrieval

    39. Grundlagen des Information Retrieval Suchmaschinen (Search Engines) Mechtild Stock; Wolfgang G. Stock: Informationslinguistik und -statistik: AltaVista, FAST und Northern Light. – In: Password Nr. 1 (2001), 16-24. - Mechtild Stock; Wolfgang G. Stock: Relevance Ranking nach „Popularität“ von Webseiten: Google. – In: Password Nr. 2 (2001), 20-27. Information Retrieval

    40. Grundlagen des Information Retrieval Suchmaschinen (Search Engines) • Gegenstand: Dokumente im Internet (WWW, Newsgroups), gerichtet auf einzelne Webseiten • automatisches Einsammeln der Dokumente mittels Crawler • automatisches Aktualisieren der Datenbasis • Kopieren der Dokumente (oder von Teilen) in die eigene Datenbank • automatisches Indexieren der kopierten Dokumente • eher große Datenbasis (mehrere Mrd. Dokumente) • Suchsystem mit natürlichsprachiger Eingabe und mit Profi-Oberfläche Information Retrieval

    41. Grundlagen des Information Retrieval Webkataloge (Web-Directories) Mechtild Stock; Wolfgang G. Stock: Klassifikation und terminologi- sche Kontrolle: Yahoo!, Open Directory und Oingo im Vergleich. – In: Password Nr. 12 (2000), 26-33. Information Retrieval

    42. Grundlagen des Information Retrieval Webkataloge (Web-Directories) • Gegenstand: Dokumente im WWW (z.T. zusätzlich exklusive Dokumente, z.B. News), gerichtet vor allem auf Einstiegs-seiten in Websites • intellektuelle Auswahl • intellektuelles Indexieren (i.d.R. Klassifikation) • Datenbasis: „Titel“ der Dokumente (vom Webkatalog oder vom Anmeldenden vergeben) und URL • eher kleine Datenbasis (einige Mio. Dokumente) • unregelmäßiges Update • Suchsysteme mit Klassifikationshierarchien und natürlichsprachiger Suche (über die Klassenbezeichnungen und die Dokumenten“titel“) Information Retrieval

    43. Grundlagen des Information Retrieval Meta-Suchmaschinen Information Retrieval

    44. Grundlagen des Information Retrieval Meta-Suchmaschinen • keine Datenbasis; greifen auf die Datenbasen anderer Suchwerkzeuge zurück („Schmarotzer“) • a) Metasuchmaschinen ohne eigenen informationellen Mehrwert (außer der Abfrage diverser Suchwerkzeuge und ggf. Dublettenelimination) • b) Metasuchmaschinen mit Angebot von Dokumentationssprachen (z.B. Thesaurus) • c) mit Bearbeitung eingesammelter Dokumente Information Retrieval

    45. Grundlagen des Information Retrieval Portal • einheitlicher Einstiegspunkt in das WWW (allgemein: „horizontales Portal“; fachspezifisch: „vertikales“ Portal) • Simplizität • Bereitstellung von Suchwerkzeugen (Suchmaschine und Katalog) • allgemein interessierende bzw. fachspezifische (möglichst) exklusive Inhalte (News, Aktienkurse) • Zusatzfunktionalitäten (Tools mit benutzerspezifischem Gebrauchswert, z.B. Übersetzungsprogramme, Kalender, Adressbuch) • Personalisierung (Verwalten von Informationsprofilen – „MyXXX“) • Kommunikation (E-Mail-Accounts, themenspezifische Chatrooms, Platz für benutzereigene Homepage o.ä.) Hermann Rösch: Internetportal, Unternehmensportal, Wissenschaftsportal. – In: Gerhard Knorz; Rainer Kuhlen (Hrsg.): Informationskompetenz – Basiskompetenz in der Informationsgesellschaft. – Konstanz: UVK, 2000, 245-264. Information Retrieval

    46. Grundlagen des Information Retrieval Weltregionen des Internet: Das „Deep Web“ (oder „Invisible Web“) • digitale Dokumente, die nicht direkt im Web liegen, aber via Web erreichbar sind • derzeit nicht auffindbar durch Suchwerkzeuge • Dokumente sind (meist) qualitätsgeprüft • Terminologie: „invisible Web“ – Sherman & Price „Deep Web“ – Bergman (Schätzung: Deep Web ist 500mal größer als das Oberflächenweb – wahrscheinlich stark überschätzt) • Typen: • Kostenfreie singuläre Datenbanken • Kommerzielle Informationsanbieter • Selbstvermarkter • Content-Aggregatoren (Online-Hosts) Chris Sherman; Gary Price: The Invisible Web. – Medford: Information Today, 2001. Michael K. Bergman: The Deep Web: Surfacing Hidden Value. – In: The Journal of Electronic Publishing 7 (2001) Iss.1 Information Retrieval

    47. Grundlagen des Information Retrieval (Kostenfreie) Singuläre Datenbanken im Web • thematisch orientierte Datenbanken • (i.d.R.) aufgebaut von öffentlichen Einrichtungen (durch öffentliche Mittel bereits finanziert) • mehrere tausend Datenbanken via Web erreichbar Information Retrieval

    48. Grundlagen des Information Retrieval (Kommerzielle) Singuläre Datenbanken im Web – „Selbstvermarkter“ • thematisch orientierte Datenbanken • (i.d.R.) aufgebaut von Privatunternehmen mit dem Zweck der Erzielung von Gewinnen • teilweise auch zusätzlich bei Content-Aggregatoren aufgelegt Mechtild Stock; Wolfgang G. Stock: Professionelle Informationen über deutsche Unternehmen im Internet. – In: Password Nr. 11 (2001), 26-33, und Nr. 12 (2001), 18-25. Information Retrieval

    49. Grundlagen des Information Retrieval Content-Aggregatoren Wirtschaft • Bündelung wirtschaftsrelevanter Datenbasen unter einer Oberfläche • Wirtschaftsnachrichten, Firmeninformationen, Wirtschaftswissenschaft, Marktdaten usw. Mechtild Stock: GBI – the contentmachine. Wirtschaftsinformationen für Hochschulen, Unternehmen und Internet- Surfer. – In: Password Nr. 2 (2003), 8-17; Mechtild Stock; Wolfgang G. Stock : Dialog / DataStar. One-Stop- Shops internationaler Fachinformationen. – In: Password Nr. 4 (2003), 22-29. - Mechtild Stock; Wolfgang G. Stock : Dialog Profound / NewsEdge: Dialogs Spezialmärkte für Marktforschung und News. – In: Password Nr. 5 (2003). Information Retrieval

    50. Grundlagen des Information Retrieval Content-Aggregatoren News • Bündelung von Nachrichten-Datenbasen unter einer Oberfläche • (real-time)-Informationen von Nachrichtenagenturen, Zeitungen, Zeitschriften Mechtild Stock: Factiva.com. Neuigkeiten auf der Spur. – In: Password Nr. 5 (2002), 31-40. - Mechtild Stock; Wolfgang G. Stock: Von Factiva.com zu Factiva Fusion. Globalität und Einheitlichkeit mit Integrationslösungen. – In: Password Nr. 3 (2003), 19-28. – Mechtild Stock: ASV Infopool. Boulevard online. – In: Password Nr. 10 (2002), 22-27. Information Retrieval