Qualität von Web-Suchmaschinen Search Engine Stragies Munich 2005

Qualität von Web-SuchmaschinenSearch Engine Stragies Munich 2005 Dirk Lewandowski Heinrich-Heine-Universität Düsseldorf, Abt. Informationswissenschaft

Informationswissenschaft Uni Düsseldorf • Eine der führenden Ausbildungsstätten im Bereich Informationswissenschaft. • Einzigartiger Studiengang „Informationswissenschaft und Sprachtechnologie“ (B.A./M.A.) • Elemente aus Informationswissenschaft, Sprachwissenschaft, Informatik • Praktika im Verlauf des Studiums • Forschung der Abteilung Informationswissenschaft u.a.: • Web Information Retrieval • Suchmaschinen-Marketing

Ziel des Vortrags • Darstellung der Qualität von Suchmaschinen aus „neutraler Sicht“. • Kurzer Überblick über aktuelle Forschungsergebnisse.

Inhalt • Qualität der Treffer • Qualität der Datenbestände • Qualität der Suchfunktionen • Fazit

1 Qualität der Treffer

Retrievaltests • Qualität von Suchmaschinen wird anhand von Testanfragen gemessen. • Errechnet wird die erreichte Präzision = Anteil der relevanten Treffer bis zu einem bestimmten Cut-Off-Wert. • Beispiel: • 50 zufällig ausgewählte Suchanfragen • berücksichtigt werden die ersten 20 Treffer • Jeder Treffer wird bewertet: für die Suchanfrage passend oder nicht?

Quelle: Griesbaum 2004

Retrievaltests: Ergebnisse • Alle Suchmaschinen schneiden schlecht ab: Präzision <0,6. D.h. nur max. 6 von 10 Treffern sind relevant. • Andersherum: Mindestens 4 von 10 Treffern sind irrelevant. • Die Suchmaschinen liegen nahe beieinander; Bestätigung durch Kurztests und eigene Erfahrungen. • Testberichte in Publikumszeitschriften genügen i.d.R. nicht den Ansprüchen an Retrievaltests.

2 Qualität der Datenbestände

Abdeckung des deutschen Web • Größe des deutschen Web ca. 4 Mio. Domains mit ca. 320 Mio. Seiten. • Abdeckung durch Suchmaschinen zwischen <50 Prozent und etwa 60 Prozent. • Bessere Abdeckung als in vergleichbaren älteren Studien; Tendenz aber ähnlich. Quelle: Pothe 2004

Country Bias • Seiten aus unterschiedlichen Ländern werden unterschiedlich häufig und unterschiedlich tief indexiert. • US-Sites werden zu >80 Prozent indexiert; andere teils nur zwischen 40-60 Prozent. • Tiefe der Indexierung: US-Sites ca. 90 Prozent; andere teils <50 Prozent. • Vergleichende Untersuchungen für deutschsprachige Sites liegt noch nicht vor. Quelle: Vaughan u. Thelwall 2004

Index-Aktualität • Aktualität schwankt erheblich. • Keine Komplettaktualisierung alle 30 Tage! • Aktuellster Index: Google, MSN, Yahoo. • Oft keine klaren Intervalle erkennbar. Quelle: Informationswissenschaft Uni Düsseldorf, laufende Untersuchung

3 Qualität der Suchfunktionen

Suchfunktionen • Umfang der Suchmöglichkeiten variiert erheblich. • Alle großen Suchmaschinen bieten gewisse Kernfunktionen, z.B.: • Beschränkung auf Titel • Sprachauswahl • Datumsbeschränkung • Dateiformate • Es hat sich bisher keine einheitliche Abfragesprache herausgebildet. Quelle: Lewandowski 2004a

Recherchefunktion: Datumsbeschränkung • Suchmaschinen können nur schwer erkennen, wie aktuell eine Seite ist. • Die Funktion „Datumsbeschränkung“ ordnet nur 4-6 von zehn Dokumente richtig zu. • Am besten schneidet hier Google ab, danach Yahoo. • Datumsbeschränkung bei Teoma / Ask Jeeves lohnt sich nicht. Quelle: Lewandowski 2004b

Quelle: Lewandowski 2004

Fazit

Fazit • Suchmaschinen sind (noch) nicht perfekt. • Suchmaschinen erfassen oft nur einen Teil von Websites. • Textanzeigen haben weiterhin Bedeutung, auch wenn die Homepage gut gerankt ist. • Für kurzfristige Kampagnen sollte man sich nicht auf die Indexierung durch Suchmaschinen verlassen.

Vielen Dank. www.durchdenken.de/lewandowski dirk.lewandowski@uni-duesseldorf.de

Quellen • Griesbaum, J. (2004): Evaluation of three German search engines: Altavista.de, Google.de and Lycos.de. Information Research 9(4) paper 189. http://informationr.net/ir/9-4/paper189.html • Lewandowski, D. (2004a): Abfragesprachen und erweiterte Funktionen von WWW-Suchmaschinen. IWP - Information: Wissenschaft und Praxis 55(2), 97-102 (2004). http://www.durchdenken.de/lewandowski/doc/suchmaschinen-funktionen.php • Lewandowski, D. (2004b): Date-restricted queries in web search engines. Online Information Review 28(2004)6, 420-427. http://www.durchdenken.de/lewandowski/doc/oir2004.php • Vaughan, L.; Thelwall, M. (2004): Search Engine Coverage Bias: Evidence and Possible Causes. In: Information Processing & Management, 40(4), 693-707 • Pothe, A. (2004): Nachgezählt: Wie groß ist das WWW? c‘t 26/2004, 164-165

Qualität von Web-Suchmaschinen Search Engine Stragies Munich 2005

Qualität von Web-Suchmaschinen Search Engine Stragies Munich 2005

Presentation Transcript

Search Engine Optimization Basics

Search Engine Marketing and Web Site Optimization

Web Entrepreneurship

SQL Server Full-Text Search Using full-text search in SQL Server 2005

Welcome Glenferrie Road Traders

Small Engine Reassembly Briggs Stratton OHV

Talent Search Program 2005 Pre-Application Workshop Washington, DC July 11, 2005

Hypersearching the Web

Internet Search Strategy

Internal Combustion Engine. (I C Engine)

Who is TM?

What is Search Engine Optimization (SEO)?

1.Google is 1.Virus Programme 2.Search Engine 3.Website 4.Hardware

Search Engine Technology

Tabu Search

The 1.8l 4V TFSI engine

ILS 501 Unit 3 Searching Issues

Internal Combustion Engine. (I C Engine)

Search Engine Optimization (SEO)

Top 10 Business Benefits of Search Engine Optimization

Secret Of The Search Engine Masters Review and (Free) GIANT $14,600 BONUS

What search engine crawlers do with your meta tags (public)