1 / 53

Zoekmachines

Zoekmachines. ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers. Wat is een zoekmachine?. Definitie: Een zoekmachine is een programma dat op basis van een zoekopdracht relevante informatie probeert te vinden in een verzameling met documenten, zoals het WWW. Geschiedenis.

aira
Download Presentation

Zoekmachines

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers

  2. Wat is een zoekmachine? • Definitie: Een zoekmachine is een programma dat op basis van een zoekopdracht relevante informatie probeert te vinden in een verzameling met documenten, zoals het WWW.

  3. Geschiedenis • Explosieve groei WWW • steeds meer informatie digitaal en online beschikbaar/bereikbaar • gemiddeld 19 clicks tussen 2 webpagina's • zoals in een bibliotheek: onvindbaar zonder ordening en index • Oplossing: directories en zoekmachines

  4. Geschiedenis • Directories • hierarchie van handmatig toegevoegde wegpagina’s • voorbeelden: Yahoo! Directory, DMOZ

  5. Geschiedenis • Directories • voordelen • hogere kwaliteit • geordend • nadelen • subjectief • arbeidsintensief • passief

  6. Geschiedenis • Zoekmachines • doorzoeken automatisch het WWW op basis van een zoekopdracht • voorbeelden:

  7. Geschiedenis • Zoekmachines • voordelen • geautomatiseerd • objectief • actief • nadelen • …

  8. browser query search engine server documents Hoe werkt een zoekmachine? Web pages search engine client

  9. browser search engine client query search engine server documents Hoe werkt een zoekmachine? Web pages

  10. search engine client query search engine server browser documents Hoe werkt een zoekmachine? World Wide Web

  11. search engine client query search engine server browser documents Hoe werkt een zoekmachine? webpage webpage webpage webpage webpage webpage webpage webpage webpage webpage webpage

  12. search engine client query search engine server browser documents Hoe werkt een zoekmachine? Web index webpage webpage webpage webpage webpage webpage webpage webpage webpage webpage webpage

  13. search engine client query search engine server browser documents Hoe werkt een zoekmachine? Web index webpage webpage webpage webpage webpage webpage webpage webpage webpage crawler webpage webpage

  14. webpage hub autoriteit webpage Geschiedenis • Verschillende generaties • 1e generatie (Archie) • locatie • 2e generatie (Lycos) • locatie & inhoud • 3e generatie (Google) • locatie, inhoud & autoriteit • 4e generatie • ???

  15. Lies, damned lies & statistics • Getallen • marktaandeel VS

  16. Lies, damned lies & statistics • Getallen • marktaandeel VS

  17. Lies, damned lies & statistics • Getallen • marktaandeel Groot-Brittannië

  18. Lies, damned lies & statistics • Getallen • marktaandeel Nederland & Duitsland

  19. Lies, damned lies & statistics • Getallen • marktaandeel • grootte geindexeerde Web • overlap (70%-90%) • “much of the Web is crap” • > 14,3 miljard geindexeerde pagina’s

  20. Lies, damned lies & statistics • Getallen • marktaandeel • grootte geindexeerde Web

  21. Lies, damned lies & statistics • Getallen • marktaandeel • grootte geindexeerde Web • > 14,3 miljard pagina’s • aantal zoekopdrachten • ± 1 miljard per dag ≈11.500 per seconde

  22. Zoeken • basis • Booleaanse operatoren • pirate AND monkey • pirate OR monkey • pirate NOT monkey • pirate AND monkey NOT robot • filteren stopwoorden • exacte frases • “pirates of the caribbean” 

  23. Zoeken • gevorderden • proximity (NEAR, ADJ) • pirates NEAR software • wildcards (*) • “pirates of *” • synoniemen (~) • ~pirate • veldspecifiek zoeken (title, domain, filetype) • pirate filetype:ppt

  24. Problemen voor zoekmachines • groei & dynamiek van het WWW • +11 miljoen pagina’s per dag • dynamisch • updates • link rot

  25. Surface Web Deep Web totale WWW 400 tot 550 keer groter > 14,3 miljard > 5 biljoen Problemen voor zoekmachines • groei & dynamiek van het WWW • niet alles is indexeerbaar • geen verwijzing  geen indexering • dynamisch gegenereerde pagina’s

  26. Problemen voor zoekmachines • groei & dynamiek van het WWW • niet alles is indexeerbaar • niet alles moet geindexeerd worden • search engine spamming • keyword stuffing • link farms

  27. Problemen voor zoekmachines • groei & dynamiek van het WWW • niet alles is indexeerbaar • niet alles moet geindexeerd worden • query syntax niet toereikend • beperkt tot keywords  ambiguiteit!

  28. Problemen voor zoekmachines ‘jaguar’

  29. Problemen voor zoekmachines • groei & dynamiek van het WWW • niet alles is indexeerbaar • niet alles moet geindexeerd worden • query syntax niet toereikend • beperkt tot keywords  ambiguiteit! • gemiddelde 2 zoektermen

  30. 4e generatie zoekmachines • andere domeinen • desktop • Google Desktop, Spotlight • enterprise/intranet • Verity, Panoptic, Grokker • blogs • Bloogz, Technorati, Google Blog Search • multimedia • Ditto, Google Images/Video, AllTheWeb

  31. 4e generatie zoekmachines • andere domeinen • andere algoritmes/toepassingen • meta search • Dogpile, Vivisimo • clustering • Clusty, Grokker • question answering systemen • Brainboost, AnswerBus, Inferret, Ionaut

  32. 4e generatie zoekmachines • andere domeinen • andere algoritmes/toepassingen • meta search • Dogpile, Vivisimo • clustering • Clusty, Grokker • question answering systemen • Brainboost, AnswerBus, Inferret, Ionaut • personalizatie • recommender systems • Amazon, MyStrands, Pandora, MovieLens

  33. 4e generatie zoekmachines • andere domeinen • andere algoritmes/toepassingen • meta search • Dogpile, Vivisimo • clustering • Clusty, Grokker • question answering systemen • Brainboost, AnswerBus, Inferret, Ionaut • personalizatie • recommender systems • Amazon, MyStrands, Pandora, MovieLens • social tagging • Flickr, del.icio.us, LastFM

  34. 4e generatie zoekmachines • andere domeinen • andere algoritmes/toepassingen • andere rol • van passief naar actief • IntelliGent, Watson

  35. Fun with Google 101 • Google Bomb • miserable failure • raar kapsel • vreemdelingenhaat • more evil than satan

  36. Fun with Google 101 • Google Bomb • Google suggestions

  37. Fun with Google 101 • Google Bomb • Google suggestions • Googlewhack • intergalactically janitorial • icebreaking snaggletooth • obverse tartiness • tailgated winnebagoes • arachnophobic swashbuckler

  38. Fun with Google 101 • Google Bomb • Google suggestions • Googlewhack • Googlisms • Google Trends

  39. The Dark side of the Force search • censuur • Frankrijk • Duitsland • China

More Related