1 / 27

Google

Google. Exemple de fonctionnement d’un moteur. Que sont les moteurs ?. Les moteurs sont en fait des programmes Le premier fut www worm (w4) 3 ou 4 seulement ont la puissance d’explorer tout le web : Google – AltaVista – Alltheweb – Inktomi

ban
Download Presentation

Google

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Google Exemple de fonctionnement d’un moteur JL Ferrier

  2. Que sont les moteurs ? • Les moteurs sont en fait des programmes • Le premier fut www worm (w4) • 3 ou 4 seulement ont la puissance d’explorer tout le web : Google – AltaVista – Alltheweb – Inktomi • Microsoft, AOL … travaillent au développement et/ou à l’achat de moteurs • L’annuaire Yahoo a acquis Overture, Fast/Alltheweb, AltaVista, and Inktomi JL Ferrier

  3. Qu’est Google ? • Né à l’université de Stanford • Googol = 10100. Nombre absurde (il y a 1080 particules dans l’univers). • Illustre l’intention d’indexer à très grande échelle. • Basé sur des principes nouveaux à l’époque pour indexer les pages. JL Ferrier

  4. … … tortillon … www.dotapea.com/ tortue … www.tortue.com tortue … www.caramax.com tortue … universdelulue.free.fr/ tortue ... www.tortuemagique.com torture ... www.cpt.coe.int/en/ ... ... ... Indexation - Définition « tortue » • L’index ordonne l’information pour la retrouver très vite. • Structures de données très complexes. • Indexation = construction des tables d’index JL Ferrier

  5. Indexation - Principe • Les index sont en fait basés sur des lexiques. • Google possédait au départ un lexique de 14 millions de mots. • Google indexe de plus la proximité des mots dans une matrice. JL Ferrier

  6. Indexation - Principe • Une page doit être proposée au robot pour être indexée (soumission). • Les robots « lisent » le contenu et indexent les mots. • Ils suivent les liens, reconstituent le site et l’indexent. • L’indexation est lexicale, et pas sémantique. JL Ferrier

  7. JL Ferrier

  8. Indexation - Principe • La balise keywords a été mise en place pour faciliter le travail d’indexation des robots. <html><head> <meta name="Keywords" content="Molière, Moliere, théâtre français, littérature classique, comédie française, French comedy, seventeenth-century France, French playwrights, French literature, illustre théâtre"> </head> JL Ferrier

  9. Indexation - Limite • Le détournement des mots-clés. • Exemples dans la jurisprudence : Itineris et SFR. • Nombreux « spamdexing » autour des mots-clés. • Le spamdexing marque la limite définitive des moteurs. JL Ferrier

  10. Principes de Google • Ne tient pas compte des mots-clés. • Applique une indexation basée sur la proximité des mots (donc de leur ordre) : • http://www.google.fr/search?hl=fr&ie=UTF-8&q=chine+japon • http://www.google.fr/search?hl=fr&ie=UTF-8&q=japon+chine • Indexe les liens, pour plusieurs raisons. • Introduit la notion de popularité d’un site. JL Ferrier

  11. Abandon des mots-clés • Google préfère le texte dans les balises de titre : <H1>Les menus d’automne</H1>. • Il prend aussi en compte la taille de la police, les caractères gras. • Il considère le texte des liens pointant sur une page comme autant de mots-clés !!! JL Ferrier

  12. Indexation des liens - 1 • Le texte des liens est censé remplacer avantageusement les mots-clés. • Exemple sur la daube provençale >> • Ceci a une conséquence sur la manière d’être indexé !!! • C’est un moyen de faire du spamdexing et du « google bombing ». JL Ferrier

  13. Indexation des liens - 2 • Comment estimer la POPULARITÉ d’un site ? • Nombre de visites ? • Estimable grâce aux log files. • Inaccessible pour un moteur. • Idée force de Google : bâtir un indice de popularité basé sur les liens. JL Ferrier

  14. PageRank - 1 • Exprime la popularité d’une page en calculant la manière dont elle est pointée par d’autres pages. • Indice objectif d’inspiration libérale (« le talent finit toujours par être reconnu »). • Incompatible avec d’autres formes de systèmes politiques et/ou économiques. • Google est-il inscrit dans un système libéral ? JL Ferrier

  15. PageRank – 2 Chezdede.com Chez Dédé, Le menu d’automne vous attend avec sa farandole de gibiers et de champignons (…) Chezmomo.com Chez Momo, Le menu d’automne vous attend avec sa farandole de poulets bas de gamme et de champignons en boite (…) JL Ferrier

  16. PageRank – 2 Menud'automneChez Dédé, Le menu d’automne vous attend avec sa farandole de gibiers et de champignons…www.chezdede.com/index.htm - 5k - En cache - Pages similaires [… et bien plus loin, on trouve … ] automneChez Momo, Le menu d’automne vous attend avec sa farandole de poulets bas de gamme et de champignons en boîte … www.chezmomo.com/degueu.htm - 9k - En cache - Pages similaires • PR(Chezdede.com)=7 • PR(Chezmomo.com)=1 JL Ferrier

  17. PageRank – 3 • Le PR positionne la page dans les réponses de Google • Les liens ne se valent pas tous. • Une lien provenant d’une page qui est très populaire (PR élevé) donne plus de points. JL Ferrier

  18. PageRank – 3 Bonsplans.com Chezdede.com Chez Dédé, Le menu d’automne vous attend avec sa farandole de gibiers et de champignons (…) Trifouilli-les-oies.com yahoo.com JL Ferrier

  19. PageRank – 3 PR(chezdede.com) =PR(bonsplans.com)+PR(trifouilli-les-oies.com)+PR(yahoo.com) =1+2+ 474 000 • Indice de popularité intéressant. • Besoin d’affiner la valeur du « lien » JL Ferrier

  20. PageRank – 4 • Les liens ne se valent pas tous. • Une page qui n’a qu’un seul lien est considérée comme étant un référent (authority page) • Une page qui en a beaucoup est un « moyeu » (hub page). Ses liens ont moins de « valeur » (ex des annuaires) car expriment moins la popularité. JL Ferrier

  21. PageRank – 4 Chezdede.com Chez Dédé, Le menu d’automne vous attend avec sa farandole de gibiers et de champignons (…) Cotebleue.com La côte bleue vous attend en toute occasion (…) Le meilleur resto de la côte >> Rendez-vous est pris avec tous les motards dès que (….) TousLesRestos.com Chez Marcel >> Chez Dédé >> Chez Totoche >> Le rendez-vous de la Méduse >> JL Ferrier

  22. PageRank – 4 • C(cotebleue.com)=1 • C(touslesrestos.com)=4 • Fonction C() : donne le nombre de liens pointés par une page. • PR(Chezdede.com) =PR(cotebleue.com)/ C(cotebleue.com) + PR(touslesrestos.com)/ C(touslesrestos.com) JL Ferrier

  23. PageRank – 4 Soit une page A ayant N liens pointant vers elle, provenant de N pages. Le page rank de A vaut : La valeur de d (coef d’amortissement) est de 0,85 JL Ferrier

  24. Explication intuitive • Le PageRank peut se voir comme une loi de probabilité. • Un internaute clique au hasard et suit les liens sans revenir en arrière, mais peut zapper sur une autre page. • Le PR est la probabilité qu’il tombe sur la page en question JL Ferrier

  25. Connaître le PR • Par une recherche link: • Par la Google ToolBar (attention elle affiche • TAF : quel est le réel intérêt de la Google ToolBar ? JL Ferrier

  26. It’s non sense ! • Les failles des moteurs tels que Google sont liés à l’absence de traitement sémantique des contenus informationnels • Cette carence est comblée partiellement par le programme adwords. • Google intégrera des technos à base d’ontologies. • L’idée est de comprendre la requête de l’internaute, de lui apporter les BONS résultats. JL Ferrier

  27. Biblio • Lawrence Page, Sergey Brin, Rajeev Motwani, Terry Winograd « The PageRank Citation Ranking: Bringing Order to the Web »,Stanford Digital Library Technologies Project 1998 • Sergey Brin and Lawrence Page, "The anatomy of a large-scale hypertextual search engine", in Computer Networks and ISDN Systems, vol 30,1998. • Junghoo Cho, Hector Garcia-Molina, « Synchronizing a database to Improve Freshness » Stanford Press (2000) JL Ferrier

More Related