1 / 90

Trouver au lieu de chercher : on ne trouve pas TOUT sur le WEB mais de TOUT …

Trouver au lieu de chercher : on ne trouve pas TOUT sur le WEB mais de TOUT …. Patrick Gay - GIBIPO & Patrick Johner - INFODOC Formation sur les recherches documentaires et bibliographiques pour les AID de 2 ème année Lausanne les 19 & 26 avril 2002. Comportement standard.

elton
Download Presentation

Trouver au lieu de chercher : on ne trouve pas TOUT sur le WEB mais de TOUT …

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Trouver au lieu de chercher : on ne trouve pas TOUT sur le WEB mais de TOUT … Patrick Gay - GIBIPO & Patrick Johner - INFODOC Formation sur les recherches documentaires et bibliographiques pour les AID de 2ème année Lausanne les 19 & 26 avril 2002

  2. Comportement standard 80% des internautes se précipitent sur un moteur de recherche et tapent un ou deux mots-clefs séparés par un espace … Et si nous faisions un petit sondage dans la salle. Qui utilise Google ou Altavista ainsi ? Pas de panique, il existe d ’autres moyens plus performants, nous allons les découvrir. Le premier , éviter les fautes d ’orthographe ! Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 2 /90

  3. Introduction Syntaxe R-doc Outils R-Bib Conclusion page 5 page 12 page 21 page 32 page 67 page 88 Au programme Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 3 /90

  4. Intro - historique • Années 70 : naissance de l ’Internet • Réseau ARPANET • VERONICA (recherches titres, occurrences des termes, répertoires) • WAIS (indexation en texte intégral) • ARCHIE (recherches sur serveurs FTP) • Années 90 : avènement du WEB au CERN • Outils spécialisés comme Mosaïc en 1994 Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 4 /90

  5. Intro - raisons du succès • Protocole TCP/IP • Langage commun à tous les types de machines et de système d’exploitation • Interconnexion des tous les réseaux • Dialogue entre toutes les machines • Administration centrale minimale • Effort coopératif, suffixes de domaine, les adresses des machines (IP), équivalent en clair. • Langage HTML pour les pages WEB Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 5 /90

  6. Intro - services disponibles • Sites WEB • http://wwwedu.ge.ch/dip/biblioweb • Messagerie électronique • patrick.johner@edu.ge.ch • Listes de diffusion & forums de discussion • swiss-lib@lists.switch.ch • Accès à des banques de données • Telnet • Echanges de données • FTP Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 6 /90

  7. Intro - critique de l’information • Hétérogénéité : contenu et le codage • Instabilité • Fragmentation • Renouvellement continuel • Non structuré • Multilinguisme • Publique / privé / commercial Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 7 /90

  8. Intro - les six questions de base • Qui est la source ? • Quels résultats obtenons-nous ? • Comment est présentée l ’information ? • Quand le site a été crée ? • Où sommes-nous ? • Pourquoi diffuse-t-on cette information ? Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 8 /90

  9. Intro - évaluer un site • Fiabilité et qualité de l ’information • Trier l ’information • Evaluer l ’information et la source • Exactitude, exhaustivité • Auditoire • Vraisemblance, impartialité, cohérence • Vérifier l ’information Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 9 /90

  10. Intro - déchiffrer les URL • Http:// protocole • www. Web • Geneve. Nom • Ch Extension • http://www.geneve.ch • URL (Uniform Ressource Locator) Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 10 /90

  11. Quelques chiffres • 82 % des recherches par mots-clefs • 17 % navigation dans rubriques • 300 millions d ’internautes dans le monde • Plus de 10 millions en France • On parle de 500 milliards de pages … • 7,1 millions de sites Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 11 /90

  12. Syntaxe - opérateurs par défaut ? • Tapons par exemple : réchauffement planète • Selon l ’opérateur par défaut nous aurons des documents concernant : • le réchauffement de la planète avec « et » • soit le réchauffement du cassoulet de la veille mais aussi sur la planète Mars avec « ou ». Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 12 /90

  13. Syntaxe - opérateur «  ou » Opérateur qui permet « d ’ouvrir » une recherche, par exemple : bibliothèque ou library chien ou chiens Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 13 /90

  14. Syntaxe - opérateur « sauf » • Cet opérateur permet de supprimer un concept dans une recherche, par exemple cancer sauf horoscope Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 14 /90

  15. Nous pouvons avoir : capi* * taine ca * ne capitaine capitale capital mitaine capitaine cabine capitaine carabine Syntaxe - troncature Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 15 /90

  16. Syntaxe - majuscules, minuscules Sur Altavista nous pouvons tester : • ibm ou IBM • on aura alors ibm ou IBM • Ibm • on aura alors pas ibm ou IBM on peut aussi tester avec Peugeot Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 16 /90

  17. Nous avons : Google.com Google .fr Google.ch Un moyen de limiter notre champ de recherche. Nous avons aussi le filtre linguistique. Mais certains outils ne donnent pas les mêmes résultats avec : library bibliothèque … Syntaxe - gestion des langues Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 17 /90

  18. Pour certains outils de recherche sur le WEB les accents ont une importance. Jérome Jerome Idem pour l ’ordre des termes, on a pas toujours le même résultat. +Paris + Dakar +Dakar +Paris Syntaxe - accents et ordre Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 18 /90

  19. Syntaxe - expressions Nous pouvons formuler de trois façons : • New York • nous aurons soit New Age • soit la ville d ’York • +New +York • nous aurons le New Age dans la ville d ’York • « New York » • nous aurons enfin New York Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 19 /90

  20. Météo Sexe ANPE Google Yahoo Lycos Caramail Tennis SNCF Annuaire Pages jaunes Recherche MP3 Harry Potter FNAC Voilà Immobilier Musique Emploi Star academy Looksmart 2002 Vingt mots-clefs les plus utilisés Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 20 /90

  21. R-DOC - autres zones • Recherches possibles sur l ’URL • Recherches sur les titres des pages • Recherches dans les zones invisibles • balise Meta « Keywords » ou « Description » • Recherches dans les pages archivées Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 21 /90

  22. R-DOC - trouver les mots-clefs Rien de tel que de prendre une feuille et un crayon pour commencer une recherche. Nous avons : • mots-clefs primaires • finance, commerce, tourisme, loisirs, voyage • mots-clefs secondaires • jus d ’orange, bourse, Chicago • mots-clefs interdits • avec fruits, apple éviter computer Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 22 /90

  23. R-DOC - résultats Sur un annuaire vous avez les catégories, puis le résultat avec une notice. Sur un moteur vous avez directement des résultats classés selon la pertinence. Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 23 /90

  24. R-DOC - indice de popularité • Historiquement les résultats sont présentés selon : • l ’occurrence du mot-clef • sa place dans le document, début, fin • la taille de celui-ci dans le texte • Indice de popularité (IPP) • liens qui pointent sur un site • double niveau pour éviter la triche Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 24 /90

  25. Déclaration volontaire du site par son Webmaster, il est aussi possible d ’influencer les robots en mettant certaines indications dans le titre des pages, en choisissant la place des termes, en utilisant en HTML les zones meta- données (Head) ou se trouvent les mots-clés, titres. A travers un robot (spider ou crawler) qui explore de manière automatique la toile, il se faufile par les liens, seules les pages HTML sont prises en compte, il reste une importante partie non indexées somme les bases de données, les documents PDF (sauf Google) … passage tous les 2-3 mois vu la taille du WEB. R-DOC - indexation des sites Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 25 /90

  26. R-DOC - page en HTML Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 26 /90

  27. Mots vides Indexation au mot Indexation en texte intégral Index monochamp Index multichamps Recherche en langage naturel Indexation automatique Analyse sémantique Analyse phonétique R-DOC - indexation Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 27 /90

  28. R-DOC - méthodologie • Quel est le sujet précis ? • Je recherche de l ’information sur la maladie de la vache folle • Quelle limite géographique, linguistique, temporelle ? • Documents en français de moins de trois ans • Quels mot clés conviendrait ? • Maladie de la vache folle • Moteur de recherche à utiliser ? • Http://metacrawler.com/index.html • Formulation précise de la recherche ? • Maladie de la vache folle • Les réponses sous quelle forme ? • Une adresse de site intéressant • Validité de l ’information ou évaluation du site ? Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 28 /90

  29. R-DOC - Service de référence En bibliothèque nous devons aussi penser à : • Qui demande l ’information ? • Quel est son niveau de connaissance ? • Pourquoi a-t-il besoin des ces informations ? Dans la mesure du possible nous ferons avec notre lecteur la recherche et instaurerons à mesure un dialogue . Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 29 /90

  30. R-DOC - pages de résultats • Présentation par ordre de pertinence selon règles et hiérarchies pré-établies • emplacement du terme recherché, dans le titre, les mots-clé, texte ... • fréquence d’apparition du terme dans le document • par popularité (nombre de liens qui pointent sur le site) • Mais doublons souvent présents Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 30 /90

  31. 51 % 47 % 20 % 16 % 6 % 2 % 2 % Bannières publicitaires Moteur de recherche Catalogue en ligne Compte bancaire Comparaison de prix Achat en ligne Petites annonces Source BVA Internautes ont consulté au moins une fois en janvier 2002 les sites suivants Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 31 /90

  32. Un annuaire représente dans une hiérarchie de domaines et de sous-domaines un certain nombre de sites décrits par quelques informations précises. Yahoo 2 millions de sites Yahoo France 140 ’000 sites Nomade 140 ’000 sites Outils - annuaires Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 32 /90

  33. Outils - Yahoo • Créé en 1994 par deux étudiants de Stanford • D ’abord recenser leurs propres sites, avant de devenir une activité commerciale, Google prend la relève en cas ne non réponse. • 55 millions de requêtes de page par jour, • 2 millions de sites recensés, • En France en mai 2001 yahoo.fr • 3,2 millions de visiteurs, • 500 millions de pages vues. Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 33 /90

  34. Outils - essayer • J ’aimerais de la documentation sur les bibliothèques virtuelles • Essayez virtual libraries • Comparez le nombre de réponses Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 34 /90

  35. Outils - Yahoo 1 http://fr.yahoo.com/ Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 35 /90

  36. Outils - Yahoo 2 http://fr.yahoo.com/ Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 36 /90

  37. Outils - répertoires thématiques • Valeur ajoutée • Limitation du bruit • Donne adresses des sites • Biais par couverture régionale • Accès direct limité • Mises à jour aléatoires Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 37 /90

  38. INTERNET Interconnexion mondiales d ’ordinateurs, soit des utilisateurs avec leurs ordinateurs soit des serveurs. L ’Internet représente l ’aspect lié à l ’infrastructure, la « tuyauterie » du réseau mondial. WEB Ce n ’est qu ’une partie de l ’Internet qui permet de consulter des documents multimédias. Le WEB invisible c’est : Les archives de presse Les pages WEB crées avec des outils dynamiques Les banques de données gratuites ou payantes Vocabulaire Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 38 /90

  39. Le moteur de recherche recensent des pages WEB dans un index, puis il classe les résultats selon un algorithme. Voilà 30 millions pages Altavista 13 millions en français 550 millions Lycos 11 millions Google 620 millions Outils - moteurs de recherche Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 39 /90

  40. Outils - Google • Dérivé de Gogol, 10 à la puissance 100 • Créé en 1998 par des étudiants de Stanford • Devient en 1999 une société commerciale • En juin 2001, 620 millions de pages en totalité sur leurs disques • Classement par indice de popularité • En France Google.fr • Peu de publicité et beaucoup de nouveautés Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 40 /90

  41. Outils - essayer l ’outil • Nous cherchons de l ’information sur la musique baroque • Nous cherchons des informations sur le climat au Sénégal Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 41 /90

  42. Outils - Google 1 http://www.google.com/ Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 42 /90

  43. Outils - Google 2 http://www.google.com/ Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 43 /90

  44. Outils - Google mode d ’emploi • Minuscules/majusculesIdem • Ordre des motsImportant • OUOR • ETOpérateur par défaut • SAUF- • TroncatureNon • Recherche linguistique • Recherche sur le nom du sitesite • etc ... Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 44 /90

  45. Outils - robots généralistes • Simplicité d’utilisation • Couverture la plus complète • Mise à jour automatique et rapide • Amélioration constante • Bruit • Doublons non détectés • Hétérogénéité des réponses Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 45 /90

  46. Recherche d ’une source d ’information globale, un site sur mon sujet m ’intéresse. ANNUAIRE On recherche par exemple le site de Renault Recherche d ’une donnée précise ou pointue, elle sera mentionnée sur une page. MOTEUR Je recherche des information sur la Renault Clio Outils - lequel choisir ? Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 46 /90

  47. Outils - maîtriser l ’outil • Nous cherchons des informations sur la construction du Pont Butin à Genève Faire une recherche sur Yahoo et sur Google • Regardez les résultats et vous aurez une étendue des interprétations • Comparez les trois premiers résultats de chaque recherche Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 47 /90

  48. Tout n ’est pas sur Internet, Chercher sur Internet, c ’est comme chercher une aiguille dans une botte de foin, Le contrôle qualité n ’existe pas, Texte en pleine page sans notes, illustrations, tableaux … Sur les 1,5 millions de livres depuis 1970, seuls quelques milliers sur le WEB On ne consulte pas plus de 30 minutes un écran, La bibliothèque virtuelle ne suffit pas, La numérisation des documents coûte cher, Les documents sur le WEB n ’ont pas plus de 10-15 ans, 80% des personnes préfèrent acheter un livre plutôt que de consulter Internet. Internet ne remplace pas une bibliothèque ! Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 48 /90

  49. Du nom d ’un bâteau construit à Boston en 1851, ce nouveau moteur de recherche (1997) a des fonctionnalités innovantes. En ANGLAIS Résultats classés dans une dizaine de dossiers, les thèmes sont créés en fonction du sujet de la recherche. Egalement des moteurs spécialisés. Outils - Norhern Light Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 49 /90

  50. Outils - Norhern Light http://www.northernlight.com/ Trouver au lieu de chercher - Patrick Gay & Patrick Johner - AID avril 2002 50 /90

More Related