1 / 29

Parcours sur Internet analyse des traces d’usage

Parcours sur Internet analyse des traces d’usage. Valérie Beaudouin - France Télécom R&D (DIH/UCE) : Valérie Beaudouin (resp. projet), Houssem Assadi, Thomas Beauvisage, Benoit Lelong, Christian Licoppe, Cezary Ziemlicki. - NetValue : Laurent Arbues. Plan de la présentation. Contexte

amina
Download Presentation

Parcours sur Internet analyse des traces d’usage

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Parcours sur Internet analyse des traces d’usage Valérie Beaudouin - France Télécom R&D (DIH/UCE) : Valérie Beaudouin (resp. projet), Houssem Assadi, Thomas Beauvisage, Benoit Lelong, Christian Licoppe, Cezary Ziemlicki. - NetValue : Laurent Arbues

  2. Plan de la présentation • Contexte • Points méthodologiques • Données de cadrage sur l’utilisation d’Internet • Exemple 1 : Utilisation des moteurs de recherche • Exemple 2 : Segmentation des internautes • Perspectives

  3. 1. Contexte (1) Objectif global : Développer une expertise dans l'analyse des usages d ’Internet en croisant : • Recueil et analyse du trafic Internet • Qualification des pages vues • Enquêtes auprès des internautes • Entretiens/observations in situ • // études sur la sociabilité téléphonique menées dans le laboratoire UCE • Décomposer l’activité de l’utilisateur derrière son écran pour recomposer des profils d’utilisateurs Difficultés  : Recueillir le trafic  : sondes sur le réseau, sur le poste de l’utilisateur, cookies…? Qualifier les contenus vus  : comment faire à partir d’une simple URL ? • identifier les types de services utilisés (communication, consultation, recherche, achat…(services utilisés, types de sites consultés) • Caractériser les pages visitées en terme de forme et de contenu : de quoi parlent les pages visitées, comment en parlent-t-elles ? Tenir compte de l’ensemble des protocoles  : Web, mail, messageries instantanées, FTP, NNTP…

  4. 1. Contexte (2) • Partenariat entre France Télécom R&D, NetValue et HEC en 2000-2001 • Exploitation les données du panel NetValue France en 2000 : • Une cohorte tirée d’un échantillon représentatif (pas un échantillon « maison ») • des données sur une longue période (pas une enquête ponctuelle) • des données « trafic » sur tous les protocoles Internet (pas seulement le Web) • des informations sur le client (pas une approche site centric) • Méthodes de traitement mises au point à FT R&D • Catégoriser les services (outil &CatService) pour analyser les usages • Croiser analyse des usages et profil des utilisateurs • Articuler les résultats quantitatifs avec des vagues d’entretiens quali, qui permettent de donner sens aux observations • Analyse fine des usages et comportements sur Internet (portails, moteurs de recherche, sites marchands, pages personnelles, outils de communication) pour  : • Apporter des éléments de compréhension sur les usages et leur évolution

  5. 2. Points méthodologiques • L’adresse d’un site est vide de sens => donner du sens aux URL • Catégoriser les URL qui correspondent à des services (&CatServices, H. Assadi)  : • Moteurs, WebMail, services des principaux portails… • Analyser les contenus des pages vues (Beaudouin, Fleury, Habert, Illouz, Licoppe, Pasquier, 2001) • Exploiter les annuaires du Web (Beauvisage, Assadi, 2002) • Créer une notion de session Internet qui intègre tous les protocoles Internet • pouvoir comparer des activités aux temporalités différentes (chat et mail) • tenter de rendre compte de l’activité de l’utilisateur Session  : suite d’activités sur le réseau sans interruption de plus de 30 minutes.

  6.  2. Point méthodologique  : session Internet Ce panéliste entre 12h55 et 14h43 a fait du web, a utilisé le Messager et envoyé un mail : on voit à travers ce simple exemple comment sont entrelacés les usages. => l’intégration de l’ensemble des protocoles est indispensable pour comprendre les usages. | pan_id | date | type | proto | duree | +--------+---------------------+------+----------+-------+ | 18829 | 2000-06-24 12:31:45 | Web | http | 8 | | 18829 | 2000-06-24 12:31:53 | Web | http | 12 | | | 18829 | 2000-06-24 14:43:12 | Web | http | 10 | | 18829 | 2000-06-24 14:43:22 | Web | http | 12 | | 18829 | 2000-06-24 17:32:05 | Web | http | 24 | | 18829 | 2000-06-24 17:32:29 | Web | http | 283 | | 18829 | 2000-06-24 18:32:33 | Web | http | 7 | | 18829 | 2000-06-24 18:32:58 | Web | http | 4 | | 18829 | 2000-06-24 18:49:26 | Web | http | 5 | | 18829 | 2000-06-24 18:49:31 | Web | http | 13 | | 18829 | 2000-06-24 19:07:24 | Web | http | 6 | | 18829 | 2000-06-24 19:07:30 | Web | http | 11 | | pan_id | date | type | proto | duree | +--------+---------------------+------+----------+-------+ | 18829 | 2000-06-24 12:31:45 | Web | http | 8 | | 18829 | 2000-06-24 12:31:53 | Web | http | 12 | | 18829 | 2000-06-24 12:32:25 | Autre| Messager | 4 | | 18829 | 2000-06-24 12:33:20 | Autre| Messager | 1925 | ………………………………………… | 18829 | 2000-06-24 12:55:31 | Autre| Messager | 563 | | 18829 | 2000-06-24 13:02:52 | Autre| Messager | 10 | | 18829 | 2000-06-24 13:03:57 | Autre| Messager | 6 | | 18829 | 2000-06-24 14:42:58 | Mail | sendmail | 0 | | 18829 | 2000-06-24 14:43:12 | Web | http | 10 | | 18829 | 2000-06-24 14:43:22 | Web | http | 12 | | 18829 | 2000-06-24 14:43:56 | Autre| Messager | 4 | | 18829 | 2000-06-24 17:32:05 | Web | http | 24 | | 18829 | 2000-06-24 17:32:29 | Web | http | 283 | | 18829 | 2000-06-24 17:32:46 | Autre| Messager | 3 | | 18829 | 2000-06-24 17:33:24 | Autre| Messager | 105 | | 18829 | 2000-06-24 18:32:33 | Web | http | 7 | | 18829 | 2000-06-24 18:32:58 | Web | http | 4 | | 18829 | 2000-06-24 18:33:27 | Autre| Messager | 45 | | 18829 | 2000-06-24 18:36:09 | Mail | recvmail | 0 | | 18829 | 2000-06-24 18:38:51 | Autre| Messager | 607 | | 18829 | 2000-06-24 18:39:24 | Autre| Messager | 6 | …………………………………………………… | 18829 | 2000-06-24 18:48:40 | Autre| Messager | 4 | | 18829 | 2000-06-24 18:48:49 | Autre| Messager | 5 | | 18829 | 2000-06-24 18:49:26 | Web | http | 5 | | 18829 | 2000-06-24 18:49:31 | Web | http | 13 | | 18829 | 2000-06-24 18:50:04 | Autre| Messager | 4 | | 18829 | 2000-06-24 19:06:11 | Mail | sendmail | 0 | | 18829 | 2000-06-24 19:07:24 | Web | http | 6 | | 18829 | 2000-06-24 19:07:30 | Web | http | 11 | | 18829 | 2000-06-24 19:08:01 | Autre| Messager | 4 |

  7. Le nombre de sessions Internet est stable au cours de l’année Le nombre d’internautes actifs diminue de mois en mois De 900 à 700 Le nombre moyen de sessions pour les internautes actifs progresse 5 sessions en moyenne par semaine contre moins de 4 en début d’année 3. Données de cadrage en 2000 Une distribution très inégale des usages d’Internet • 14% des internautes font 50% des sessions Deux trajectoires opposées  : • les très faibles utilisateurs voient leurs usages décroître • Les forts utilisateurs progressent

  8. Exemple 1 : Utilisation des moteurs de recherche • Usages des moteurs de recherche  : une approche centrée utilisateurs Houssem Assadi, Valérie Beaudouin Plan • Etat de l’art • Spécificité de notre démarche • Terminologie et méthode • Identité des moteurs • Typologie des utilisateurs selon les thèmes de recherche • Typologie des internautes selon leurs profils de session • Évolution  : diminution des usages des moteurs et complexification des requêtes

  9. Etude des usages des moteurs de recherche : état de l’art • Instituts de mesure d’audience : • analyse globale des portails : pas de détail sur l’utilisation des différents services, dont le moteur de recherche • analyses mensuelles  : pas d’évolution • Pas d’analyse du contenu des requêtes • Etudes centrées moteur (analyse des logs de serveurs) : • Analyse des requêtes adressées au moteur • Un moteur n’est pas représentatif de tous les moteurs • Aucune donnée sur les utilisateurs du moteur • Périodes d’observation courtes • Expérimentations de type psychologie cognitive : • Permet de comprendre la logique des stratégies de recherche • Sous-échantillons très atypiques (ex : étudiants en psycho) • Situations « artificielles » de recherche d’information  : tâches pré-définies par l’expérimentateur

  10. Notre approche • Cohorte représentative de la population connectée à Internet à domicile fin 1999 ; • Suivi des usages sur une année complète  : permet de mesurer les évolutions ; • Prise en compte de l’ensemble des moteurs de recherche du marché ; • Description fine du profil des utilisateurs  : données socio-démographiques et informations fines sur les pratiques d’Internet (calculées sur l’ensemble des données du panel) • Croisement entre des méthodes de statistique traditionnelle (utilisation des différents moteurs) et de statistique textuelle (analyse du contenu des requêtes)  => caractérisation des classes de requêtes par le profil des utilisateurs… • Croisement avec entretiens qualitatifs pour susciter et valider des hypothèses

  11. Identification des requêtes dans l’ensemble des pages Web visitées • Définitions : • Session  : séquence d’URL visitées sans interruption de plus de 30 minutes • Requête : une suite de mots-clefs adressée par un internaute à un moteur au cour d’une session Internet • Pages réponse : pages de réponses renvoyées par le moteur et consultées par l’internaute pour une requête donnée • Mot-clef  : « forme » au sens de la statistique textuelle (les opérateurs booléens ne sont pas considérés comme mots-clefs) • Opérateur  : opérateurs utilisés dans la requête (and, or, +, -, …) • Reconnaissance des requêtes moteur et pré-traitements  (logiciel &CatService) • Identification des URL correspondant à des requêtes (règles représentées sous forme d’expressions régulières) • Transcodage, reconnaissance des mots-clefs et des opérateurs Exemple : URL de départ : http://www.euroseek.net/query?ifl=uk&query=photoshop+AND+6+AND+t%E9l%E9charger&domain=world&domain=world&domain=world&lang=fr Requête transcodée : photoshop AND 6 AND télécharger Mots-clefs : photoshop 6 télécharger Opérateurs : AND (2)

  12. Données de cadrage sur les moteurs • 29 moteurs de recherche différents ont été utilisés par les internautes en 2000 • 100 000 requêtes sur 7,5 millions de pages vues (1,5%) en 2000 • Mais 20% de sessions Web avec requête moteur (31873 sur 161000 sessions) • 230 000 pages de réponses consultées : pour une requête, en moyenne deux accès aux pages de résultats • Intensité d’usage des moteurs corrélée à intensité d’usage d’Internet (non utilisateurs  : sur-représentation des femmes, des moins de 15 ans; forts utilisateurs  : sur-représentation des hommes)

  13. Identité des moteurs de recherche Extraction des mots clefs dans les requêtes Analyse avec les outils de statistique textuelle : Alceste et Lexico • Mots les plus fréquents (fréquence >150) dans les requêtes (hors mots grammaticaux): mp3, jeu, gratuit, com, sexe, paris, photo, carte, www, fr, nu, français, crack, video, sex, location, national, emploi, vente, pokemon, musique, annuaire, the, hotel<, histoire, immobilier, telephone, free, voyage, porte-avions, download, of, port+er, femme+, plan+, resultat+, recette+, informat+16, ecole+, eroti+, air+, telecom, driver, gite, image, lyon, gay, cours, logiciel, code, electif, voiture, universit, Rom, web, achat, marine, porno, chat, vacances, cinema, club+, petit+, dvd, gif, credit, site+, sncf, annonce+, caramail, star+, meteo, cd, automobile, formation, ecran, radio, tourisme, anpe, webcam, http, centre+, ministere, recherche, football, bac, nouvel+, game, page , ville, sport, travail, internet, fnac, clipart, warez, yahoo, social, lyric, concours, telecharger, prix, midi, genealogie, education, bourse, ile, jeune, programmer, cuisine.

  14. Altavista  : requêtes en anglais ; recherches informatique, musique, sexe  et jeux / hommes, anciens internautes Wanadoo  : confusion entre requête et adresses de sites / femmes, internautes récents Yahoo et Voilà  : profils d’usage proches mixte entre requêtes « vie pratique » et « culture Internet » (Yahoo plus de jeunes et d’anciens internautes que Voilà) Voilà et Wanadoo  : même moteur, profils d’usage différents La langue est un facteur de discrimination fort des thèmes de recherche : sexe, piratage, musique… mobilisent davantage l’anglais que la vie pratique. Positionnement des moteurs

  15. Segmentation en fonction des thèmes de recherche • Classification des internautes en fonction des mots clés qu'ils utilisent dans leurs requêtes. • Deux grandes classes émergent : • Classe "culture Internet" • Thèmes de recherche : multimédia, sexe, jeux et piratage. • Caractéristiques socio-démo : homme, < 24ans, étudiant, pas de revenus. • Usages : Web++, mail+-. • Classe "il y a une vie en dehors du Net" • Thèmes de recherche : vie pratique, tourisme, actualités. • Caractéristiques socio-démo : femme, 50-64 ans, prof. inter., ruraux • Usages : Web++, mail++. • Non utilisateurs des moteurs : • femme, moins de 15 ans, sans profession.

  16. Segmentation en fonction des thèmes de recherche (suite) • Analyse plus fine, 5 classes intéressantes parmi les utilisateurs de moteurs : • Multimédia  : homme, 15-24ans, anciens internautes, région parisienne. Utilisateurs des outils de communication (chat, Messagerie instantanée) • jeux/piratage (chanson, vidéo, jeu, mp3, crack, unreal, windows) : homme, 15-24 ans, étudiant, pas de revenus, < 15 ans. Mail+, Web++ • Sexe (nu, porno, gratuit, photo, sexe, nude) : homme, < 24ans, étudiant, pas de revenus. Mail-, Web+ • Vie pratique/idées (voyage, fiscalité, santé, marketing, beauté, humour, mort) : femme, 25-34 ans, prof. interm. Mail++, Web++ • "fourre-tout" (pratique, hobbies, ...) : 50-64 ans, retraité, ruraux. Mail++, Web++ • Actualités/politique (noms de pays, régions, institutions, événements) : aggl. de 2000-20000 habitants, 35-49 ans. Mail++

  17. Profil des sessions avec requête moteur • 20% des sessions Web avec au moins une requête moteur, parmi celles-ci : • 43% des sessions n’ont qu’une seule requête, 30% avec 2 ou 3. • 68% de sessions monomoteurs • 32% des sessions sont multimoteurs (avec 7, 5% de sessions avec un métamoteur)

  18. Typologie des internautes selon leur profil de sessions (1) • Utilisateurs de Wanadoo et Voilà : accès récent à internet / profil classe moyenne / sur-représentation des femmes. • Utilisateurs de Yahoo : étudiants / parisiens et plutôt anciens internautes. • Utilisateurs d’Altavista : hommes et anciens internautes. • Utilisateurs d’un seul moteur moins connu : très faibles utilisateurs des moteurs. • Multimoteurs : profil moyen • Profils mixtes : intenses utilisateurs des moteurs / surtout des hommes, des parisiens, et d’anciens internautes. 2/3 des internautes ont principalement utilisé un seul moteur 1/3 utilisent plusieurs moteurs dans leur sessions et/ou ont testé beaucoup de moteurs dans l’année. Clef de lecture : Le groupe Wanadoo, 29% des internautes, a utilisé les moteurs Wanadoo ou Voila dans plus de 85% de leurs sessions.

  19. Typologie des internautes selon leur profil de sessions (2) • L’intensification de l’usage des moteurs passe par une diversification des moteurs utilisés • Classe « autres moteurs »  : 15 requêtes en moyenne (12% du 4ème quartile) contre 32 pour la classe « profil mixte » (34% du 4ème quartile) • Croisement entre les deux typologies des internautes (en fonction des thèmes de recherche et du profil des sessions) • Les utilisateurs de Voilà/Wanadoo font plutôt des recherches « vie pratique » • Les internautes « profils mixtes » et « multimoteurs » plutôt orientés vers requêtes « culture Internet »

  20. Contexte Diminution de l’usage des moteurs Récents internautes  : deux courbes d’apprentissage Pas de « décollage » de l’usage pour les faibles utilisateurs des moteurs Apprentissage rapide  : profil similaire aux anciens internautes Évolution de la complexité des requêtes (1)

  21. Évolution de la complexité des requêtes (2) • Longueur moyenne des requêtes  : 1,88 mots-clefs • 87% des requêtes sans opérateurs booléens • 20% des faibles utilisateurs des moteurs (Q1) ont utilisé des opérateurs et ils en utilisent de moins en moins … • … alors que 90% des forts utilisateurs (Q4) en utilisent et en utilisent de plus en plus • Deux trajectoires d’apprentissage opposées

  22. Conclusion et perspectives • Meilleure connaissance sur les usages d’un des services phare d’Internet • Photographie d’une année d’utilisation des moteurs par un groupe représentatif • Chaque moteur a une identité propre • Les utilisateurs repèrent ces identités et choisissent leur moteur en fonction de leur recherche • L’utilisation avancée (=intense) des moteurs passe par l’exploration et la comparaison de l’offre et par l’utilisation des opérateurs booléens • Poursuivre sur les données NetValue 2001 l’analyse des usages • Effets de Google sur les usages (la diminution des usages des moteurs se maintient-elle ?) • Analyser les parcours avec requête moteur • Mener des entretiens qualitatifs et observation in situ pour comprendre la logique des usages

  23. 5. Exemple 2 : Segmentation des internautes • Identifier la diversité des pratiques des internautes en tenant compte de la diversité des protocoles utilisés Services retenus : • Web • Moteurs de recherche • Messagerie électronique classique ou via le Web (WebMail) • Chat • Messagerie Instantanée • Forum

  24. Utilisation des différents services • Web et mail sont utilisés par tous les internautes. • Chat, Messagerie instantanées et forums ne sont utilisés que par un quart des internautes. • La durée des sessions varie considérablement selon service utilisés. • Le mail classique se pratique plutôt en mode déconnecté contrairement au chat qui implique une co-présence, donc connexion

  25. Construire une typologie des internautes • Définir un ensemble de services, protocoles • Profil des sessions (présence/absence d’un service) • Profil des internautes (part des sessions avec accès au service • Analyse factorielle et classification ascendante hiérarchique Sept groupes d’internautes

  26. 46% des internautes 15% des sessions Information Communication sessions avec entrelacement de services (26% web-mail-IM) 15-24 ans Segmentation des internautes 54% des internautes, 85% des sessions WWW

  27. Une pluralité de profils • Les faibles utilisateurs du Web vs les utilisateurs intensifs • Faibles utilisateurs ont peu de contacts, or les liens ancrent les usages d’Internet • Les internautes « chercheurs » vs les internautes « communicants » Les internautes « communicants » • Utilisateurs du mail (milieu aisé) vs utilisateurs du chat et messageries instantanée (milieu modeste)  : importance de l’opposition entre les modes « conversationnel » et « connecté » (Licoppe) • 15-24 ans  : habileté à entrelacer usages du Web, du mail et des messageries instantanées (26% des sessions)

  28. Typologie et caractéristiques socio-démographiques • Trois groupes de forts utilisateurs (53% des internautes, 85% des sessions) Utilisateurs intensifs du Web Groupe “Courrier” : utilisation du mail classique ou WebMail Groupe “Conversation” : utilisation du Web, du mail et des messageries instantanées ou chat • Femmes et jeunes : fortement impliqués dans pratiques de communication, jeunes surtout dans chat et messageries instantanées • Avec l’âge : glissement de la communication vers la recherche d’information • Cadres et PIS : rejet des pratiques de conversation sur internet, au bénéfice du courrier (attachement au contenu, à la forme)

  29. 6. Prolongement  : SensNet • SensNet : catégoriser les usages et les parcours sur Internet • Projet RNRT • Partenaires  : FT R&D, NetValue, LIMSI, Paris III • Mettre en place d’un système de catégorisation sémantique des usages et des parcours sur Internet qui tienne compte : • de la diversité des types d’activité possibles sur Internet (communiquer, rechercher de l’information, consulter, acheter) => crucial pour des sites portails qui agrègent une grande diversité de services • de la dimension hypermédia d’internet : tenir compte de l’organisation formelle des documents, de la structure hypertextuelle, des medias autres que le texte=> l’organisation formelle des documents informe sur les contenus • de laproduction et de la réception dans l’analyse des pages vues : • la page est une composante d’un site qui révèle le projet de son concepteur • la page s’inscrit dans un parcours d’utilisateur qui révèle sa logique de navigation • Rencontrer les internautes pour comprendre la logique de leurs parcours • pour aboutir à des segmentations fines des internautes sur la base de leurs parcours

More Related