1 / 17

Prétraitement et classification des données complexes dans le domaine du e-commerce

Prétraitement et classification des données complexes dans le domaine du e-commerce. Sergiu Chelcea, Alzennyr Da Silva, Yves Lechevallier, Doru Tanasa, Brigitte Trousse Projet AxIS INRIA Sophia Antipolis et Rocquencourt. Motivations.

Download Presentation

Prétraitement et classification des données complexes dans le domaine du e-commerce

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Prétraitement etclassification des données complexes dans le domaine du e-commerce Sergiu Chelcea, Alzennyr Da Silva, Yves Lechevallier, Doru Tanasa, Brigitte TrousseProjet AxIS INRIA Sophia Antipolis et Rocquencourt

  2. Motivations Présenter sur l'ensemble des données de clickstream proposé lors du challenge 2005 d'ECML/PKDD: - les bénéfices de notre méthode de prétraitement multi-sites, approche originalement proposé par Tanasa (thèse de doctorat 2005) et - les analyses d’une méthode de classification non supervisée (Lechevallier & Verde 2004) appliqué sur la notion de période de temps. FDC 2006

  3. Plan 1. Prétraitement multi-sites -construction des visites multi-sites des utilisateurs « Groupe de SessionIDs » - première analyse statistique multi-sites 2. Approche par la classification croisée - calcul du tableau de confusion entre les classes de période de temps et les classes de produits - analyses du magasin le plus visité : shop 4 3. Conclusions FDC 2006

  4. Description des données Ensemble des données clickstream : • 576 fichiers log = 3,617,171 requêtes sur un période de 24 jours ; • sept magasins différents concernant les sites du e-commerce de la République Tchèque ; • pages Web interconnectées ; • 5 tableaux décrivant l’information sur les produits, les magasins (shops), les types de produits, les catégories et les thèmes ; • Chaque requête contient le PHP SessionID généré automatiquement pour chaque nouvelle visite d’un utilisateur sur chaque serveur (IDs uniques). => sans visites intersites par les utilisateurs FDC 2006

  5. Prétraitement des données Tableau 1. Nombre de requêtes par magasin Données brutes: Tableau 2. Format de description des requêtes FDC 2006

  6. Prétraitement des données Tanasa & Trousse (IEEE Intelligent Systems 2004) Thèse Tanasa (2005) FDC 2006

  7. Prétraitement des données • Fusion et nettoyage des données Tableau 3.Format du fichier log transformé (après la fusion) • Structuration des données • Un SessionID représente une seule visite dans chaque magasin • La notion de visites intersites par les utilisateurs: • nous regroupons les SessionIDs qui appartenant au même utilisateur • (même IP) dans un « Groupe of SessionIDs ». • en comparantle champ Referer avec les URLs • accédés précédemment. • 522,410 SessionIDs ont été réunis dans 397,629 Groupes • ce qui constitue 23.88% de réduction FDC 2006

  8. Modèle relationnel de la base de données FDC 2006

  9. Analyse statistique sur des périodes temporelles classiques Fig. 1.Visites par jour et par heure: (a)globalement (b)multi-sites • Beaucoup de visites les mardis et les mercredis • Beaucoup devisites pendant l’heure du déjeuner • Très peu de nouvelles visites le samedi et le dimanche FDC 2006

  10. Classification d’un tableau de comptage en fonction des tranches horaires Approche dévelopée par Yves Lechevallier & Rosanna Verde (2004) Données: Sélection des pagesls du magasin 4 (le plus visité) FDC 2006

  11. Classification d’un tableau de comptage en fonction des tranches horaires Modèle relationnel BD: facile d’extraire un tableau de comptage Ligne: l’individu (un jour de semaine, une heure) 7 jours X 24 heures = 168 individus Colonne: une variable multi-catégories représente le nombre de requetes sur chaque produit demandé par les utilisateurs durant une période spécifique de temps FDC 2006

  12. Classification d’un tableau de comptage en fonction des tranches horaires Tableau 4. Quantité de produits enregistrés sur shop 4 en fonction du jour de la semaine et de l’heure FDC 2006

  13. Classification d’un tableau de comptage en fonction des tranches horaires Tableau 5. Tableau de confusion entre “période de temps” et “produit” 5084 31,8% 31492 46,8% 55652 36,8% 46322 35% 20477 34,3% 11240 57,7% 57,7% 11240 15019 33,1% FDC 2006

  14. Résultats de la classification d’un tableau de comptage en fonction des tranches horaires FDC 2006

  15. Classification d’un tableau de comptage en fonction des tranches horaires Exemple d’un résultat surprenant: La classe produit numéro 5 a été défini uniquement par le type de produit « Free standing combi refrigerators » qui a été consulté notamment les Vendredis entre 17:00 et 20:00 (classe période 6) 57,7% de ce type produit a été demandé durant cette période. Ces informations peuvent être très utiles pour les stratégies de vente comme: promotions rapides, vente croisée, pubs, etc. FDC 2006

  16. Conclusions 1. Prétraitement multi-sites - structuration des visites d’un utilisateur dans plusieurs sites: « Groupe de SessionIDs » - analyse statistique multi-sites 2. Classification en fonction des tranches horaires - application de cette méthode sur les données provenant des fichiers « logs » dans le domaine du e-commerce - résultats prometteurs FDC 2006

  17. Données Type de pages: FDC 2006

More Related