la fouille des flux d informations n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
La fouille des flux d'informations PowerPoint Presentation
Download Presentation
La fouille des flux d'informations

Loading in 2 Seconds...

play fullscreen
1 / 64
chiara

La fouille des flux d'informations - PowerPoint PPT Presentation

0 Views
Download Presentation
La fouille des flux d'informations
An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.

- - - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

  1. La fouille des flux d'informations Yves Lechevallier, Alzennyr Da Silva, Fabrice Rossi INRIA-AxIS, France Francisco De Carvalho CIn-UFPE, Brésil Rosanna Verde, Antonio Balzanella SUN,Italie

  2. Plan • Introduction/ Flux d’information • Fouille de flux de données • Classification de flux évolutifs • Extraction des données d’usage/ Web Mining • Classification de données évolutives • Détermination du nombre de classes • Conclusions AAFD 2010

  3. Introduction / Flux d’informations Aujourd'hui, dans de nombreux domaines, d’énormes quantités de données sont recueillies du fait de la rapide croissance des moyens d'acquisition de ces données. Par exemple:Les opérations financières, les données du Web, les consommations d'électricité, les données des capteurs à distance Les méthodes d’analyse des flux d’informations doivent résoudre les deux contraintes suivantes : • l'ensemble des données ne peut pas être stocké; • les résultats des analyses doivent être rapidement disponibles. AAFD 2010

  4. Définition d’un flux d’informations Un flux d’information est un échantillon de taille infinie d’unités de collecte zm=(tm,(xm,ym)) où • tm est l’instant de unité de collecte • xm est l’unité statistique ou l’étiquette de cette unité statistique • ym est le vecteur de description de cette unité de collecte xm est l’élément d’une population. On peut dire aussi que xm est un individu. AAFD 2010

  5. Flux d’informations A partir de ce flux d’informations si la population est finie on peut construire un échantillon Y(xm) sur chaque unité statistique xm de cette population. Y(xm)=((tm1,(xm1,ym1)), …, (tmi,(xmi,ymi)), ..) avec xml=xm et l=1,…,i,… Y(xm) est un flux de données si l’ensemble des unités de collecte associées à cette unité statistique est un échantillon de taille infinie, sinon c’est une série temporelle. AAFD 2010

  6. Plan • Introduction/ Flux d’information • Fouille de flux de données • Classification de flux évolutifs • Extraction des données d’usage/ Web Mining • Classification de données évolutives • Détermination du nombre de classes • Conclusions AAFD 2010

  7. Flux de données Un flux est un ensemble d’observations dont les valeurs réelles sont ordonnées par une grille temporelle discrète. • Flux de données univarié • Flux de données multivariés • Multiples flux de données univariés AAFD 2010

  8. Flux de données / Série temporelle L’échantillonnage de ce flux de données permet de modéliser ce flux par une série temporelle. Par exemple l’échantillonnage de Vitter permet de maintenir un échantillon de taille N sur ce flux de données. L’approche de Babcock permet de maintenir un échantillonnage intégrant une fonction d’oubli. AAFD 2010

  9. Flux de données / fenêtre Découpage du flux en fenêtres disjointes { AAFD 2010

  10. Fouille dans un flux de données L’objectif est d’extraire des connaissances à partir d’un flux de données, temporellement ordonné, et en évolution rapide; AAFD 2010

  11. Fouille dans un flux de données Contraintes des flux sur les méthodes de fouille de donnés • Temps réduit pour le traitement de nouvelles observations • Utilisation de peu de mémoire • Un seul passage des données • Les connaissances sur ce flux doivent être disponible en permanence et/ou sur demande. AAFD 2010

  12. Analyse d’un ensemble de flux de données Soit un ensemble de n flux de données où est un flux de données où les valeurs sont ordonnées par une discrète grille AAFD 2010

  13. Plan • Introduction/ Flux d’information • Fouille de flux de données • Classification de flux évolutifs • Extraction des données d’usage/ Web Mining • Classification de données évolutives • Détermination du nombre de classes • Conclusions AAFD 2010

  14. Classification d’un ensemble de flux de données • Trouver un ensemble de classes de flux de données homogènes formant une partition P=(C1,..,CK). • Chaque flux est affecté à une classe Ck • L’objectif est de maximiser l'homogénéité au sein de chaque classe et l'hétérogénéité entre ces classes. AAFD 2010

  15. Classification de flux évolutifs Cette classification doit • contenir des résumés des données • permettre de découvrir la structure de regroupement au cours du temps • détecter les changements dans les proximités entre les flux au cours du temps • être capable de faire face à l'évolution des flux de données. AAFD 2010

  16. Stratégie La stratégie de classification se décompose en trois étapes: On-line: • classification locale réalisée sur les fenêtres disjointes • Mise à jour de la matrice d’adjacence Off-line – à la demande des utilisateurs • Mise à jour de la partition en k classes de l’ensemble des flux de données. AAFD 2010

  17. Classification locale Sur chaque fenêtre la méthode des Nuées Dynamique est appliquée et fourni les résultats suivants: - une partition locale des flux - un ensemble local des prototypes (résumés des flux dans cette fenêtre) Partition locale Prototypes C1 C2 C3 AAFD 2010

  18. Mise à jour de la matrice A d’adjacence Pour chaque classe locale de la fenêtre courante: Sélectionner les paires (Yi,Yj) de flux classés dans la même classe locale. Pour chaque paire (Yi,Yj) ajouter la valeur 1 à A(i,j) et à A(j,i) de A. A(2,1)=A(2,1)+1 A(1,2)=A(1,2)+1 AAFD 2010

  19. Mise à jour du graphe Les nœuds du graphe sont les flux Les éléments de la matrice d’adjacence représente les nombre d’arêtes liant les deux flux. A = MATRICE D’ADJACENCE GRAPH AAFD 2010

  20. La partition globale A partir de cette matrice de proximités il est possible de construire une partition de cet ensemble de flux. Cette partition peut être obtenue par : • Une analyse (MDS) à partir de la matrice d’adjacence A • Puis faire K-means sur les coordonnées factorielles ou bien • Faire K-médoides ou une MDS sur la matrice des proximités AAFD 2010

  21. Analyse multidimensionnelle MDS génère une représentation d’un ensemble de points dans un espace de dimension plus réduite Sachant que la matrice d’adjacence A représente une similarité entre deux flux. Il est facile de transformer cette similarité en distance par: D(i,l) = MAX(A) - A(i,l) AAFD 2010

  22. K-means sur l’ensemble des projections des points dans cet espace réduit K-means donne une partition à partir de ces facteurs. AAFD 2010

  23. Fournir des résultats au cours du temps La stratégie de classification proposée est également en mesure de fournir la structure de classification sur des intervalles de temps spécifiés par l’utilisateur. Requête de classification { w90 w91 w92 w93 w94 w95 w96 w97 w98 w99

  24. Fournir des résultats au cours du temps A1 A3 La matrice d’adjacence A est stockée pour chaque fenêtre Fournir la classification dans l’intervalle de temps [32t ; 4t] Il faut calculer la matrice A(3,1) entre les matrices A1 et A3 par L’étape de classification off-line est appliquée sur cette matrice A(3,1)=A3-A1

  25. Exemples Classification On line sur deux ensembles de données Données sur la fourniture d’électricité Données financières 76 séries chronologiques de Yahoo Finance, qui représentent le prix quotidien de clôture des actions ordinaires . 179 séries chronologiques qui représentent la fourniture en électricité à plusieurs endroits en Australie.

  26. Validation interne Impact du nombre de classes locales sur deux indices de validation interne: Le nombre de classes dans les partitions locales n'a aucune influence sur les résultas de la classification finale en fonction des valeurs des deux indices (DB et CH)

  27. Plan • Introduction/ Flux d’information • Fouille de flux de données • Classification de flux évolutifs • Extraction des données d’usage/ Web Mining • Classification de données évolutives • Détermination du nombre de classes • Conclusions AAFD 2010

  28. Flux d’informations L’ensemble Y(xm) des unités de collecte associées à chaque unité statistique xm est fini. Les unités statistiques sont issues d’une population de taille infinie. Y(xm)=((tm1,(xm1,ym1)), …, (tmN,(xmN,ymN)) avec xml=xm et l=1,…,i,…N AAFD 2010

  29. Quelques mots sur le Web Mining Se décline en trois domaines d’application : • Web Content Mining (contenu des documents) • Web Structure Mining (structure des documents) • Web Usage Mining (comportement des utilisateurs) Motivations pour le Web Usage Mining : • Cache « intelligent » • Personnalisation des pages • Reconception du site • « Comprendre » l’internaute AAFD 2010

  30. Motivation • La plupart des méthodes du WUM (Web Usage Mining) prennent en compte toute la période qui enregistre les traces d’usage : • les résultats obtenus sont ceux qui prédominent sur la totalité de la période • Inconvénients : • certains types de comportements peuvent être ignorés par les méthodes classiques AAFD 2010

  31. Objectif • Réaliser une analyse portant sur des sous-périodes significatives de temps : • identifier le changement de comportement des utilisateurs • étudier l’évolution temporelle des profils de ces utilisateurs • Utilisation des résumés pour représenter les profils AAFD 2010

  32. Formatage des données d’usage Le clic est l’unité de collecte [remotehost] [name] [login] [date] [url] [status] [size] [referrer] [agent] • remotehost adresse électronique de l’utilisateur; cette adresse correspondant souvent au nom de domaine d’un serveur si l’utilisateur est connecté à internet via un fournisseur d’accès ou une entreprise • name/loginsupposent que l’utilisateur se soit lui-même identifié • datedate et heure précises de réception de la requête • URLadresse de la page visitée sur le site (www.<…>) • statuscode retour qui indique si l’action s’est bien déroulée • size indique la taille du fichier retourné • referrersignale l’adresse de laquelle a effectué la requête, la page de provenance • agentle navigateur et le type de système d’exploitation de l’utilisateur AAFD 2010

  33. Prétraitement de données Structuration et transformation des données (clic, session, navigation, url, etc.) Stockage de ces informations dans un entrepôt de données Tanasa & Trousse (Advanced Data Preprocessing for Intersites Web Usage Mining, IEEE Intelligent Systems, vol. 19, n° 2, pp. 56-65, April 2004) Tanasa’s Thesis (2005) AAFD 2010

  34. Plan • Introduction/ Flux d’information • Fouille de flux de données • Classification de flux évolutifs • Extraction des données d’usage/ Web Mining • Classification de données évolutives • Détermination du nombre de classes • Conclusions AAFD 2010

  35. Dans le cadre des flux de données Classification globale Notre proposition Classification locale temps (P1, P2, …, Pk) L’évolution des classes sera détectée en comparant la classification globale avec la classification locale Diviser la période analysée en sous périodes significatives : mois de l’année AAFD 2010

  36. Algorithme des Nuées dynamiques« k-means batch » (a) Initialisation Choisir K prototypes L1,...,LK distincts de L (b) Étape d’affectation Pour chaque objet si de E calculer l’indice l de la classe d’affectation qui vérifie (c) Étape de représentation Pourchaque classekrechercher le prototype LkdeLqui minimise Répéter (b) et (c) jusqu’à la convergence AAFD 2010

  37. Algorithme k-means On suppose que nous avons un échantillon de taille infinie.  A la réalisation xt nous ne disposons que de l'information connue sur l’échantillon de taille t . Initialisation Prendre K points de Une étape t de calcul On associe à la réalisation xt la classe k dont le représentant le plus proche On modifie le représentant de la classe k par avec nk est le nombre de réalisations déjà mises dans la classe k. condition d’arrêt il faut AAFD 2010

  38. Classification par sous-périodes de temps • Paramètres de l’algorithme: • Nombre de classes • Nombre maximum d’essais • Classifications non superviséesproposées: • Classification globale (CG) • Classification locale précédente (CGL1) • Classification locale dépendante (CGL2) • Classification locale indépendante (CLI) AAFD 2010

  39. Classification globale (CG) AAFD 2010

  40. Classification locale précédente (CGL1) AAFD 2010

  41. Classification locale dépendante(CGL2) . . . Neme sous-période 4eme sous-période 1ere sous-période 3emesous-période 2emesous-période P1, P2, …, P10 AAFD 2010

  42. Classification locale dépendante(CGL2) AAFD 2010

  43. Classification locale indépendante(CLI) AAFD 2010

  44. Comparaison des stratégies de classification AAFD 2010

  45. Analyse d’un site académique AAFD 2010

  46. Analyse des résultats par les prototypes • Pour comprendre l’évolution des classes par sous-périodes, nous avons: • réalisé un suivi des prototypes des classes (mois par mois) pour les classifications • Locale indépendante (CLI) • Locale dépendante (CLG2) • projeté ces prototypes dans le plan factoriel obtenu sur la population totale AAFD 2010

  47. Suivi des prototypes des classes Classification locale indépendante (CLI) Classification locale dépendante (CLG2) AAFD 2010

  48. Variance intra-classes (W) Variance intra-classes : indépendante (trait noir), dépendante (trait rouge) et globale (trait bleu). AAFD 2010

  49. Analyse des résultats par les partitions • Critères d’évaluation (validation interne): • Pour une analyse entre deux partitions • l’indice de Rand corrigé (Hubert et Arabie (1985)) • Pour une analyse classe par classe • F-mesure (van Rijsbergen (1979)) AAFD 2010

  50. Résultats avec l’indice de Rand corrigé AAFD 2010