1 / 46

Le Data Mining: Méthodologie

Le Data Mining: Méthodologie. Définition et introduction Principales applications Méthodologie du DM Exemples de fonctionnement. 1. Emergence du domaine. Workshops 1991, 1993, 1994 International Conf. on KDD and DM 1995, 1996, 1997, 1998, 1999

tomas
Download Presentation

Le Data Mining: Méthodologie

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Le Data Mining: Méthodologie Définition et introduction Principales applications Méthodologie du DM Exemples de fonctionnement

  2. 1. Emergence du domaine • Workshops • 1991, 1993, 1994 • International Conf. on KDD and DM • 1995, 1996, 1997, 1998, 1999 • Data Mining and Knowledge Discovery Journal (1997) • Special Interest Group Knowledge Discovery in Databases (1999) de l’Association for Computing Machinery (ACM)

  3. Métaphore • Par analogie à la recherche des pépites d ’or dans un gisement, la fouille de données vise : • à extraire des informations cachées par analyse globale • à découvrir des modèles (“patterns”) difficiles à percevoir car: • le volume de données est très grand • le nombre de variables à considérer est important • ces “patterns” sont imprévisibles (même à titre d ’hypothèse à vérifier)

  4. Définition • Data mining • ensemble de techniques d'exploration de données afin d'en tirer des connaissances (la signification profonde) sous forme de modèles présentés à l ’utilisateur averti pour examen Données entrepôt Connaissances Data mining Découverte de modèles Compréhension Prédiction

  5. Découverte de modèles x1 c Confiance x2 Entrées y x3 Sortie MODELE

  6. Training Data Découverte et Exploitation Data to Predict Mining Model DM Engine DM Engine Mining Model Mining Model Predicted Data

  7. Connaissances • Knowledge Discovery in Databases (KDD) • Processus complet d’Extraction de Connaissance des Données (ECD) • Comprend plusieurs phases dont le data mining • Exemples • analyses (distribution du trafic en fonction de l ’heure) • scores (fidélité d ’un client), classes (mauvais payeurs) • règles (si facture > 10000 et mécontent > 0.5 alors départ à 70%)

  8. Le processus de KDD

  9. Etapes du processus • 1. Compréhension du domaine d’application • 2. Création du fichier cible (target data set) • 3. Traitement des données brutes (data cleaning and preprocessing) • 4. Réduction des données (data reduction and projection) • 5. Définition des tâches de fouille de données • 6. Choix des algorithmes appropriés de fouille de données • 7. Fouille de données (data mining) • 8. Interprétation des formes extraites (mined patterns) • 9. Validation des connaissances extraites • (source : Fayyat et al., 1996, p. 1-34)

  10. Mécanismes de base • Déduction : base des systèmes experts • schéma logique permettant de déduire un théorème à partir d'axiomes • le résultat est sûr, mais la méthode nécessite la connaissance de règles • Induction : base du data mining • méthode permettant de tirer des conclusions à partir d'une série de faits • généralisation un peu abusive • indicateurs de confiance permettant la pondération

  11. 2. Domaines d'application • De plus en plus de domaines • explosion des données historisées • puissance des machines support • nombreux datawarehouses • OLAP limité • nécessité de mieux comprendre • rapports sophistiqués, prédictions • aide efficace aux managers

  12. Quelques domaines réputés • Analyse de risque (Assurance) • Marketing • Grande distribution • Médecine, Pharmacie • Analyse financière • Gestion de stocks • Maintenance • Contrôle de qualité

  13. Exemples • Targeted ads • “What banner should I display to this visitor?” • Cross sells • “What other products is this customer likely to buy? • Fraud detection • “Is this insurance claim a fraud?” • Churn analysis • “Who are those customers likely to churn?” • Risk Management • “Should I approve the loan to this customer?”

  14. Churn Analysis • Application de télécom • Bases de données des clients et des appels • Fichiers des réclamations • Qui sont les clients le plus susceptibles de partir ? • Application de techniques de DM • Fichiers de 1000 clients les plus risqués • 600 ont quittés dans les 3 mois

  15. Trading Advisor • Application boursière • conseil en achat / vente d'actions • Données de base • historique des cours • portefeuille client • Analyse du risque • Analyse technique du signal • Conseils d'achat – vente • Mise à disposition sur portail Web

  16. 1. Identifier le problème cerner les objectifs trouver les sources définir les cibles vérifier les besoins 2. Préparer les données préciser les sources collecter les données nettoyer les données transformer les données intégrer les données 3. Méthodologie -1

  17. 3. Explorer des modèles choisir une technique échantillonner sur un groupe valider sur le reste (5% à 1/3) calculer le  d ’erreurs 4. Utiliser le modèle observer la réalité recommander des actions 5. Suivre le modèle bâtir des estimateurs corriger et affiner le modèle Méthodologie - 2

  18. Explorer des modèles : SEMMA • Sampling = Échantillonner • tirer un échantillon significatif pour extraire les modèles • Exploration = Explorer • devenir familier avec les données (patterns) • Manipulation = Manipuler • ajouter des informations, coder, grouper des attributs • Modelling = Modéliser • construire des modèles (statistiques, réseaux de neuronnes, arbres de décisions, règles associatives, …) • Assessment = Valider • comprendre, valider, expliquer, répondre aux questions

  19. Prédit Observé Payé Retardé Impayé Total Payé 80 15 5 100 Retardé 1 17 2 20 Impayé 5 2 23 30 Total 86 34 30 150 Validation d’un modèle • Matrice de confusion • comparaison des cas observés par rapport aux prédictions • exemple : prédiction de factures impayées • Validité du modèle • nombre exacte (diagonale) / nombre totale = 120/150 = 0.80

  20. Principales Techniques • Dérivées • des statistiques (e.g., réseaux bayésiens) • de l'analyse de données (e.g., analyse en composantes) • de l'intelligence artificielle (e.g., arbres de décision, réseaux de neurones) • des bases de données (e.g., règles associatives) • Appliquées aux grandes bases de données • Difficultés : • passage à l'échelle et performance • fonctionnement avec échantillon > qq milliers • présentation et validation des résultats

  21. Intelligent Miner d'IBM modélisation prédictive (stat.), groupage, segmentation, analyse d'associations, détection de déviation, analyse de texte libre SAS de SAS Statistiques, groupage, arbres de décision, réseaux de neurones, associations, ... SPSS de SPSS statistiques, classification, réseaux de neurones Oracle 10g ODM SQL Server DM DB2 V8 4. Quelques produits

  22. SAS

  23. INPUT • Choix des variables

  24. SAMPLING • Choix du type d'échantillon

  25. INSIGHT • Analyse des données en 4D

  26. TRANSFORM • Transformation pour préparer

  27. PARTITION • Création de partition d'exploration parallèle

  28. REGRESSION • Sélection de la méthode de régression

  29. DECISION TREE • Construction d'un arbre par 2

  30. NEURONES • Spécification d'un réseau de neurones

  31. ASSESSMENT • Validation des résultats

  32. Approches • De multiples approches: • Statistiques • Classification • Clustering • Règles associatives • …

  33. Méthodes d'analyse Points dans Rn Points dans Rp

  34. Familles de méthodes Nuage de points Regroupement dans tout l'espace Visualisation dans Le meilleur espace réduit METHODES DE CLASSIFICATION, SUPERVISEE OU NON … METHODES STATISTIQUES ET FACTORIELLES

  35. 5. Méthodes statistiques • Quelques techniques de base • A la limite du DM • Calculs d'information sophistiqués

  36. FonctionsStatistiques • Espérance • permet de calculer la moyenne pondérée d'une colonne pi = 1/N par défaut • Variance • traduit la dispersion de la distribution de la v.a. autour de sa valeur moyenne. • Variable centrée réduite • Permet d'éliminer le facteur dimension

  37. Comptage de fréquence COUNT Extension aux calculs d'agrégats AVG, MIN, MAX, … Possibilité d'étendre au 3D Apporte une vision synthétique Diagrammes en bâtons

  38. Tableaux croisés(Vision 2D du Datacube) Effectif théorique = calculé par une loi de distribution (uniforme)

  39. Corrélation • Covariance • La covariance peut être vue comme le moment centré conjoint d'ordre 1 de deux v.a. • Si les deux v.a. sont indépendantes, alors leur covariance est nulle (mais la réciproque n'est pas vraie en général). • Coefficient de corrélation • Elimine le facteur dimension • mesure la qualité de la relation linéaire entre deux variables aléatoires

  40. Droite de régression Y = a X + b

  41. Test du 2 • Détermine l'existence d'une dépendance entre deux variables • Exemple : salaire d'embauche, niveau d'étude • Compare la distribution des variables par rapport à une courbe théorique supposant l'indépendance

  42. De nombreuses fonctions • Test t sur moyenne • ANOVA • Analyses de variance sophistiquées • Corrélation partielle • Régresion logistique • Séries chronologiques • Lissage exponentiel, Moyenne mobile, … • Comparaison • …

  43. Calculs en SQL • Introduction de fonctions d'agrégats • AVG = moyenne • MAVG = moyenne mobile • STDDEV = écart type • VARIANCE = variance • COVARIANCE = covariance • … • Exemple • SELECT COVARIANCE(SALAIRE_ACTU, SALAIRE_EMB) • FROM EMPLOYEE • WHERE GRADE = "ingénieur" • GROUP BY SEXE

  44. Statistiques: Conclusion • Calculs statistiques sur variables • Mono ou bi-variées • Résumé des données • Observation de dépendances • Peu de modèles prédictifs ... • La plupart sont faisables avec SQL OLAP • Extensions cube et rollup • Extensions avec fonctions d'agrégats

  45. Le data mining vise à découvrir des modèles à partir de grandes bases de faits connus (datawarehouse) Le processus de construction de modèles est complexe préparer les données modéliser 1/3 de la base valider sur 2/3 expérimenter plusieurs modèles Questions ? Quoi de nouveau par rapport à l'IA et aux statistiques ? 6. Conclusion

  46. DM, Stat., IA

More Related