1 / 48

Fouilles de Données Introduction à la fouille de donn é es

Fouilles de Données Introduction à la fouille de donn é es. Christelle Scharff IFI Juin 2004. Exemples. http://www.amazon.fr Le panier de la ménagère Connaissez-vous?. Questions. Est-ce une bonne idée de faire de la publicité de musique rap dans des magazines pour personnes âgées?

vonda
Download Presentation

Fouilles de Données Introduction à la fouille de donn é es

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Fouilles de DonnéesIntroduction à la fouille de données Christelle Scharff IFI Juin 2004

  2. Exemples • http://www.amazon.fr • Le panier de la ménagère • Connaissez-vous?

  3. Questions • Est-ce une bonne idée de faire de la publicité de musique rap dans des magazines pour personnes âgées? • Est-ce que vous saviez que les compagnies de cartes de crédit peuvent suspecter un vol de carte, même si le propriétaire de la carte n’est pas encore au courant? • Est-ce que vous savez pourquoi les entreprises liées à la bourse sponsorisent les tournois de golfs télévisés?

  4. Plan et objectifs • Comprendre ce qu’est la FDD? • KDD • Modèles • Applications de la FDD • Recherche en FDD

  5. Données et information • Les entreprises produisent des quantités énormes de données • Sources: affaires, science, géographie, environnement… • Les données sont des ressources de valeur • Besoin de techniques pour analyser les données et extraire des informations / connaissances automatiquement • Données = faits • Information = modèle / motif (pattern) dans les données

  6. Fouille de données (FDD) • Fouille / découverte de connaissances dans les données ou création d’un modèle des données • Processus qui emploie des techniques d’apprentissage automatiques et intelligentes pour analyser et extraire des connaissances, de grandes quantités de données • 98% de ce que les humains apprennent proviennent de reconnaissance des formes [Kurzwell]

  7. Pourquoi la FDD maintenant? • Des machines plus puissantes • Existence d’algorithmes de fouille de données • Collections et sauvegardes des données améliorées • Domaine à la confluence de différents domaines: base de données, statistiques, intelligence artificielle, visualisation, parallélisme… • Domaine pluridisciplinaire

  8. KDD* • Découverte de connaissances dans les données (KDD) • Application de méthodes scientifiques à la fouille de données • Le processus de KDD est composé de: • Sélection des données • Pré-traitement des données • Transformation des données • La fouille de données • Interprétation et évaluation des modèles

  9. Modèles pour KDD • SEMMA • Échantillonner • Explorer • Modifier • Modeler • Évaluer • SAS

  10. Systèmes pour la FDD* • Composition: • Bases de données, entrepôts de données… • Serveurs de bases de données ou d’entrepôts de données • Bases de connaissances • Engins de fouille de données • Modules d’évaluation du modèle • Interfaces graphiques pour l’utilisateur

  11. Apprendre • Apprendre quelque chose de nouveau • Faits (vrais ou faux) • Concepts • Ensembles de symboles, objets et évènements groupés parce qu’ils partagent les même caractéristiques • Procédures • Cours d’actions réalisées étape par étape pour atteindre un but • Principes • Plus haut niveau d’abstraction • Règles ou vérités qui sont les bases pour d’autres vérités

  12. Apprentissage supervisé • Modèle inductif où l’apprenant considère un ensemble d’exemples, et infère l’appartenance d’un objet à une classe en considérant les similarités entre l’objet et les éléments de la classe • Les classes sont étiquetées préalablement (sports et loisirs, art et culture…) • La plupart des algorithmes (classification, estimation, prédiction) utilisent l’apprentissage supervisé

  13. Apprentissage non supervisé • Construction d’un modèle et découverte des relations dans les données sans référence à d’autres données • On ne dispose d'aucune autre information préalable que la description des exemples • La segmentation, le regroupement (cluster), la méthode des k-moyennes et les associations sont des méthodes d’apprentissage non supervisées

  14. Concepts / Modèles • Les concepts sont les résultats de la fouille de données • Ils montrent les relations dans les données ou groupent des éléments fondés sur leur ressemblance • Structures: • Arbres de décision • Règles • Réseaux de neurones • Équations mathématiques… • Parfois, pas de réelles structures • Exemples / Instances • Regroupements (clusters)

  15. Exemples de modèles • Vue classique: • Si salaire annuel >= 30,000 et années de service >= 5 et propriétaire = vrai alors risque de défaut de paiement = faux • Age(X, “jeune”) et Salaire(X,”élevé”)  Classe(X,”A”) • Vue probabilistique: • La plupart des personnes qui ont un bon crédit sont propriétaires

  16. Exemples de modèles • Vue exemplaire: • Un exemple est déterminé comme une instance d’un concept • Les exemples suivants sont considérés comme ayant un bon crédit: • Salaire = 32,000, années = 6, propriétaire • Salaire = 52,000, années = 16, locataire

  17. Exemples de modèles • Les exemples peuvent être présentés par des tables:

  18. Exemples de modèles • Diagrammes: • Histogramme • Camembert • Arbre de décision • Cube de données

  19. Applications: Grande Distribution

  20. Application: Assurances

  21. Application: Banques

  22. Application: Banques

  23. Application: Banques

  24. Application: Bourse • Analyse du cours de la bourse pour pouvoir passer des ordres automatiques de transactions boursières

  25. Application: Production Industrielle

  26. Application: Internet

  27. Application: Sport • Le système SCOUT d’IBM analyse les matches de baskets de la NBA pour faire gagner les Knicks de New York

  28. FDD: Sur quelles données? (1) • Base de données relationnelles • Base de données transactionnelles • Base de données orientées objets • Base de données relationnelles objets • Base de données temporelles • Exemple: Bourse

  29. FDD: Sur quelles données? (2) • Base de données spatiales • Exemples: Images provenant de satellites, cartes géographiques • Base de données hétérogènes • Base de données “héréditaires” • Entrepôts de données* • Base de données textuelles • Les données sont décrites par des mots • Exemples: La toile, le courrier électronique, les pages html/xml

  30. FDD: Sur quelles données? (3) • Base de données multimédia • Des techniques de recherche et de stockage avancées sont nécessaires • La toile / Internet • Besoins de techniques particulières à chaque type de données pour la fouille de données

  31. OLTP / OLAP / FDD / Systèmes Experts / Statistiques • OLTP • OLAP • FDD • Données  Technique de FDD  Modèle(s) • Systèmes experts: Programmes qui simulent les habilités de résolution de problèmes dans des domaines spécifiques • Expert (humain), ingénieur, scientifique  Système Expert  Modèle • Statistiques • Obtention de modèles paramétrés, les données pour les estimations et la validité des estimations sont les même, les données présentes sont les seules considérées

  32. On ne peut pas tout faire…et tout n’est pas de la FDD • La FDD offre des outils et des méthodologies qui peuvent aider à comprendre les données et faire des prédictions • Mais: • Il n’y a pas de solution générale et complètement automatique • Les techniques doivent être adaptées au problème considéré • La FDD doit être comprise • La FDD ne remplace pas les experts, mais les assiste

  33. FDD: Vrai ou faux? • Liste des produits vendus pendant le premier semestre 2003 par le supermarché AUCHAN • Total des ventes de produits de AUCHAN en 2003 • Les personnes qui achètent un ordinateur achètent parfois une imprimante en même temps • Les hommes de moins de 25 ans répondent aux offres X avec une probabilité de 90%

  34. Classification des fonctions de la FDD • Les fonctions de la FDD sont classées en 2 catégories: • Les fonctions descriptives • Description des propriétés des données • Les fonctions prédictives • Inférence sur les données pour faire des prédictions

  35. Les fonctions de la FDD: Classification et Prédiction • Classification et prédiction • Diviser / grouper les instances dans des classes spécifiques pour des prédictions futures • Prédire des valeurs (classes) inconnues ou manquantes • Exemples: • Les clients loyaux / les clients non-loyaux • Les transactions frauduleuses / les transactions générales • Prédire les taux de réponses à une offre • Algorithmes: • Arbres de décision, règles de classification, classification Bayésienne, algorithmes génétiques, algorithme des k plus proches voisins, l’approche Rough Sets, régression linéaire et non linéaire

  36. Les fonctions de la FDD: Regroupement (Cluster) • Regroupement d’éléments de proche en proche fondé sur leur ressemblance • Les classes sont inconnues, et sont donc créées • Exemple: • Segmentation du marché • Algorithmes: • K-moyennes • Réseaux neuronaux

  37. Les fonctions de la FDD:Associations • Mise en relation des données • Exemples: • Le panier de la ménagère: • Les personnes qui achètent des chips achètent aussi du coca-cola • Age(X, “20…29”) et Salaire(X, “20000…29000”)  Achete(X,”PC”) [ support = 2%, confidence = 60%] • L’algorithme A Priori pour obtenir des règles d’association

  38. Les fonctions de la FDD: Caractérisation et Discrimination • Caractérisation: Généralise les données d’une classe • Exemple: • Général profil des régions pluvieuses • Discrimination: Compare les données d’une classe avec une ou plusieurs classes (de comparaison) • Gestion des anomalies • Exemple: • Les ventes de logiciels qui ont augmenté de 10% par rapport à celles qui ont augmente de 30%

  39. Évaluation des modèles (1) • Génération d’un grand nombre de modèles • Le modèle est-il intéressant? • Mesures d’intérêt d’un modèle: • Nouveau • Facile à comprendre • Valide sur de nouvelles données (avec une certaine mesure de certitude) • Utile • Confirme (ou infirme) les hypothèses d’un expert

  40. Évaluation des modèles (2) • Évaluation d’un modèle • subjective (expert) • objective (statistiques et structure des modèles) • Peut-on trouver tous les modèles? (Complétude) • Peut-on générer seulement les modèles intéressants? (Optimisation) • Génération de tous les modèles et filtrage suivant certaines mesures et caractéristiques • Non réaliste • Générer seulement les modèles vérifiant une condition particulière

  41. Mesure pour l’évaluation des modèles • Exemple des règles d’association X Y • Support (X Y ) = P(X et Y) • Confidence ( X Y ) = P (Y | X) = P (X et Y ) / P(X) • Exemple: Age(X, “20…29”) et Salaire(X, “20000…29000”)  Achète(X,”PC”) [ support = 2%, confidence = 60%]

  42. Construction et évaluation d’un modèle • Les données sont séparées en 3 ensembles: • Ensemble d’entraiment • Ensemble de validation • Ensemble test

  43. Logiciels • Logiciels très sophistiqués • Weka (installé pour vous à l’ IFI) • Dbminer • Xlminer • SQL Server 2000 • …

  44. Recherche en FDD (1) • Méthodologies de FDD et interaction avec l’utilisateur: • Découvrir différentes sortes de connaissances dans les données • La FDD interactive • Incorporation d’un ensemble de connaissances particulières • Langage de FDD (tel que SQL, DMQL) • Présentation et visualisation des résultats • Traitement du bruit et des données incomplètes • Évaluation du modèle

  45. Recherche en FDD (2) • Performance • Efficacité et adaptabilité des algorithmes de FDD • Algorithmes incrémentaux et parallèles • Diversité des types de données • Données relationnelles et données complexes • Bases de données hétérogènes…

  46. Exercice (1) • Problème: Améliorer le processus d’acceptation et de rejet des crédits pour diminuer les pertes dues aux défauts de paiements • Les étapes • Les données • Définir les objectifs • Traduire le problème en un problème de fouille de données

  47. Exercice (2) • Prédire si un client va être en défaut de paiement ou pas (Classification) • Prédire les profits escomptés résultant de l’ajustement des défauts de paiement (Estimation et prédiction) • Sont à prendre en compte: • Le domaine d’application • Les données considérées • Le(s) modèle(s) que l’on veut générer • Les techniques que l’on veut/doit utiliser

  48. Références • J. Han, and M. Kamber. Data Mining Concepts and Techniques. Morgan Kaufmann. • http://depinfo.u-bourgogne.fr/DESS-BDIA/DataMining/DataMining.ppt

More Related