data mining concepts et techniques n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Data Mining: Concepts et Techniques PowerPoint Presentation
Download Presentation
Data Mining: Concepts et Techniques

Loading in 2 Seconds...

play fullscreen
1 / 30

Data Mining: Concepts et Techniques - PowerPoint PPT Presentation


  • 109 Views
  • Uploaded on

Data Mining: Concepts et Techniques. Plan du Cours. Introduction Règles d’association Classification et prédiction Regroupement (Clustering) Extraction de types complexes Applications du Datamining et tendances actuelles (génomique). Chapitre 1. Introduction.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Data Mining: Concepts et Techniques' - karleigh-carpenter


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
plan du cours
Plan du Cours
  • Introduction
  • Règles d’association
  • Classification et prédiction
  • Regroupement (Clustering)
  • Extraction de types complexes
  • Applications du Datamining et tendances actuelles (génomique)
chapitre 1 introduction
Chapitre 1. Introduction
  • Motivation: Pourquoi le Data mining?
  • Ce qu’est le Data mining?
  • Data Mining: Sur quels types de données?
  • Fonctionnalités du Data mining
  • Intérêt des motifs (patterns)
  • Classification des systèmes de Data mining
  • Problèmes rencontrés
motivation le besoin cr e l invention
Motivation: Le besoin crée l’invention
  • Problème de l’explosion de données
    • Les outils automatiques de collecte de données font que les Bases de Données (BD’s) contiennent énormément de données (Ex: La base de données des transactions d’un super marché)
  • Beaucoup de données mais peu de connaissances !
  • Solution: Data warehousing et data mining
    • Data warehousing et OLAP (On Line Analytical Processing)
    • Extraction de connaissances intéressantes (règles, régularités, patterns, contraintes) à partir de données
evolution des bases de donn es
Evolution des Bases de Données
  • 1960s:
    • Collecte des données, création des BD’s, IMS et le modèle réseau
  • 1970s:
    • Modèle et SGBD’s relationnels, SQL, transactions, OLTP
  • 1980s:
    • Modèles de données et SGBD’s avancés (relationnel étendu, OO, déductifs, etc.) et SGBD’s dédiés (spatial, génomique, engineering, etc.)
  • 1990s—2000s:
    • Data mining et data warehousing, BD’s multimédia, BD’s sur le WEB
ce qu est le data mining
Ce qu’est le Data Mining
  • Data mining :
    • Extraction d’informations intéressantes (non triviales, implicites, préalablement inconnues et potentiellement utiles) à partir de grandes bases de données.
  • Autres appellations:
    • ECD (Extraction de Connaissances à partir de Données)
    • KDD (Knowledge Discovery from Databases)
    • Analyse de données/patterns, business intelligence, fouille de données, etc …
pourquoi faire applications potentielles
Pourquoi faire ? Applications potentielles
  • Analyse de données et aide à la décision
    • Analyse de marché
      • Marketing ciblé, gestion des relations client, analyse des achats des clients, ventes croisées, segmentation du marché
    • Analyse de risque
    • Détection de fraudes
  • Autres Applications
    • Text mining : news groups, emails, documents Web.
    • Optimisation des requêtes
analyse de march et management 1
Analyse de marché et management (1)
  • Les sources de données à analyser ?
    • Transactions avec carte de crédit, carte de fidélité, sondages
  • Marketing ciblé
    • Trouver un « modèle » pour regrouper les clients partageant les mêmes caractéristiques. Pour chaque groupe, adopter une démarche marketing particulière
  • Analyse croisée
    • Associations/co-relations entre ventes de produits
    • Prédiction basée sur ces associations
applications
Applications
  • L’analyse d’une BD de transactionsd’un supermarché permet d’étudier le comportement des clients :
    • réorganiser les rayons
    • Ajuster les promotions
  • En VPC, regrouper les clients selon certains critères :
    • Cibler les « mailings »
  • L’analyse de données médicales :
    • Support pour la recherche
  • L’analyse de données financières :
    • Prédire l’évolution des actions
    • Organismes de crédit (dresser des profils de clients)
applications1
Applications
  • Détection de fraudes
    • en santé, services de cartes de crédit, télécommunications, etc.
  • Approche
    • Utiliser les données historiques pour construire des modèles de comportements frauduleux puis utiliser les techniques de datamining pour retrouver des instances similaires
  • Exemples
    • Assurances auto: détecter les personnes qui collectionnent les accidents et les remboursements
    • Blanchiment d’argent: détecter les transactions suspectes (US Treasury's Financial Crimes Enforcement Network)
applications2
Applications
  • Astronomie
    • Le laboratoire JPL a découvert 22 quasars en utilisant les techniques de datamining
  • Web
    • IBM a appliqué des algorithmes de data mining pour réorganiser leurs sites WEB afin de faciliter la navigation.
    • Améliorer le WEB marketing
datamining un processus dans l ecd
Datamining: Un processus dans l’ECD

Connaissance

Evaluation de patterns

  • Data mining: étape clé dans l’extraction de connaissances

Data Mining

Données intéressantes

Sélection

Data Warehouse

Nettoyage de données

Intégration

Bases de données ou fichiers

etapes du processus d ecd
Etapes du processus d’ECD
  • Comprendre le domaine d’application
  • Création d’un ensemble de données (sélection)
  • Nettoyage et pré-traitement des données (peut prendre 60% de l’effort)
  • Choix des fonctionnalités du data mining
    • classification, consolidation, régression, association, clustering.
  • Choix de(s) l’algorithme(s) d’extraction
  • Datamining: Recherche des motifs (patterns) intéressants
  • Evaluation des Patterns et présentation
    • visualisation, transformation, suppression des patterns redondants, etc.
  • Utilisation de la connaissance extraite
architecture typique d un syst me de data mining
Architecture typique d’un système de Data mining

Interfacegraphique

Evaluation des motifs

Module Data mining

Base de

connaissances

BD ouDatawarehouse

Nettoyage & intégration

Filtrage

Data

Warehouse

BD’s

datamining sur quels types de donn es
Datamining: sur quels types de données
  • BD’s relationnelles
  • Data warehouses
  • BD’s transactionnelles
  • BD’s avancées
    • BD’s objet et objet-relationnelles
    • BD’s spatiales
    • Séries temporelles
    • BD’s Textes et multimedia
    • BD’s Hétérogènes
    • WWW
fonctionnalit s du data mining
Fonctionnalités du Data Mining
  • On distingue deux grandes familles de tâches réalisées en datamining
    • Description : consiste à trouver les caractéristiques générales relatives aux données fouillées
    • Prédiction : consiste à faire de l’inférence à partir des données actuelles pour prédire des évolutions futures
quels types de motifs extraire 1
Quels types de motifs extraire ? (1)
  • Description de concepts: Caractérisation et discrimination
    • Caractérisation : Il s’agit de trouver des descriptions concises et précises de certains concepts. Ex: On a une table décrivant les clients d’une entreprise.
    • Contraster (régions sèches vs humides)
quels types de motifs extraire 2
Quels types de motifs extraire ? (2)
  • Association (corrélation et causalité)
    • age(X, “20..29”) & revenu(X, “200..300KF”) à achète(X, “PC”) [support = 2%, confiance = 60%]
    • contient(T, “ordinateur”) à contient(T, “logiciel”) [1%, 75%]
slide19

Quels types de motifs extraire ? (3)

  • Classification et Prédiction
    • Trouver des modèles (fonctions) qui décrivent et distinguent des concepts pour de futures prédictions
    • Ex : classifier les pays en se basant sur leurs climats, les voitures selon leurs carburants
    • Présentation: Arbres de décision, règles de classification, réseaux neuronaux
    • Prédiction: Prédire des valeurs inconnues
    • Démarche:
      • On prend un échantillon (jeu d’essai) dans lequel chaque objet est associé à une classe
      • Analyser chaque classe (son contenu) pour pouvoir ensuite affecter chaque objet nouveau à une classe particulière
quels types de motifs extraire 4
Quels types de motifs extraire ? (4)
  • Analyse de groupes (clusters)
    • Appelée aussi classification non supervisée
    • Le regroupement est basé sur le principe: maximiser la similarité intra-groupe et la minimiser entre groupes distincts
    • Le nom de chaque groupe est inconnu
slide21

Quels types de motifs extraire ? (5)

  • Analyse d’exceptions
    • Les objets non conformes à la tendance générale
    • Une exception peut être considérée comme du bruit mais aussi comme indice de fraude
  • Analyse de tendances
    • Tendance et déviation: analyse de régression
    • Extraction de séquences séquentiels, analyse de périodicités
est ce que tous les motifs d couverts sont utiles
Est-ce que tous les motifs découverts sont utiles?
  • Un système de data mining peut générer des milliers de motifs pas tous intéressants. C’est quoi un motif intéressant ?
  • Mesure d’intérêt : Un motif est intéressant s’il est facilement compréhensible, a un degré de certitude, nouveau, peut servir à valider (ou invalider) une hypothèse utilisateur
  • Mesure Objective vs. Subjective :
    • Objective: basée sur des mesures statistiques : support, confiance, etc.
    • Subjective: basée sur le point de vue de l’utilisateur sur les données, ex: le fait que cela soit inattendu, nouveauté, actionnabilité, etc.
peut on trouver tous et que les motifs int ressants
Peut-on trouver tous et queles motifs intéressants?
  • Trouver tous les patterns intéressants: Complétude
    • Association vs. classification vs. regroupement
  • Trouver que les patterns intéressants: Optimisation
    • Approches
      • D’abord les trouver tous puis filtrer
      • Ne générer que les motifs intéressants
data mining confluence de plusieurs disciplines
Data Mining: Confluence de plusieurs Disciplines

Statistique

Technologie BD

Data Mining

Apprentissage

Visualisation

Théorie de l’information

Autres

Disciplines

classification des syst mes 1
Classification des systèmes (1)
  • Fonctionnalité générale
    • Data mining descriptif
    • Data mining prédictif
  • Différentes vues, différentes classifications
    • Types de BD’s à fouiller
    • Types de connaissances à découvrir
    • Types de techniques utilisées
  • Application ciblée
classification des syst mes 2
Classification des systèmes (2)
  • BD fouillée
    • Relationnelle, transactionnelle, orienté-objet, object-relationnelle, active, spatiale, séries temporelles, texte, multi-media, hétérogènes, WWW, etc.
  • Connaissance recherchée
    • Association, classification, clustering, tendance, analyse de déviation, etc.
    • Multiples fonctions aux différents niveaux
  • Techniques utilisées
    • BD, data warehouse (OLAP), apprentissage, statistiques, visualisation, réseaux de neurones, etc.
  • Applications
    • télécommunication, banque, analyse de fraude, ADN, finance, Web, …
probl matiques
Problématiques
  • Méthodologie et interaction
    • Différents types de connaissances à extraire
    • Prise en compte des connaissances des experts
    • Langages de requête et data mining ad-hoc
    • Expression et visualisation des résultats
    • Prise en compte des données incomplètes ou avec bruit
    • Évaluation des motifs: notion d’intérêt
  • Performance et mise en échelle
    • Efficacité des algorithmes
    • Méthodes Parallèles, distribuées et incrémentales
  • Diversité des types de données
    • Relationnels, objets complexes, texte, …
r sum
Résumé
  • Data mining: Découverte de motifs intéressants à partir de grandes quantités de données
  • Une évolution naturelle de la technologie des SGBD, très demandée par diverses applications
  • Un processus d’ECD inclut les étapes: nettoyage, intégration, sélection, transformation, data mining, évaluation des patterns, présentation de la connaissance
  • La fouille peut se faire sur différents types d’entrepôts de données
  • Fonctionnalités: discrimination, association, classification, clustering, analyse de tendances, etc.
  • Classification de SDM
  • Problématiques du data mining
quelques syst mes
Quelques systèmes
  • Intelligent miner d’IBM (couplé avec le SGBD DB2)
    • Classification, association, régression, analyse de séquences, regroupement
  • Entreprise miner de SAS
    • Multiples outils d’analyse statistique, classification, …
  • Mine set de Silicon graphics.
    • Classification, association et divers outils statistiques. Très puissant en terme de visualisation
  • Clémentine de SPSS
    • En plus des fonctionnalités classiques, l’utilisateur peut y rajouter ses propres algorithmes
  • DBMiner de DBMiner technologie.
    • Il se distingue par le fait qu’il incorpore les fonctionnalités d’OLAP
bibliographie
Bibliographie

Titre: Datamining : Concepts and techniques.

Auteurs : Jiawei Han & Micheline Kamber

Editeur : Morgan Kaufmann 2000