chapitre 1 n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Chapitre 1 : PowerPoint Presentation
Download Presentation
Chapitre 1 :

play fullscreen
1 / 103

Chapitre 1 :

221 Views Download Presentation
Download Presentation

Chapitre 1 :

- - - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

  1. Chapitre 1 : Le Système d’information décisionnel : SID

  2. Enjeux des entreprises • Objectifs stratégiques • Améliorer les performances décisionnelles de l’entreprise. • Identifier les tendances du marché. • Connaître le passé pour anticiper sur le futur. • Simuler des situations. • Augmenter le rendement des actions commerciales. • Augmenter les services fournis. • Fidéliser sa clientèle. • Transformer les données du si en informations cohérentes et de qualités. • Meilleure connaissance de son activité. • Disposer d’un pilotage fiable. • Réaliser des analyses. • Présenter des statistiques. • Forer les informations.

  3. Enjeux des entreprises • Comment ? • En répondant aux demandes d’analyse des décideurs. • Réponses correctes et rapides • Exemple : • Clientèle : Qui sont mes clients ? Comment les conserver , les fidéliser ou les faire revenir ? Qui sont mes meilleurs clients depuis 5 ans. • Marketing : comment améliorer le ciblage de mes actions commerciales ? Ou placer ce produit dans les rayons. • Simuler les risques

  4. Enjeux des entreprises • Défi : • Transformer leur système d’information qui avait une vocation de production à un SI décisionnel dont la vocation de pilotage devient majeure: • Évoluer d’un SI production à un SI production + un SI décisionnel. ( Si = système d’information ).

  5. Problématique • Une grande masse de donnée : • Éparpillées • Volatiles • Incohérentes • Pas ou peu de données externes. • Pour une utilisation par : • Décideur • Pilotage par agrégats , investigations, analyses transversales • Gestionnaire • Préparation de décision, simulation… • Opérationnel • Accès à l’information élémentaires, requêtes adhoc • = utilisation par des NON INFORMATICIENS

  6. Problématique • Utilisation par des NON INFORMATICIENS : • Informations fiables et documentées. • Accès à l’information via des outils conviviaux et intuitifs. • Des temps de réponses acceptables.

  7. Métiers du décisionnel • SPM : Strategic performance management. • Déterminer et controler les indicateurs clé de la performance de l’entreprise. • FI : Finance intelligence. • Planifier, analyser et diffuser l’information financière. • Mesurer et gérer les risques. • CRM : Customer relationship management. • Améliorer la connaissance client. Identifier et prévoir la rentabilité client. • Accroître l’efficacité du marketing client. • SRM : Supplier relationship management. • Classifier et évaluer l’ensemble des fournisseurs. • Planifier et piloter la stratégie Achat.

  8. la solution : Le sid • L’ information courante et passée devient vitale pour l’ entreprise. • Toutes les données utiles , qu’ elles proviennent du système de production de l’entreprise ou qu’elles soient achetées vont devoir être : • Organisées dans un ensemble cohérent. • Intégrées. • Stockées. •  Pour constituer la mémoire de l’entreprise. • Modèle d’intégration •  Pour donner à l’utilisateur une vue intégrée et orientée métier de ces informations.

  9. la solution : le data warehouse • Le système d’information décisionnel : est un système d’information dédié aux applications décisionnelles : • En aval des bases de production ( des bases opérationnelles ) • En amont des prises de décision •  sid = data warehouse

  10. chapitre 2 : Définitions et objectifs du data warehouse.

  11. L’entrepot de données : data warehouse • Définition de Bill Inmon (1996) : • Le data warehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d’un processus d’aide à la décision. • Définition utilisateur : • Un ensemble de données organisées spécifiquement et utilisées pour l’aide à la décision. • Une transformation et une représentation intelligente des données en informations. • Un pole d’informations détaillées, fiables,historisées et facilement accessible et compréhensible.

  12. L’entrepot de données : data warehouse • Des données aux informations : • Exemple : • Le profil client à partir des données : - Emprunts - Épargne - Carte de crédit

  13. Les notions fondamentales : • Les données du data warehouse sont : • Orientées sujet. • Intégrées. • Non volatiles. • Agrégées en fonction du temps. • Documentées. •  Mémoire de l’entreprise

  14. orientées sujets • Disposer de l’ensemble des informations utiles sur un sujet le plus souvent transversal aux structures fonctionnelles et organisationnelles de l’entreprise. • Le data warehouse est organisé autour des sujets majeurs de l’entreprise. • Client ; contrat ; contrôle de gestion ; salariés ..ect • Structuration par thème. • A noter : les données des différents sujets seront intégrées dans un modèle de données unique.

  15. Données intégrées • Divers sources de données. • A noter : possibilité de source externe. • Il faut les collecter. • Elles ne sont pas structurées à l’identique. • Il faut les filtrer, les transformer,les contrôler,les synchroniser. • Chaque donnée doit avoir : • une seule définition. • Un seul codage. • Pas de redondance dans le modèle de donnée : • un attribut unique •  Afin de garantir : • Qualité de la donnée. • Cohérence des résultats.

  16. Données non volatiles • Ne pas supprimer les données du DW. • Les données sont datées. • Pas d’annule et remplace. • Historique : • On conserve les données détaillées avec un historique de plusieurs années • Objectif : analyser les tendances. • La nouvelle valeur d’une donnée fait passer l’ancienne en historique • Objectif : analyser à périmètre fonctionnel stable. • il faudra choisir les données à historiser.

  17. données agrégées en fonction du temps • Les données sont historisées pour suivre leurs évolutions. • Les données récentes : • sont disponibles en ligne. • Sont détaillées au niveau le plus fin. • Concernent des utilisateurs experts et peu nombreux. • Les données anciennes : • Ne sont plus disponibles en ligne au niveau détail le plus fin, mais néanmoins archivées. • Sont disponibles en lignes consolidées, agrégées. • Concernent la plupart des utilisateurs.

  18. données documentées : les metadonnées • Les métadonnées ou dictionnaire des données : • Description technique des processus. • Collecte : source et transformation des données. • Description technique des données. • Description utilisateurs des données. • Sémantique des données. • Règle de gestion. • Localisation. • Les métadonnées sont mises à disposition dans un ou des référentiels.

  19. données documentées : les metadonnées • Pour chaque colonne de chaque table : • L’origine ( en production ). • L’évolution : processus de transformation. • L’historique : date des changements. • La signification. • Ce référentiel sert : • Aux processus d’alimentation. • Aux utilisateurs.

  20. Sio / sid : des objectifs différents

  21. Chapitre 3 : Architecture du data warehouse

  22. Systèmes intermédiaires • L’ exploitation informationnelle des données de production est antérieure à l’apparition du sid. • Mise a disposition des décideurs, de données assimilées à des informations de pilotage via des systèmes intermédiaires : • Tableaux de bord opérationnels à partir du sio. • Outils de requêtes sur les données du sio. • Outils de requêtes sur des données dédiées et copiées à partir du sio. • Outils de requêtes sur des données dédiées, organisées à partir des données du sio •  ne sont pas un sid.

  23. Systèmes intermédiaires • Tableaux de bord opérationnels à partir du sio. • L’ application de production ne dispose que de ses propres données et n’ offre pas de vision informationnelle adaptée au périmètre du domaine d’analyse. • Toute nouvelle requête informationnelle : • Maintenance difficile, voir sur la structure des données. • Délai d’attente prohibitifs.

  24. Systèmes intermédiaires • outils de requêtes sur les données du sio. • Données hétérogènes et incohérentes. • Données non préparées à l’analyse décisionnelle. • Dépendance aux contraintes de la production. • Temps de réponse élevés. •  correspond à un outil de présentation adossé aux données de production.

  25. Systèmes intermédiaires • Outils de requêtes sur des données dédiées et copiées à partir du sio. • Avantage: • Données séparées entre les bases de production et les bases d’analyse. • Inconvénients : • Données hétérogènes et incohérentes. • Données non intégrées , non unifiées, non documentées • Difficulté d’écriture des requêtes. •  correspond à une organisation de type infocentre.

  26. Systèmes intermédiaires • Outils de requêtes sur des données dédiées et partiellement organisées. • Avantages: • Données séparées entre les bases de production et les bases d’analyse. • Bribes de modèle de données unifiées et organisées pour une analyse métier. • Inconvénients : • Pas de modèle de donnée complet. • Pas ou peu de transformation des données. • Pas ou peu de documentation. • Difficulté d’écriture des requêtes. •  correspond à une organisation de type infocentre évolué.

  27. architecture de référence du sid • Nécessite deux dispositifs distincts : • Entrepôt ou data warehouse : • Stockage des informations en un point unique. • Magasin de données ou Datamart : • Stockage des données nécessaires à l’analyse d’un thème (sujet ). • Un entrepôt unique. • N Datamart suivant les thèmes à analyser.

  28. architecture de référence du sid Données de production sci Entrepôt de données sdp datamart datamart …… datamart Outils de présentation Utilisateurs finaux

  29. architecture de référence du sid • Deux dispositifs distincts : • 1. Le système de collecte et d’intégration : • La Fonction de collecte assure l’ approvisionnement des données du sid à partir des données de production. • La Fonction d’intégration des données assure la cohérence globale et le stockage en un point unique.  stocke les données dans l’entrepôt de données.

  30. architecture de référence du sid • Deux dispositifs distincts : • 2. Le système de diffusion et de présentation : • La Fonction de diffusion met à disposition des applications décisionnelles les données sous une forme dimensionnelle. •  stocke les données orientées sujet dans un magasin de données. • La Fonction de présentation gère l’accès de l’utilisateur final aux données stockées sous forme dimensionnelle. •  puise les données dans les magasins de données ( datamart ). • Fonction assurée par les outils de présentation.

  31. l’entrepôt de données • Mémoire de l’entreprise. • Stockage des données en un point unique. • Données unifiées et documentées. • Modèle conceptuel de données classique : • Type entité/association. • Normalisé en 3éme forme normale.

  32. l’entrepôt de données • Partie la plus complexe et difficile du sid. • En autres : • Capture des données sans impacter le sio. • Mode d’alimentation globale. • Mode d’alimentation incrémentale. • Modèle conceptuel évolutif. (gestion du temps) • Volumétrie très importantes. • Charge de recette importantes. • Contrôle qualité des données avant chargement. • Temps de chargement. • Documentation • Procédure de reprise des données • ….

  33. datamart • Base de données thématique : • Stocke les données nécessaires à l’analyse du sujet. • Modéliser l’activité que l’on souhaite analyser. • Modélisation sous forme multidimensionnelle. • Modèle en étoile. • Modèle en Flocon. • Cube multidimensionnel. • Orienté utilisateur finale : • Compréhensible par l’utilisateur. • Temps de réponse acceptable.

  34. Architecture du sid • Dans un sid : • Un entrepôt de données unique. • Un ensemble de datamart par sujet à traiter.

  35. Chapitre 4 : Construction du data warehouse

  36. le système de Collecte et d’intégration : le sci • Objectif : alimenter le socle sur lequel repose le sid : • Socle = entrepôt de données. • L’ entrepôt de données est la base de données unique pour toutes les applications du système de diffusion et de présentation. • Le système sci : • La partie du sid la plus complexe. • Nombre de traitement important et lourd. • Prototypage de la solution finale difficile. • Ne doit pas perturber le système de production. • Architecture propre à chaque entreprise.

  37. le système de Collecte et d’intégration : le sci • Fonctions : • Extrait, transforme, unifie et charge les données à partir des sites de production. • Génération des niveaux d’agrégation. • Génération des règles de correspondance des méta données. • Génération des fichiers d’audit. • Technologie utilisée : • Code manuel. • Outils d’ extraction automatique : ETL • Etl = extract transformation loading

  38. le système de Collecte et d’intégration : sci • Conception : • Pour chaque table de l ’entrepôt : • Création de l’identifiant : • Les identifiants sont propres à l’entrepôt. • Pour chaque donnée de la table : • Recherche de la ou les données source dans le sio. • Définition des règles de transformation. • Définition des règles d’agrégation. • Définition de la périodicité de rafraîchissement. • Définition des règles et mode de contrôle des données avant intégration dans l’entrepôt de données.

  39. le système de Collecte et d’intégration : sci • Architecture technique : • Choix du mode de capture des données. • Localisation des traitements : • Machine sio et/ou machine sid • Procédure de contrôle des données. • Procédure de réfection des données.

  40. le système de Collecte et d’intégration : sci • Solution de collecte via un ods: • Ods : opérationnel data store : • Les applications de production « déversent « les données nécessaires au data warehouse dans un ensemble de fichiers normalisés. • L’ods sera la source de l’alimentation de l’entrepôt de données. •  permet une indépendance entre le monde de la production et le monde du décisionnel. •  simplifie la synchronisation des données entre les applications de production.

  41. le système de présentation • Le sdp est un ensemble d’applications destiné à répondre aux demandes d’information des utilisateurs : • États prédéfinis. • Requêtes paramétrables. • Requêtes adhoc ( non connues à l’avance). • Manipulation main libre. • Simulation. • Recherche de connaissance (corrélation des données; data mining) • Alertes. • Applications verticales.

  42. la modélisation dimensionnelle • Les Datamarts se modélisent sous forme multidimensionnelle : • Contient les informations destinées à répondre aux requêtes des utilisateurs. • objectifs datamart : • Accessibilité des informations : • Facile à comprendre, donc facile à utiliser. • Informations cohérentes : • Une seule réponse possible.(un seul chemin sql) • Incomplétude signalée. • Temps de réponse acceptable.

  43. la modélisation dimensionnelle • Différentes formes de modélisation. • Modèle en étoile. • Modèle en flocon. • Cube multidimensionnelle : olap

  44. Modèle en étoile • Datamart analyse des frais de déplacement des commerciaux par région et véhicule : Dimension employé Dimension véhicule Clé_employé Nom Prénom fonction Clé_véhicule Immatricula Puissance Marque Table de Faits 0,N 0,N Clé_employé Clé_région Clé_véhicule Clé_mois Frai_deplac Kilométrage Dimension mois Dimension région 0,N Clé_région Région pays Clé_mois Mois Trimestre Semestre annéé 0,N

  45. Modèle en étoile • Une association unique et des entités. • La Table de fait = Association unique. • Contient les faits ( mesure , indicateur ). Une information déterminée par la combinaison de deux ou plusieurs entités. • Les Tables entités = les Dimensions. • Contiennent les conditions : caractéristique d’ une entité susceptible d’intervenir comme critère de définition d’une requête.

  46. Modèle en étoile • Les questions : • Quels ont été les frais de déplacement et le kilométrage des commerciaux de la région pays de la loire ayant des véhicules de 12 à 14 cv en juillet 1996. • La liste des noms des commerciaux de la région pays de la loire ayant des véhicules de 12 à 14 cv avec, pour chacun, les frais de déplacement, le kilométrage, et la marque de véhicule pour juillet 1996. • La liste des régions avec, pour chacune, les frais de déplacements de l’année en cours. • La liste des véhicules ayant parcouru plus de 50 000 km cette année.

  47. Modèle en étoile • hiérarchies: • Exemple : Département,région,pays • Représente pour l’utilisateur des chemins de consolidations d’indicateurs. • Sont stockées dans les dimensions. • Résister à une normalisation sous forme entité association. • Modèle en flocon. • Une dimension peut comporter plusieurs hiérarchies.

  48. Modèle en étoile • le grain : • Le grain d’une dimension est le niveau de sélection le plus fin possible de cette dimension. • Le grain d’un datamart est le niveau de détail pouvant être obtenu par la requête la plus sélective et la plus fine possible mettant en jeu toutes les dimensions.

  49. Modèle en étoile • Propriété d’ additivité des faits : • Fait additif. • Additionnable suivant toutes les dimensions. • Fait semi-additif. • Additionnable seulement suivant certaines dimensions. • Fait non additif. • Non additionnable quelque soit la dimension.

  50. Modèle en étoile • Les règles de base : • Règle 1 : il ne doit pas y avoir de dépendance fonctionnelle entre deux entités appartenant à des dimensions différentes. • Règle 2 : Tous les faits doit etre définis d’une maniére cohérente pour toutes les combinaisons dimensionnelles. • Règle 3 : Tous les faits doivent etre définis pour le grain. • Règle 4 : le graphe de chaque dimension doit être acyclique.