1 / 81

数据仓库与数据挖掘综述

数据仓库与数据挖掘综述. 概念、体系结构、趋势、应用. 报告人:朱建秋 2001年6月7日. 提纲. 数据仓库概念 数据仓库体系结构及组件 数据仓库设计 数据仓库技术(与数据库技术的区别) 数据仓库性能 数据仓库应用 数据挖掘应用概述 数据挖掘技术与趋势 数据挖掘应用平台(科委申请项目). 数据仓库概念. 基本概念 对数据仓库的一些误解. 基本概念— 数据仓库.

adler
Download Presentation

数据仓库与数据挖掘综述

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 数据仓库与数据挖掘综述 概念、体系结构、趋势、应用 报告人:朱建秋 2001年6月7日

  2. 提纲 • 数据仓库概念 • 数据仓库体系结构及组件 • 数据仓库设计 • 数据仓库技术(与数据库技术的区别) • 数据仓库性能 • 数据仓库应用 • 数据挖掘应用概述 • 数据挖掘技术与趋势 • 数据挖掘应用平台(科委申请项目)

  3. 数据仓库概念 • 基本概念 • 对数据仓库的一些误解

  4. 基本概念—数据仓库 • Data warehouse is a subject oriented, integrated,non-volatile and time variant collection of data in support of management’s decision ——[Inmon,1996]. • Data warehouse is a set of methods, techniques,and tools that may be leveraged together to produce a vehicle that delivers data to end-users on an integrated platform ——[Ladley,1997]. • Data warehouse is a process of crating, maintaining,and using a decision-support infrastructure ——[Appleton,1995][Haley,1997][Gardner 1998].

  5. 基本概念—数据仓库特征 [Inmon,1996] • 面向主题 • 一个主题领域的表来源于多个操作型应用(如:客户主题,来源于:定单处理;应收帐目;应付帐目;…) • 典型的主题领域:客户;产品;交易;帐目 • 主题领域以一组相关的表来具体实现 • 相关的表通过公共的键码联系起来(如:顾客标识号Customer ID) • 每个键码都有时间元素(从日期到日期;每月累积;单独日期…) • 主题内数据可以存储在不同介质上(综合级,细节级,多粒度) • 集成 • 数据提取、净化、转换、装载 • 稳定性 • 批处理增加,仓库已经存在的数据不会改变 • 随时间而变化(时间维) • 管理决策支持

  6. 基本概念—Data Mart, ODS • Data Mart • 数据集市 --小型的,面向部门或工作组级数据仓库。 • Operation Data Store • 操作数据存储 —ODS是能支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境, 是DW 扩展后得到的一个混合形式。四个基本特点:面向主题的(Subject -Oriented)、集成的、可变的、 当前或接近当前的。

  7. 基本概念—ETL, 元数据,粒度,分割 • ETL • ETL(Extract/Transformation/Load)—数据装载、转换、抽取工具。Microsoft DTS; IBM Visual Warehouse etc. • 元数据 • 关于数据的数据,用于构造、维持、管理、和使用数据仓库,在数据仓库中尤为重要。 • 粒度 • 数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度越小。 • 分割 • 数据分散到各自的物理单元中去,它们能独立地处理。

  8. 对数据仓库的一些误解 • 数据仓库与OLAP • 星型数据模型 • 多维分析 • 数据仓库不是一个虚拟的概念 • 数据仓库与范式理论 • 需要非范式化处理

  9. 提纲 • 数据仓库概念 • 数据仓库体系结构及组件 • 数据仓库设计 • 数据仓库技术(与数据库技术的区别) • 数据仓库性能 • 数据仓库应用 • 数据挖掘应用概述 • 数据挖掘技术与趋势 • 数据挖掘应用平台(科委申请项目)

  10. 数据仓库体系结构及组件 • 体系结构 • ETL工具 • 元数据库(Repository)及元数据管理 • 数据访问和分析工具

  11. Warehouse Admin. Tools Extract, Transform and Load Local Metadata Central Metadata Data Modeling Tool Local Metadata Data Extraction, Transformation, load 体系结构[Pieter ,1998] Mid- Tier Relational Central Data Warehouse Appl. Package Data Mart Mid- Tier Local Metadata RDBMS Legacy Metadata Exchange Data Mart External Data Cleansing Tool RDBMS MDB End-User DW Tools Source Databases Central Data Warehouse Architected Data Marts Data Access and Analysis

  12. Warehouse Admin. Tools Relational Extract, Transform and Load Appl. Package Legacy MDB Local Metadata Central Metadata External Data Modeling Tool Data Cleansing Tool Local Metadata Hub - Data Extraction, Transformation, load 带ODS的体系结构 ODS OLTP Tools Mid- Tier Central Data Warehouse Data Mart Mid- Tier Local Metadata RDBMS Metadata Exchange Data Mart RDBMS End-User DW Tools Source Databases Central Data Ware- house and ODS Architected Data Marts Data Access and Analysis

  13. 现实环境—异质性[Douglas Hackney ,2001] i2 Supply Chain Oracle Financials Siebel CRM 3rd Party e-Commerce Packaged Oracle Financial Data Warehouse Custom Marketing Data Warehouse Packaged I2 Supply Chain Non- Architected Data Mart Subset Data Marts

  14. 联合型数据仓库/数据集市体系结构 i2 Supply Chain Oracle Financials Siebel CRM 3rd Party e-Commerce Common Staging Area Real Time ODS Federated Financial Data Warehouse Federated Marketing Data Warehouse Real Time Data Mining and Analytics Federated Packaged I2 Supply Chain Data Marts Real Time Segmentation, Classification, Qualification, Offerings, etc. Subset Data Marts Analytical Applications

  15. 闭环的联合型BI体系结构 Front- and back-office OLTP e-Business systems External information providers Informed decisions & actions HR Analytics & Reporting Financial Analytics & Reporting CRM Analytics & Reporting Supply Chain Analytics & Reporting EPM Analytics & Reporting EKP - Enterprise Knowledge Management Portal Business information & recommendations

  16. End-User Tool End-User Tool Datamart End-User Tool Datamart MDB End-User Tool 数据仓库的焦点问题-数据的获得、存储和使用 • 数据仓库和集市的加载能力至关重要 • 数据仓库和集市的查询输出能力至关重要 Relational Enterprise Data Warehouse Data Staging Package RDBMS Legacy RDBMS ROLAP External source Data Clean Tool

  17. ETL工具 • 去掉操作型数据库中的不需要的数据 • 统一转换数据的名称和定义 • 计算汇总数据和派生数据 • 估计遗失数据的缺省值 • 调节源数据的定义变化

  18. ETL工具体系结构

  19. 元数据库及元数据管理 • 元数据分类:技术元数据;商业元数据;数据仓库操作型信息。-[Alex Berson etc, 1999] • 技术元数据 • 包括为数据仓库设计人员和管理员使用的数据仓库数据信息,用于执行数据仓库开发和管理任务。包括: • 数据源信息 • 转换描述(从操作数据库到数据仓库的映射方法,以及转换数据的算法) • 目标数据的仓库对象和数据结构定义 • 数据清洗和数据增加的规则 • 数据映射操作 • 访问权限,备份历史,存档历史,信息传输历史,数据获取历史,数据访问,等等

  20. 元数据库及元数据管理 • 商业元数据 • 给用户易于理解的信息,包括: • 主题区和信息对象类型,包括查询、报表、图像、音频、视频等 • Internet主页 • 支持数据仓库的其它信息,例如对于信息传输系统包括预约信息、调度信息、传送目标的详细描述、商业查询对象,等 • 数据仓库操作型信息 • 例如,数据历史(快照,版本),拥有权,抽取的审计轨迹,数据用法

  21. 元数据库及元数据管理 • 元数据库(metadata repository)和工具 — [Martin Stardt,2000]

  22. 数据访问和分析工具 • 报表 • OLAP • 数据挖掘

  23. 提纲 • 数据仓库概念 • 数据仓库体系结构及组件 • 数据仓库设计 • 数据仓库技术(与数据库技术的区别) • 数据仓库性能 • 数据仓库应用 • 数据挖掘应用概述 • 数据挖掘技术与趋势 • 数据挖掘应用平台(科委申请项目)

  24. 数据仓库设计 • 自上而下(Top-Down) • 自底而上(Bottom Up) • 混合的方法 • 数据仓库建模

  25. Enterprise Warehouse Top-down Approach • Build Enterprise data warehouse • Common central data model • Data re-engineering performed once • Minimize redundancy and inconsistency • Detailed and history data; global data discovery • Build datamarts from the Enterprise Data Warehouse (EDW) • Subset of EDW relevant to department • Mostly summarized data • Direct dependency on EDW data availability External Data Operational Data Local Data Mart Local Data Mart

  26. 操作型数据 (全部) 外部数据 操作型数据 (局部) 自底而上设计方法 创建部门的数据集市 • 范围局限于一个主题区域 • 快速的 ROI -- 局部的商业需求得到满足 • 本部门自治 -- 设计上具有灵活性 • 对其他部门数据集市是一个好的指导 • 容易复制到其他部门 • 需要为每个部门做数据重建 • 有一定级别的冗余和不一致性 • 一个切实可行的方法 • 扩大到企业数据仓库 • 创建EDB作为一个长期的目标 操作型数据 (局部) 局部数据集市 局部数据集市 企业数据仓库 EDB

  27. Product Date ProductNo ProdName ProdDesc Category QOH Date Month Year Sales Fact Table Date Product Cust Store Store CustId CustName CustCity CustCountry Customer StoreID City State Country Region unit_sales dollar_sales Yen_sales Measurements 数据仓库建模 — 星型模式 • Example of Star Schema

  28. Product ProductNo ProdName ProdDesc Category QOH Cust Store CustId CustName CustCity CustCountry StoreID City City City State State State Country Country Country Region 数据仓库建模 — 雪片模式 • Example of Snowflake Schema Year Month Year Date Sales Fact Table Month Year Date Month Date Product Store Customer unit_sales dollar_sales Yen_sales Measurements

  29. 操作型(OLTP)数据源 --- 销售库

  30. 星形模式 时间维 事实表

  31. 事实 时间维 时间维的属性 度量 (Metrics) 多维模型

  32. 提纲 • 数据仓库概念 • 数据仓库体系结构及组件 • 数据仓库设计 • 数据仓库技术(与数据库技术的区别) • 数据仓库性能 • 数据仓库应用 • 数据挖掘应用概述 • 数据挖掘技术与趋势 • 数据挖掘应用平台(科委申请项目)

  33. 数据仓库技术 — [Inmon,1996] • 管理大量数据 • 能够管理大量数据的能力 • 能够管理好的能力 • 管理多介质(层次) • 主存、扩展内存、高速缓存、DASD、光盘、缩微胶片 • 监视数据 • 决定是否应数据重组 • 决定索引是否建立得不恰当 • 决定是否有太多数据溢出 • 决定剩余的可用空间 • 利用多种技术获得和传送数据 • 批模式,联机模式并不非常有用 • 程序员/设计者对数据存放位置的控制(块/页) • 数据的并行存储/管理 • 元数据管理

  34. 数据仓库技术 — [Inmon,1996] • 数据仓库语言接口 • 能够一次访问一组数据 • 能够一次访问一条记录 • 支持一个或多个索引 • 有SQL接口 • 数据的高效装入 • 高效索引的利用 • 用位映像的方法、多级索引等 • 数据压缩 • I/O资源比CPU资源少得多,因此数据解压缩不是主要问题 • 复合键码(因为数据随时间变化) • 变长数据 • 加锁管理(程序员能显式控制锁管理程序) • 单独索引处理(查看索引就能提供某些服务) • 快速恢复

  35. 数据仓库技术 — [Inmon,1996] • 其他技术特征,传统技术起很小作用 • 事务集成性、高速缓存、行/页级锁定、参照完整性、数据视图 • 传统DBMS与数据仓库DBMS区别 • 为数据仓库和决策支持优化设计 • 管理更多数据:10GB/100GB/TB • 传统DBMS适合记录级更新,提供:锁定Lock、提交Commit、检测点CheckPoint、日志处理Log、死锁处理DeadLock、回退 Roolback. • 基本数据管理,如:块管理,传统DBMS需要预留空间 • 索引区别:传统DBMS限制索引数量,数据仓库DBMS没有限制 • 通用DBMS物理上优化便于事务访问处理,而数据仓库便于DSS访问分析 • 改变DBMS技术 • 多维DBMS和数据仓库 • 多维DBMS作为数据仓库的数据库技术,这种想法是不正确的 • 多维DBMS(OLAP)是一种技术,数据仓库是一种体系结构的基础 • 双重粒度级别(DASD/磁带)

  36. 数据仓库技术 — [Inmon,1996] • 数据仓库环境中的元数据 • DSS分析人员和IT专业人员不同,需要元数据的帮助 • 操作型环境和数据仓库环境之间的映射需要元数据 • 数据仓库包含很长时间的数据,必须有元数据标记数据结构/定义 • 上下文和内容(上下文维) • 简单上下文信息(数据结构/编码/命名约定/度量) • 复杂上下文信息(产品定义/市场领域/定价/包装/组织结构) • 外部上下文信息(经济预测:通货膨胀、金融、税收/政治信息/竞争信息/技术进展) • 刷新数据仓库 • 数据复制(触发器) • 变化数据捕获(CDC)(日志)

  37. 提纲 • 数据仓库概念 • 数据仓库体系结构及组件 • 数据仓库设计 • 数据仓库技术(与数据库技术的区别) • 数据仓库性能 • 数据仓库应用 • 数据挖掘应用概述 • 数据挖掘技术与趋势 • 数据挖掘应用平台(科委申请项目)

  38. 数据仓库性能 — [Inmon, 1999] • 使用 • 数据 • 平台 • 服务管理 王天佑 等译,《数据仓库管理》, 电子工业出版社,2000年5月

  39. 提纲 • 数据仓库概念 • 数据仓库体系结构及组件 • 数据仓库设计 • 数据仓库技术(与数据库技术的区别) • 数据仓库性能 • 数据仓库应用 • 数据挖掘应用概述 • 数据挖掘技术与趋势 • 数据挖掘应用平台(科委申请项目)

  40. 数据仓库应用 — DW用户数的调查 “DW系统的用户 在100-500以内或以上 是未来一段时期内 的主要部分“ DW用户的调查 最近一年 Meta Group Survey 调查对象:3000+ 用户或意向用户

  41. DW数据规模的调查 DW规模的调查 最近一年 Meta Group Survey 调查对象:3000+ 用户或意向用户

  42. How Much? • $3-6m for mid-size company, less if smaller, more if larger • $10m+ for large organizations, large data sets • 10-50+% annual maintenance costs • 33% Hardware / 33% Software / 33% Services

  43. How Long? • 2-4 years for 80/20 of full system for mid-size company • 6-12 months for initial iteration • 3-6 months for subsequent iterations

  44. How Risky? • For EDW Projects, 20% (Meta) to 70% (OTR, DWN) fail • High failure rate for non-business driven initiatives • Very few systems meet the expectations of the business • Failure not due to technology, due to “soft” issues • Massive upside to successful projects (100% - 2000+% ROI) • 99% politics - 1% technology

  45. 参考文献 • Inmon,W.H.,” Building the Data Warehouse” ,Johm Wiley and Sons,1996. • Ladley,John,”Operational Data Stores:Building an Effective Strategy”,Data warehouse:Pratical Advice form the Experts,Prentice Hall,Englewood Cliffs,NJ,1997. • Gardmer,Stephen R., “Building the Data warehouse”,Communication of ACM, September 1998, Volume 41, Numver 9, 52-60. • Douglas Hackney , Http:// www.egltd.com, DW101: A Practical Overview, 2001 • Pieter R. Mimno, “The Big Picture - How Brio Competes in the Data Warehousing Market”, Presentation to Brio Technology - August 4, 1998. • Alex Berson, Stephen Smith, Kurt Therling, “Building Data Mining Application for CRM”, McGraw-Hill, 1999 • Martin Stardt, Anca Vaduva, Thomas Vetterli, “The Role of Meta for Data Warehouse”, 2000 • W.H.Inmon, Ken Rudin, Christopher K. Buss, Ryan Sousa, “Data Warehouse Performance”, John Wiley & Sons , 1999

  46. 提纲 • 数据仓库概念 • 数据仓库体系结构及组件 • 数据仓库设计 • 数据仓库技术(与数据库技术的区别) • 数据仓库性能 • 数据仓库应用 • 数据挖掘应用概述 • 数据挖掘技术与趋势 • 数据挖掘应用平台(科委申请项目)

  47. 数据挖掘应用综述 • 数据挖掘应用概述 • 数据挖掘技术与趋势 • 数据挖掘应用平台

  48. 数据挖掘应用概述 • 应用比例 • Data Mining Upsides • Data Mining Downsides • Data Mining Use • Data Mining Industry and Application • Data Mining Costs

  49. 应用比例 Clustering 22% Direct Marketing 14% Cross-Sell Models 12% www.kdnuggets.com 2001/6/11 News

  50. Data Mining Upsides • Discovery of previously unknown relationships, trends, anomalies, etc. • Powerful competitive weapon • Automation of repetitive analysis • Predictive capabilities

More Related