420 likes | 662 Views
第二十讲 数据仓库 、 联机分析处理和数据挖掘. 武汉大学国际软件学院. 本 讲 主 要 目 标. 学完本讲后,你应该能够了解: 数据仓库的定义; 数据仓库的特点是:面向主题的、集成的、非易失的和随时间变化的; OLAP 的特点和基本操作 : 上钻( drill up ) 、 下钻 (drill down) 、 切片 (slice) 、 切块( dice )和旋转( Pivot , rotate) OLAP 的三种实现方式: ROLAP , MOLAP , HOLAP 数据挖掘的定义及与传统知识处理技术的不同. 武汉大学国际软件学院. 一.数据仓库的定义和特点
E N D
第二十讲数据仓库、联机分析处理和数据挖掘 武汉大学国际软件学院
本 讲 主 要 目 标 学完本讲后,你应该能够了解: • 数据仓库的定义; • 数据仓库的特点是:面向主题的、集成的、非易失的和随时间变化的; • OLAP的特点和基本操作:上钻(drill up)、下钻(drill down) 、切片(slice) 、切块(dice)和旋转(Pivot,rotate) • OLAP的三种实现方式:ROLAP,MOLAP,HOLAP • 数据挖掘的定义及与传统知识处理技术的不同 武汉大学国际软件学院
一.数据仓库的定义和特点 二.数据仓库的体系结构 三.OLAP概述 四.OLAP的基本操作 五.OLAP的实现方法 六. 数据挖掘概述 内容提纲 武汉大学国际软件学院
数据仓库的 定义和特点 武汉大学国际软件学院
数据仓库的定义和特点 世界公认的数据仓库概念创始人W.H.Inmon在《数据仓库》(Building the Data Warehouse)一书中对数据仓库的定义是:数据仓库就是面向主题的、集成的、非易失的(稳定性)、随时间变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。 武汉大学国际软件学院
面向主题的 集成的 数据仓库 非易失的 随时间变化的 数据仓库的定义和特点 • 数据仓库的特点 武汉大学国际软件学院
资产 OLTP 应用 数据仓库主题 股票 客户财务信息 保险 储蓄 贷款 数据仓库的定义和特点 • 面向主题的 武汉大学国际软件学院
Savings 数据仓库的定义和特点 • 集成的 Current accounts Loans Customer OLTP 应用 数据仓库 武汉大学国际软件学院
数据仓库的定义和特点 • 集成的 武汉大学国际软件学院
OLTP 数据仓库 Load Read Insert Read Update Delete 数据仓库的定义和特点 • 非易失的 武汉大学国际软件学院
Warehouse Database 数据仓库的定义和特点 • 非易失的 First time load Operational Databases Refresh Refresh Purge or Archive Refresh 武汉大学国际软件学院
1997 1997 1997 Data Time 01/97 January 02/97 February 03/97 March 数据仓库 数据仓库的定义和特点 • 随时间变化的 武汉大学国际软件学院
数据仓库的定义和特点 • 随时间变化的 武汉大学国际软件学院
数据仓库的 体系结构 武汉大学国际软件学院
高度综合级 元数据 集成转换 DB 轻度综合级 当前细节级 DSS映射 分析工具 早期细节级 数据仓库的多粒度数据组织 数据仓库的体系结构 • 数据仓库的数据结构 武汉大学国际软件学院
查询 DWMS DW 数据仓库的体系结构 • 数据仓库的体系结构 DM工具 OLAP工具 多维数据 相关数据集 OLTP DBMS DB 武汉大学国际软件学院
OLAP概述 武汉大学国际软件学院
OLAP 概 述 • 什么是OLAP? • OLAP是针对特定问题的联机数据访问和分析。 • 通过对信息(这些信息已经从原始的数据进行了转换,以反映用户所能理解的企业的真实的“维”)的很多可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察 武汉大学国际软件学院
OLAP 概 述 • 维(Dimension) • 维是人们观察数据的特定角度。 • 例如,企业常常关心产品销售随着时间推移而产生的变化的情况,这时他是从时间的角度来观察产品的销售,所以时间就是一个维(时间维)。 • 企业也常常关心自己的产品在不同地区的销售分布情况,这时他是从地理分布的角度来观察产品的销售,所以地理分布也是一个维(地理维)。 武汉大学国际软件学院
OLAP 概 述 • 维的层次 • 人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的多个描述方面,我们称这个描述方面为维的层次。 • 一个维往往具有多个层次,例如: • 描述时间维时,可以从日期、月份、季度、年等不同层次来描述,那么日期、月份、季度、年等就是时间维的层次; • 同样,城市、地区、国家就构成了一个地理维的多个层次。 武汉大学国际软件学院
OLAP 概 述 • 维成员 • 维的一个取值就称为该维的一个维成员。 • 如果一个维是多层次的,那么该维的维成员就是不同维层次的取值的组合。 • 例如,考虑时间维具有日期、月份、年这三个层次,分别在日期、月份、年上各取一个值组合起来,就得到时间维的一个维成员,即“某年某月某日”。 武汉大学国际软件学院
OLAP概述 • OLTP与OLAP的差异 武汉大学国际软件学院
OLAP的 基本操作 武汉大学国际软件学院
OLAP的基本操作 • 钻取:在一个维内部沿着层次从上到下或从下到上的方向考察数据 • 上钻(Drill up) • 下钻(Drill down) • 切片/切块(Slice and dice) 固定某些维成员,对其它维进行考察 • 旋转(Pivot,rotate) 按不同顺序组织各个维,对结果进行考察 武汉大学国际软件学院
OLAP的基本操作 • 一个OLAP操作实例: 武汉大学国际软件学院
OLAP的基本操作 • 钻取(Dill up/Drill down): 武汉大学国际软件学院
OLAP的基本操作 • 切片 武汉大学国际软件学院
财务指标 时间 产品 产品 时间 财务指标 OLAP的基本操作 • 旋转 按不同顺序组织各个维,对结果进行考察 武汉大学国际软件学院
OLAP的 实现方法 武汉大学国际软件学院
OLAP的实现方法 • OLAP服务器的实现方法 • 关系OLAP (ROLAP) • 多维OLAP (MOLAP) • 混合OLAP (HOLAP) ? ? Warehouse OLAP Server user 武汉大学国际软件学院
OLAP的实现方法 • OLAP服务器的特征 • 查询性能 • 空间占用 • 分析查询能力 武汉大学国际软件学院
OLAP的实现方法 • ROLAP服务器的原理 Cache Live fetch Query Data cache Data user OLAP Server Warehouse 武汉大学国际软件学院
OLAP的实现方法 • MOLAP服务器的原理 MDDB Query Periodic load Data Warehouse OLAP Server user 武汉大学国际软件学院
OLAP的实现方法 • HOLAP服务器的原理 MDDB and cache Periodic load Query Data Fetch, cache user OLAP Server Warehouse 武汉大学国际软件学院
数据挖掘概述 武汉大学国际软件学院
VLDB 数据挖掘概述 • 为什么需要数据挖掘? 数据挖掘 有价值的知识 太多数据 武汉大学国际软件学院
数据挖掘概述 • 数据挖掘的定义 就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,识别出有效的、新颖的、潜在有用的,以及最终可理解的模式(或知识)的非平凡过程。 需要指出的是,这里所说的知识,不是放之四海而皆准的真理,而是相对的。 武汉大学国际软件学院
数据库技术 统计学 数据挖掘 机器学习 可视化 信息科学 其他学科 数据挖掘概述 • 数据挖掘是多学科的交叉 武汉大学国际软件学院
数据挖掘概述 • 数据挖掘与数据仓库的关系 • 数据挖掘是数据仓库发展的必然结果 • 数据仓库为数据挖掘提供应用基础 武汉大学国际软件学院
Questions? 武汉大学国际软件学院
本 讲 主 要 目 标 学完本讲后,你应该能够了解: • 数据仓库的定义; • 数据仓库的特点是:面向主题的、集成的、非易失的和随时间变化的; • OLAP的特点和基本操作:上钻(drill up)、下钻(drill down) 、切片(slice) 、切块(dice)和旋转(Pivot,rotate) • OLAP的三种实现方式:ROLAP,MOLAP,HOLAP • 数据挖掘的定义及与传统知识处理技术的不同 武汉大学国际软件学院
练 习 Unit Twenty 武汉大学国际软件学院