1 / 29

第 12 章 数据仓库与数据挖掘

第 12 章 数据仓库与数据挖掘. 基本概念. 数据仓库定义 数据仓库是一个面向决策主题的、集成的、时变的、非易失、以读为主的数据集合。 数据仓库系统的分类 Web 数据仓库;并行数据仓库;多维数据仓库;压缩数据仓库等。 OLAP 定义 OLAP 是针对某个特定的主题进行联机数据访问、处理和分析,通过直观的方式从多个维度、多种数据综合程度将系统的运营情况展现给用户。. 数据仓库基本特性. 面向决策主题的 数据仓库围绕一些主题 , 排除对于决策无用的数据 , 提供特定主体的简明视图。 集成的

Download Presentation

第 12 章 数据仓库与数据挖掘

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第12章 数据仓库与数据挖掘

  2. 基本概念 • 数据仓库定义 数据仓库是一个面向决策主题的、集成的、时变的、非易失、以读为主的数据集合。 • 数据仓库系统的分类 Web数据仓库;并行数据仓库;多维数据仓库;压缩数据仓库等。 • OLAP定义 OLAP是针对某个特定的主题进行联机数据访问、处理和分析,通过直观的方式从多个维度、多种数据综合程度将系统的运营情况展现给用户。

  3. 数据仓库基本特性 • 面向决策主题的 数据仓库围绕一些主题,排除对于决策无用的数据,提供特定主体的简明视图。 • 集成的 构造数据仓库是将多个异种数据源集成在一起,确保命名约定,编码结构,属性度量等一致性。 • 时变的 数据存储从历史的角度提供信息.在数据仓库,隐式或显式地包含时间元素。 • 非易失的 数据仓库总是物理地分离存放数据;由于这种分离,数据仓库不需要事务处理,恢复和并发控制。通常数据仓库只需要两种数据访问:数据的初始化装入和数据访问。 • 以读为主的 数据仓库中的数据主要是提供决策进行查询,一般不一定都需要即时更新,可以定期刷新或按需刷新。

  4. 数据仓库体系结构 OLTP 数据集市 数据源 数据仓库 地区 生产 E T L 分析 总量 终端用户 财务 分析 数据分析、DM 结算 市场 外部 终端用户 分析 数据的映射规则、模型 (元数据管理) 。。。 数据采集及整合 数据展现及决策 数据仓库项目流程管理及系统性能管理和监控

  5. 数据仓库的结构 高度综合级 轻度综合级 数据集市 元数据 当前细节级 操作型转换 早期细节级

  6. 数据仓库中的几个重要概念 • ETL ETL(Extract/Transformation/Load)—用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。 • 元数据 关于数据的数据,指在数据仓库建设过程中所产生的有关数据源定义、目标定义、转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息。 • Data Mart 数据集市 -- 小型的,面向部门或工作组级数据仓库。

  7. 数据仓库中的几个重要概念(续) • Operation Data Store 操作数据存储 — ODS是能支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境, 是DW 扩展后得到的一个混合形式。四个基本特点:面向主题的(Subject -Oriented)、集成的、可变的、 当前或接近当前的。 • 粒度 数据仓库的数据单元中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。 • 分割 结构相同的数据可以被分成多个数据物理单元。任何给定的数据单元属于且仅属于一个分割。

  8. 操作数据库与数据仓库的区别 • 操作数据库系统的主要任务是联机事务处理OLTP • 数据仓库在数据分析和决策方面为用户提供服务,这种系统称为联机分析处理OLAP

  9. 基本数据模式 • 星型模式 产品维表 ProductID ProductName ClassID ClassName CategoryID CategoryName 销售事实表 TimeID ProductID RegionID Sales Quantity 日期维表 TimeID Day Month Year 地区维表 RegionD City Province Country

  10. 基本数据模式(续1) 产品维表 ProductID ProductName ClassID ClassName 类别表 ClassID Category ID CategoryName 日期维表 TimeID day Month 月表 Month Year 地区维表 RegionID City Province 省份表 Province Country • 雪花模式 销售事实表 TimeID ProductID RegionID Sales Quantity

  11. 基本数据模式(续2) • 多维模型 Cube(D1,D2,…, Dn , M1 , M2 ,…, Mm)

  12. 数据仓库的主要应用 • 信息处理 支持查询和基本的统计分析,并使用表或图进行报告。 • 分析处理 支持基本的OLAP操作,在汇总的和细节的历史数据上操作。 • 数据挖掘 支持知识发现,包括找出隐藏的模式和关联,构造分析模型,进行分类和预测,并用可视化工具提供挖掘结果.

  13. OLAP发展背景 • 60年代,关系数据库之父E.F.Codd提出了关系模型,促进了联机事务处理(OLTP)的发展(数据以表格的形式而非文件方式存储)。1993年,E.F.Codd提出了OLAP概念,认为OLTP已不能满足终端用户对数据库查询分析的需要,SQL对大型数据库进行的简单查询也不能满足终端用户分析的要求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,E.F.Codd提出了多维数据库和多维分析的概念,即OLAP。 • OLTP数据 OLAP数据 • 原始数据 导出数据 • 细节性数据 综合性和提炼性数据 • 当前值数据 历史数据 • 可更新 不可更新,但周期性刷新 • 一次处理的数据量小 一次处理的数据量大 • 面向应用,事务驱动 面向分析,分析驱动 • 面向操作人员,支持日常操作 面向决策人员,支持管理需要

  14. 什么是OLAP? • 定义1 :OLAP(联机分析处理)是针对特定问题的联机数据访问和分析。通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。 • 定义2 :OLAP(联机分析处理) 是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。(OLAP委员会的定义) • OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。

  15. OLAP相关基本概念 1)维:是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(时间维、地理维等)。 2)维的层次:人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年)。 3)维的成员:维的一个取值。是数据项在某维中位置的描述。(“某年某月某日”是在时间维上位置的描述) 4)多维数组:维和变量的组合表示。一个多维数组可以表示为:(维1,维2,…,维n,变量)。(时间,地区,产品,销售额) 5)数据单元(单元格):多维数组的取值。(2000年1月,上海,笔记本电脑,$100000)

  16. OLAP特性 • (1)快速性:用户对OLAP的快速反应能力有很高的要求。系统应能在5秒内对用户的大部分分析要求做出反应。 • (2)可分析性:OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。 • (3)多维性:多维性是OLAP的关键属性。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持。。 • (4)信息性:不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。

  17. OLAP基本操作 • 上卷操作:通过维层次,在数据立方体上进行聚集。 • 下钻操作:是上卷操作的逆操作,由不太详细的数据到更详细的数据。 • 切片和切块:切片在给定的数据立方体的一个维上进行选择,切块则是在两个或两个以上的维进行选择。 • 旋转操作:是改变维度的位置关系,使最终用户可以从其他视角来观察多维数据。

  18. OLTP和OLAP的区别 • 用户和系统的面向性: OLTP是面向顾客的,用于事务和查询处理; OLAP是面向市场的,用于数据分析。 • 数据内容: OLTP系统管理当前数据; OLAP系统管理大量历史数据,提供汇总和聚集机制。 • 数据库设计: OLTP采用实体-联系ER模型和面向应用的数据库设计; OLAP采用星型或雪花模型和面向主题的数据库设计。

  19. OLTP和OLAP的区别(续) • 视图: OLTP主要关注一个企业或部门内部的当前数据,不涉及历史数据或不同组织的数据; OLAP则相反,不仅关注本企业或组织内部的当前数据,而且更多地涉及到历史数据和其他组织的数据。 • 访问模式: OLTP系统的访问主要由短的原子事务组成,这种系统需要并行和恢复机制。 OLAP系统的访问大部分是只读操作。

  20. OLAP的分析方法(一)切片、切块

  21. OLAP的分析方法(二)钻取 60 按时间维向上钻取 按时间维向下钻取

  22. OLAP的分析方法(三)旋转

  23. OLAP服务器类型 • 关系OLAP(ROLAP)模型  使用关系或扩充关系DBMS存放并管理数据仓库。 • 多维OLAP(MOLAP)服务器 这些服务器通过基于数组的多维存储,支持数组的多维视图。 • 混合OLAP(HOLAP)服务器 结合ROLAP和MOLAP技术,得宜于ROLAP的可伸缩性和MOLAP的快速计算。

  24. 数据组织形式 产品名称 产品名称 地区 东北 东北 地区 销售量 西北 销售量 西北 华北 华北 总和 冰箱 冰箱 冰箱 冰箱 东北 东北 50 50 50 50 60 60 100 100 210 冰箱 彩电 彩电 冰箱 40 40 西北 西北 60 70 70 60 80 80 190 空调 冰箱 冰箱 空调 90 90 华北 华北 100 120 120 100 140 140 350 彩电 总和 冰箱 180 总和 东北 250 40 210 320 750 彩电 彩电 西北 东北 40 70 彩电 彩电 西北 华北 70 80 彩电 空调 东北 华北 80 90 空调 彩电 西北 总和 190 120 空调 空调 华北 东北 140 90 空调 西北 120 空调 华北 140 空调 总和 350 总和 东北 180 总和 西北 250 总和 华北 320 总和 总和 750 • RDB数据组织 MDDB数据组织 关系表中综合数据的存放 • 多维数据库中综合数据的存放

  25. ROLAP体系结构 Database Server R DBMS Front-end Tool ROLAP Server Info. Request SQL Metadata Request Processing Result Set Result Set ROALP Architecture

  26. MOLAP体系结构 Database Server RDBMS Front-end Tool Info. Request Load SQL Result Set Result Set MOALP Architecture MOLAP Server Metadata Request Processing

  27. HOLAP体系结构(续) Database Server RDBMS Front-end Tool SQL Query Result Set Info. Request Load MOLAP Server SQL Result Set Result Set Hybrid Architecture

  28. 基于约束的数据挖掘 挖掘结果 第四层 用户界面 用户图形界面API 第三层 OLAP/OLAM OLAM 引擎 OLAP 引擎 数据方API MDDB 元数据 第二层 多维数据库 数据库API 第一层 数据存储 数据过滤 数据集成 过滤 数据仓库 数据清理 数据库 数据库 数据集成 一个集成的OLAM和OLAP结构

  29. OLAP的Web表现方式 静态方法 静态HTML报表 动态方法 通过HTML模板及元数据动态生成报表 改进方法 使用Java或ActiveX HTML Java Scrip ActiveX 客户浏览器 CGI API Web服务器应用 OLAP Server Database Server 基于Web的OLAP结构

More Related