第二十讲
Download
1 / 42

???? ???? ? ??????????? - PowerPoint PPT Presentation


  • 168 Views
  • Uploaded on

第二十讲 数据仓库 、 联机分析处理和数据挖掘. 武汉大学国际软件学院. 本 讲 主 要 目 标. 学完本讲后,你应该能够了解: 数据仓库的定义; 数据仓库的特点是:面向主题的、集成的、非易失的和随时间变化的; OLAP 的特点和基本操作 : 上钻( drill up ) 、 下钻 (drill down) 、 切片 (slice) 、 切块( dice )和旋转( Pivot , rotate) OLAP 的三种实现方式: ROLAP , MOLAP , HOLAP 数据挖掘的定义及与传统知识处理技术的不同. 武汉大学国际软件学院. 一.数据仓库的定义和特点

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about '???? ???? ? ???????????' - kyna


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
4256046

第二十讲数据仓库、联机分析处理和数据挖掘

武汉大学国际软件学院


4256046
本 讲 主 要 目 标

学完本讲后,你应该能够了解:

  • 数据仓库的定义;

  • 数据仓库的特点是:面向主题的、集成的、非易失的和随时间变化的;

  • OLAP的特点和基本操作:上钻(drill up)、下钻(drill down) 、切片(slice) 、切块(dice)和旋转(Pivot,rotate)

  • OLAP的三种实现方式:ROLAP,MOLAP,HOLAP

  • 数据挖掘的定义及与传统知识处理技术的不同

武汉大学国际软件学院


4256046

一.数据仓库的定义和特点

二.数据仓库的体系结构

三.OLAP概述

四.OLAP的基本操作

五.OLAP的实现方法

六. 数据挖掘概述

内容提纲

武汉大学国际软件学院


4256046

数据仓库的

定义和特点

武汉大学国际软件学院


4256046
数据仓库的定义和特点

世界公认的数据仓库概念创始人W.H.Inmon在《数据仓库》(Building the Data Warehouse)一书中对数据仓库的定义是:数据仓库就是面向主题的、集成的、非易失的(稳定性)、随时间变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。

武汉大学国际软件学院


4256046

面向主题的

集成的

数据仓库

非易失的

随时间变化的

数据仓库的定义和特点

  • 数据仓库的特点

武汉大学国际软件学院


4256046

资产

OLTP 应用

数据仓库主题

股票

客户财务信息

保险

储蓄

贷款

数据仓库的定义和特点

  • 面向主题的

武汉大学国际软件学院


4256046

Savings

数据仓库的定义和特点

  • 集成的

Current

accounts

Loans

Customer

OLTP 应用

数据仓库

武汉大学国际软件学院


4256046
数据仓库的定义和特点

  • 集成的

武汉大学国际软件学院


4256046

OLTP

数据仓库

Load

Read

Insert Read

Update

Delete

数据仓库的定义和特点

  • 非易失的

武汉大学国际软件学院


4256046

Warehouse Database

数据仓库的定义和特点

  • 非易失的

First time load

Operational Databases

Refresh

Refresh

Purge or Archive

Refresh

武汉大学国际软件学院


4256046

1997

1997

1997

Data

Time

01/97

January

02/97

February

03/97

March

数据仓库

数据仓库的定义和特点

  • 随时间变化的

武汉大学国际软件学院


4256046
数据仓库的定义和特点

  • 随时间变化的

武汉大学国际软件学院


4256046

数据仓库的

体系结构

武汉大学国际软件学院


4256046

高度综合级

元数据

集成转换

DB

轻度综合级

当前细节级

DSS映射

分析工具

早期细节级

数据仓库的多粒度数据组织

数据仓库的体系结构

  • 数据仓库的数据结构

武汉大学国际软件学院


4256046

查询

DWMS

DW

数据仓库的体系结构

  • 数据仓库的体系结构

DM工具

OLAP工具

多维数据

相关数据集

OLTP

DBMS

DB

武汉大学国际软件学院


4256046

OLAP概述

武汉大学国际软件学院


4256046
OLAP 概 述

  • 什么是OLAP?

    • OLAP是针对特定问题的联机数据访问和分析。

    • 通过对信息(这些信息已经从原始的数据进行了转换,以反映用户所能理解的企业的真实的“维”)的很多可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察

武汉大学国际软件学院


4256046
OLAP 概 述

  • 维(Dimension)

    • 维是人们观察数据的特定角度。

    • 例如,企业常常关心产品销售随着时间推移而产生的变化的情况,这时他是从时间的角度来观察产品的销售,所以时间就是一个维(时间维)。

    • 企业也常常关心自己的产品在不同地区的销售分布情况,这时他是从地理分布的角度来观察产品的销售,所以地理分布也是一个维(地理维)。

武汉大学国际软件学院


4256046
OLAP 概 述

  • 维的层次

    • 人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的多个描述方面,我们称这个描述方面为维的层次。

    • 一个维往往具有多个层次,例如:

      • 描述时间维时,可以从日期、月份、季度、年等不同层次来描述,那么日期、月份、季度、年等就是时间维的层次;

      • 同样,城市、地区、国家就构成了一个地理维的多个层次。

武汉大学国际软件学院


4256046
OLAP 概 述

  • 维成员

    • 维的一个取值就称为该维的一个维成员。

    • 如果一个维是多层次的,那么该维的维成员就是不同维层次的取值的组合。

    • 例如,考虑时间维具有日期、月份、年这三个层次,分别在日期、月份、年上各取一个值组合起来,就得到时间维的一个维成员,即“某年某月某日”。

武汉大学国际软件学院


4256046
OLAP概述

  • OLTP与OLAP的差异

武汉大学国际软件学院


4256046

OLAP

基本操作

武汉大学国际软件学院


4256046
OLAP的基本操作

  • 钻取:在一个维内部沿着层次从上到下或从下到上的方向考察数据

    • 上钻(Drill up)

    • 下钻(Drill down)

  • 切片/切块(Slice and dice)

    固定某些维成员,对其它维进行考察

  • 旋转(Pivot,rotate)

    按不同顺序组织各个维,对结果进行考察

武汉大学国际软件学院


4256046
OLAP的基本操作

  • 一个OLAP操作实例:

武汉大学国际软件学院


4256046
OLAP的基本操作

  • 钻取(Dill up/Drill down):

武汉大学国际软件学院


4256046
OLAP的基本操作

  • 切片

武汉大学国际软件学院


4256046

财务指标

时间

产品

产品

时间

财务指标

OLAP的基本操作

  • 旋转

    按不同顺序组织各个维,对结果进行考察

武汉大学国际软件学院


4256046

OLAP

实现方法

武汉大学国际软件学院


4256046
OLAP的实现方法

  • OLAP服务器的实现方法

    • 关系OLAP (ROLAP)

    • 多维OLAP (MOLAP)

    • 混合OLAP (HOLAP)

?

?

Warehouse

OLAP Server

user

武汉大学国际软件学院


4256046
OLAP的实现方法

  • OLAP服务器的特征

    • 查询性能

    • 空间占用

    • 分析查询能力

武汉大学国际软件学院


4256046
OLAP的实现方法

  • ROLAP服务器的原理

Cache

Live

fetch

Query

Data

cache

Data

user

OLAP Server

Warehouse

武汉大学国际软件学院


4256046
OLAP的实现方法

  • MOLAP服务器的原理

MDDB

Query

Periodic

load

Data

Warehouse

OLAP Server

user

武汉大学国际软件学院


4256046
OLAP的实现方法

  • HOLAP服务器的原理

MDDB and

cache

Periodic

load

Query

Data

Fetch,

cache

user

OLAP Server

Warehouse

武汉大学国际软件学院


4256046

数据挖掘概述

武汉大学国际软件学院


4256046

VLDB

数据挖掘概述

  • 为什么需要数据挖掘?

数据挖掘

有价值的知识

太多数据

武汉大学国际软件学院


4256046
数据挖掘概述

  • 数据挖掘的定义

    就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,识别出有效的、新颖的、潜在有用的,以及最终可理解的模式(或知识)的非平凡过程。

    需要指出的是,这里所说的知识,不是放之四海而皆准的真理,而是相对的。

武汉大学国际软件学院


4256046

数据库技术

统计学

数据挖掘

机器学习

可视化

信息科学

其他学科

数据挖掘概述

  • 数据挖掘是多学科的交叉

武汉大学国际软件学院


4256046
数据挖掘概述

  • 数据挖掘与数据仓库的关系

    • 数据挖掘是数据仓库发展的必然结果

    • 数据仓库为数据挖掘提供应用基础

武汉大学国际软件学院


Questions
Questions?

武汉大学国际软件学院


4256046
本 讲 主 要 目 标

学完本讲后,你应该能够了解:

  • 数据仓库的定义;

  • 数据仓库的特点是:面向主题的、集成的、非易失的和随时间变化的;

  • OLAP的特点和基本操作:上钻(drill up)、下钻(drill down) 、切片(slice) 、切块(dice)和旋转(Pivot,rotate)

  • OLAP的三种实现方式:ROLAP,MOLAP,HOLAP

  • 数据挖掘的定义及与传统知识处理技术的不同

武汉大学国际软件学院


4256046
练 习

Unit Twenty

武汉大学国际软件学院


ad