1 / 37

第 7 章 数据库与数据仓库

第 7 章 数据库与数据仓库. 学习目的. 理解信息系统与数据管理; 掌握数据库环境下的数据组织; 掌握数据模型、关系模式规范化、数据视图概念和数据库设计; 了解数据仓库与数据挖掘。. 本讲内容. 信息系统的数据管理 数据库环境下的数据组织 数据模型 关系模式规范化 数据视图概念 数据库设计 数据仓库与数据挖掘. 信息系统的数据管理. 数据管理概念 美国学者詹姆斯•马丁 提出数据环境的概念,认为只要企业的性质和目标不变,尽管企业的数据加工处理过程是多变,但数据是稳定的,企业任何业务活动都离不开对数据的存取。

galena-hull
Download Presentation

第 7 章 数据库与数据仓库

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第7章 数据库与数据仓库

  2. 学习目的 • 理解信息系统与数据管理; • 掌握数据库环境下的数据组织; • 掌握数据模型、关系模式规范化、数据视图概念和数据库设计; • 了解数据仓库与数据挖掘。

  3. 本讲内容 • 信息系统的数据管理 • 数据库环境下的数据组织 • 数据模型 • 关系模式规范化 • 数据视图概念 • 数据库设计 • 数据仓库与数据挖掘

  4. 信息系统的数据管理 • 数据管理概念 • 美国学者詹姆斯•马丁提出数据环境的概念,认为只要企业的性质和目标不变,尽管企业的数据加工处理过程是多变,但数据是稳定的,企业任何业务活动都离不开对数据的存取。 • MIS是有目的地对企业生产经营活动产生的原始数据进行收集、组织、加工处理,直至生成信息的系统。管理人员则利用信息控制企业各项经营活动并作出决策。 • 组织数据的逻辑存储结构,将逻辑存储结构转换成计算机物理存储结构,以及根据需要准确、迅速地存取数据等,这些问题都是数据管理技术的主要研究内容。

  5. 信息系统的数据管理 • 数据管理概念 • 随着计算机技术的产生和发展,企业的数据管理技术经历了人工管理,文件管理技术和数据库管理技术三个阶段。。 • 目前数据库是企业信息系统组织、管理数据的最常用技术。

  6. 信息系统的数据管理 • MIS的数据管理要求 • 需要有效的数据库技术 • 需要稳定的数据基础 • 需要良好的数据环境

  7. 本讲内容 • 信息系统的数据管理 • 数据库环境下的数据组织 • 数据模型 • 关系模式规范化 • 数据视图概念 • 数据库设计 • 数据仓库与数据挖掘

  8. 数据库环境下的数据组织 • 数据库定义 • 数据库的定义 • 长期储存在计算机内的、有组织的、可共享的数据集合。数据库中的数据按一定的数据模型组织、描述和储存,具有较小的冗余度、较高的数据独立性和易扩展性,并可为各种用户共享。 • 数据库的特点 • 数据结构化、数据共享性、数据独立性

  9. 数据库环境下的数据组织 • 数据库管理系统 • 数据库管理系统 • 数据库管理系统(DBMS)是位于用户与操作系统之间的一层数据管理软件。 • DBMS的分类 • 按数据模型、按所支持的用户数、按允许数据库可以分布的站点数、按用途。 • 数据库管理系统的组成 • 数据定义语言及其翻译程序;数据操纵(或查询)语言及其编译(或解释)程序;数据库管理例行程序。

  10. 数据库环境下的数据组织 • 数据库系统结构 • 硬件 • CPU、内存、磁盘、磁带以及其它外部设备。 • 软件 • 操作系统(OS)、数据库管理系统(DBMS)、应用于开发应用程序的具有数据库接口的高级语言及其编译系统、以DBMS为核心的应用开发工具、为某应用环境开发的数据库应用系统。 • 人员 • 数据库管理员(Data Base Administrator,DBA)、系统分析员和数据库设计人员、应用程序员和最终用户。

  11. 本讲内容 • 信息系统的数据管理 • 数据库环境下的数据组织 • 数据模型 • 关系模式规范化 • 数据视图概念 • 数据库设计 • 数据仓库与数据挖掘

  12. 数据模型 • 信息描述

  13. 数据模型 • 信息描述 • 现实世界 • 是指存在于人们头脑之外的客观世界,事物及其相互间联系就处在这个世界之中。 • 信息世界 • 信息是现实世界中的客观事物在人们头脑中的反映。人的头脑对于这些事物经过认识、选择、描述之后进入信息世界。它包括:实体、属性、域、实体型、实体集、码、联系等概念。 • 数据世界 • 数据世界中研究的对象是数据,数据是对信息的符号化表示。 • 计算机世界 • 数据世界中的数据经过编码、加工后就进入计算机世界。

  14. 数据模型 • 实体-联系模型(E-R) • 基本E-R图形 • E-R模型有三个基本元素,即实体、实体之间的联系和属性,它们分别用矩形框、棱型框和椭园形框表示,并且将对应的名字填入框内以作标识,用无向边把实体与其属性连接起来,将参与联系的实体用线段连接,并标上联系的数量,见图所示的学生选修课程的E-R图。 • 构造E-R模型 • 构造E-R模型实质上就是根据现实世界客观存在的“事物”及其关系所给出的语义要求,组合基本E-R图形为E-R模型。它包括如下步骤:标识实体集;标识联系集;标识属性值集;标识关键字。

  15. 数据模型 • 数据模型 • 在数据库系统中,除了描述记录内部的联系外,还必须考虑记录之间,即文件之间的联系。数据模型就是反映这种联系的结构,它是数据库系统的一个重要特征。在数据库系统中,基本的数据模型有三种:层次模型、网络模型和关系模型。

  16. 本讲内容 • 信息系统的数据管理 • 数据库环境下的数据组织 • 数据模型 • 关系模式规范化 • 数据视图概念 • 数据库设计 • 数据仓库与数据挖掘

  17. 关系模式规范化 • 问题的提出 一个企业销售记录的关系模式PEQ(订单代码、订购日期、客户、发货日期、产品、单价、数量、雇员),如表7.8所示。如果关系模式设计得不好会带来以下问题 :

  18. 关系模式规范化 • 问题的提出 • 冗余度高 • 如果“雇员”与客户的联系是固定的,而当该客户每购买一种产品时,“雇员”就重复存放一次。 • 修改问题 • 如果在PEQ中,某客户的联系雇员变动时,就需要对所涉及的雇员进行修改,这不仅增加了更新代价,而且有可能造成数据的不一致性。 • 删除问题 • 如果某客户暂时不需要任何产品,则删除时就丢失了其所联系雇员的一些信息,而该雇员可能在以后可能再次用到。 • 插入问题 • 在这个关系中,关键字由“订单代码、客户、产品”组成。如果新增一个客户的有关数据,而所购买产品未定,那么这个客户的数据无法插入,因为缺少关键字其他数据。

  19. 关系模式规范化 • 函数依赖 • 函数依赖的概念 • 定义:设有关系模式R(A1,A2,……,Ak),X和Y都是{A1,A2,…,Ak}的子集,如果是R的任一具体关系(元组)。如果R的所有关系r都存在着:对于x的每一个具体值,都有Y的唯一的具体值与之对应,则称X函数地决定Y,或Y函数依赖于X。记为:X→Y • 函数依赖与属性关系 • 在前面所介绍的属性间三种联系中,并不是所有的联系都存在函数依赖。设有关系模式R,属性集为A,X和Y是A的子集,X和Y之间有如下情况: (1) 如果X与Y之间是“l:l”的联系,则存在函数依赖:X→Y,Y→X 这种依赖称为互为函数依赖。 (2)如果X与Y之间是“N:1”的联系,则存在函数依赖:X→Y 如果反过来就不一定存在函数依赖,因为同样的“工资”可以对应多个职工。 (3)如果X与Y之间是“M:N”的联系,那就不存在函数依赖关系。

  20. 关系模式规范化 • 规范关系 • 第一范式(1NF) • 定义:如果一个关系模式R的每个具体关系r的每个属性值都是不可分的最小数据单位,则称R为第一范式,简称1NF(First Normal Form),r为1NF关系。 • 第二范式(2NF) • 定义:如果满足第一范式的关系模式R,它的所有属性都完全函数依赖于主关键字,则称R为第二范式,记为2NF。 • 第三范式(3NF) • 定义:如果关系模式R满足2NF,并且它的任何一个属性都不传递依赖于任一主关键字,则称R是第三范式,记为3NF。

  21. 本讲内容 • 信息系统的数据管理 • 数据库环境下的数据组织 • 数据模型 • 关系模式规范化 • 数据视图概念 • 数据库设计 • 数据仓库与数据挖掘

  22. 数据视图概念 • 用户看到的数据到计算机内的物理数据之间经过了两次转换。第一次是系统为了实现数据共享、减少冗余,把所有用户视图的数据进行综合,抽象成一个统一视图――全局数据。第二次是系统为了提高存取效率,把全局视图的数据按照物理组织的最优方式来存放。 • 图给出了数据库的分层结构。一般来说,数据库系统的基本结构大体上是一致的,可以用三级模式和两级映像来概括描述。

  23. 数据视图概念

  24. 数据视图概念 • 三级模式 • 外模式(External Schema) • 外模式对应于用户级数据库,又称子模式。它用子模式定义语言来定义,而且是用户与数据库的接口,因此,一个子模式中包含了相应用户的记录类型的描述以及与概念模式中相应记录的映像定义。这里,每个用户都必须使用一个子模式,但多个用户也可以使用同一个子模式。 • 概念模式(Conceptual Schema) • 概念模式对应于概念级数据库,又称模式。它用模式定义语言定义。模式的主体是数据库的数据模型,它是所有用户视图数据库的一个最小并集。 • 内模式(Internal Schema) • 内模式对应于物理级数据库,又称存储模式,用物理模式描述语言描述。物理级数据库包括数据库的全部存储数据,是用户操作的对象。从系统程序员的角度看,这些数据是按一定的文件方式组织起来的。

  25. 数据视图概念 • 两级映象 • 在每两级模式之间存在着从一种模式结构到另一种模式结构的映像,这种功能是由DBMS支持的。 • 从外模式到概念模式的映像的作用在于:当整个系统要求改变模式时,只需改变映像关系而保持外模式不变。这种用户级数据独立于全局的逻辑数据的特性称为逻辑数据独立性。 • 从概念模式到内模式的映像作用在于:当物理数据库改变时,只需修改这种映像关系而保持概念模式和外模式不变。这种全局的逻辑数据独立于物理数据的特性叫物理数据独立性。

  26. 本讲内容 • 信息系统的数据管理 • 数据库环境下的数据组织 • 数据模型 • 关系模式规范化 • 数据视图概念 • 数据库设计 • 数据仓库与数据挖掘

  27. 数据库设计 • 数据库设计概述 • 数据库设计的含义 • 数据库设计在管理信息系统的开发中占有非常重要的位置,它涉及多学科的综合性技术。数据库设计的好坏将直接影响整个系统的效率。同时数据库设计者的知识和经验还是非常重要的。 • 规范设计法中主要有新奥尔良(New Orleans)的四个阶段方法,它将数据库设计分为:需求分析(分析用户要求)、概念设计(信息分析和定义)、逻辑设计(设计实现)和物理设计(物理数据库设计)。后来S.B.Yao等人又将数据库设计分为五个步骤,以及L.R.Palmer等人认为数据库设计应该为一步接一步的过程,并采用一些辅助手段实现每一过程。

  28. 数据库设计 • 数据库设计步骤 数据库设计主要包括如下步骤:需求分析;概念结构设计;逻辑结构设计;物理结构设计。 数据库实施阶段的设计步骤为:应用程序设计与调试;系统性能测试与试运行。 数据库使用阶段的设计步骤包括:数据库系统运行;数据库系统维护;数据库系统重构。 本节主要讨论数据库设计阶段的四个步骤

  29. 数据库设计 • 数据库设计步骤 • 需求分析 • 需求分析的任务是详细调查现实世界要处理的对象,充分了解原系统工作概况,明确用户的各种需求,以确定新系统的功能。 • 概念结构设计 • 概念结构设计的任务是对用户的需求进行综合、归纳和抽象,产生一个独立于DBMS的概念数据模型。 • 逻辑结构设计 • 逻辑结构设计的任务是将概念模型(如E-R模型)转换为某个DBMS支持的数据模型,然后再对转换后的模型进行定义描述,并对其进行优化,最终产生一个优化的数据库模式。 • 物理结构设计 • 物理结构设计是为逻辑结构选取最适合应用环境的物理结构,包括存储结构和存取方法。

  30. 数据库设计 • 应用实例 • 下面结合一家公司的销售管理业务来说明E-R模型的设计过程,见P164。

  31. 本讲内容 • 信息系统的数据管理 • 数据库环境下的数据组织 • 数据模型 • 关系模式规范化 • 数据视图概念 • 数据库设计 • 数据仓库与数据挖掘

  32. 数据仓库与数据挖掘 • 数据仓库 • 定义 • 数据仓库是一个面向主题的、集成的、随时间变化的、相对稳定的数据集合,用于支持管理决策。 • 体系结构 • 包含四个层次的体系结构:数据源、数据存储与管理、OLAP服务器、前端工具

  33. 数据仓库与数据挖掘 • OLAP和数据挖掘 • OLAP技术基本概念 • Codd认为用户决策分析需要对关系数据库进行大量计算才能得到结果,而简单查询不能满足决策者需求。也就是说,传统的OLTP和SQL对大数据库的简单查询不能满足用户分析的要求。因此提出多维数据库和多维分析概念,即OLAP。它有两个特点:一是在线性(On-Line),二是采用多维数据库进行多维分析(Multi-Analysis)。

  34. 数据仓库与数据挖掘 • OLAP和数据挖掘 • 数据挖掘概念 • 数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 • 数据挖掘和数据仓库 • 大部分情况下,数据挖掘都要先把数据从数据仓库或数据集市中拿到数据挖掘库。由于数据仓库中的数据已被清理过,而且所有数据不一致的问题都已被解决,因此数据挖掘从数据仓库中的数据进行挖掘较好。

  35. 数据仓库与数据挖掘 • OLAP和数据挖掘 • 数据挖掘过程 • (1)数据清理 • (2)数据集成; • (3)数据选择; • (4)数据变换; • (5)数据挖掘; • (6)模式评估; • (7)知识表示。

  36. 今天你提高了吗?

More Related