1 / 37

数据库原理及应用

数据库原理及应用. 第 8 章数据库技术发展动态 仲恺农业工程学院 计算机科学与工程学院. Principles and Applications of the Database. 第 8 章数据库技术发展动态. 本章导读

cosima
Download Presentation

数据库原理及应用

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 数据库原理及应用 第8章数据库技术发展动态 仲恺农业工程学院 计算机科学与工程学院 Principles and Applications of the Database An Introduction to Database System

  2. 第8章数据库技术发展动态 • 本章导读 • 数据库是计算机科学技术中发展最快,应用最广泛的重要分支之一,它已经成为计算机信息系统和计算机应用系统的重要技术基础和支柱。探究其发展的基础可以涉及到两种源动力。一种是方法论的发展,其中较为典型的代表是:面向对象数据库 (OODB) 技术、分布式数据库(DDB)技术和多媒体数据库(MDB)技术的发展和形成;另一种是数据库技术与相关技术的有机结合,如主动数据库、并行数据库、工程数据库、时态数据库、模糊数据库、演绎数据库、统计数据库、空间数据库、知识库和科学与文献数据库等,它们都是特定技术领域的知识通过数据库技术,实现对特定数据对象的计算机管理并实现对被管理数据对象的操作。 计算机科学与工程学院

  3. 第8章数据库技术发展动态 • 本章要点 • 数据库技术发展的主要特点 • 新一代数据库技术的特点 • 掌握数据模型的发展 • 面向应用的数据库新技术 计算机科学与工程学院

  4. 第8章数据库技术发展动态 8.1 面向对象数据库系统 8.2 分布式数据库系统 8.3 并行数据库系统 8.4 其他数据库 8.5 数据仓库 本章小结 计算机科学与工程学院

  5. 8.1 面向对象数据库系统 • 8.1.1 面向对象数据库系统的基本概念 • 8.1.2 面向对象数据库系统的特征 • 8.1.3 面向对象数据库系统的查询 • 8.1.4 面向对象数据库系统的并发控制 • 8.1.5 面向对象数据库管理系统OODBMS 计算机科学与工程学院

  6. 8.2 分布式数据库系统 • 8.2.1 分布式数据库及其分类 • 1.分布式数据库(Distributed Data Base ,DDB) • 分布式数据库是计算机网络环境中各场地(Site)或节点(Node)上数据库的逻辑集合。它是一组结构化的数据集合,逻辑上属于同一系统,而物理上分布在计算机网络的不同节点上,具有分布性和逻辑协调性的特点。 • 分布性是指数据不是存放在单一场地为单个计算机配置的存储设备上,而是按全局需要将数据划分成一定结构的数据子集,分散地存储在各个场地(节点)上。 • 逻辑协调性是指各场地上的数据子集,相互间由严密的约束规则加以限定,而在逻辑上是一个整体。 • 实际上,基于以上两个特性的DDB是虚拟的、逻辑的,即是由许多LDB逻辑组织而成的,它是针对于全体用户的、全局的数据库。 计算机科学与工程学院

  7. 8.2.1 分布式数据库及其分类 • 2.分布式数据库的分类 • 分布式数据库的类型很多,根据不同的准则,有不同的分类方法。我们从数据冗余、全局数据库的构成、数据库分级结构和本地数据库的配置等方面对它们分类。 • (1)按数据冗余分类,全局分布数据库的数据分布到网络中各结点时,会有如下情况:完全复制型、完全分割型、子集复制型、子集分布型。 • (2)按全局数据库的构成分类:同构型分布数据库、异构型分布数据库。 • (3)按本地数据库的配置方式可分成:可分布访问的集中数据库、中心数据库加专用数据库、多级分布数据库、水平分布数据库。 • (4)按本地数据库的数据是否全部集成到全局数据库中分类:对等型分布数据库(Peer-to-Peer DBS)、多数据库系统(Multi-DBS)。 计算机科学与工程学院

  8. 8.2.2 分布式数据库的分级结构 • 1.对等型分布数据库的分级结构 • 对等型的分级结构如图8-1,它的全局概念模式是所有结点本地概念模式的并集。 图8-1 ANSI/SPARC分布DB参考结构 计算机科学与工程学院

  9. 8.2.2 分布式数据库的分级结构 • 2.多数据库系统的分级结构 • 多数据库放宽了分布数据库中所有数据从逻辑上看必须都在一个全局数据库中的要求,允许部分数据只供本地用户使用。这里又有两种参考结构: • (1)带有全局要领模式的参考结构如图8-2所示。在此种结构中,全局概念模式是本地概念模式的集成。本地用户的外模式定义在本地概念模式上,不改变本地用户原来使用本地数据库的方式。全局用户的外模式定义在全局概念模式上,用统一的语言访问多数据库。 计算机科学与工程学院

  10. 2.多数据库系统的分级结构 图8-2 有全局概念模式的MDBS结构 计算机科学与工程学院

  11. 2.多数据库系统的分级结构 • (2)无全局要领模式的参考结构如图8-3所示。在此种结构中,将MDBS分布为两层:本地系统层和多数据库层。本地系统层由各本地数据库组成;多数据库层由多数据库用户的外模式组成。这些外模式可以定义在一个或多个本地概念模式上。用户用编程通过外模式访问MDBS,而实现对各本地数据库访问的责任交给多数据库层与本地系统层之间的映射。 计算机科学与工程学院

  12. 2.多数据库系统的分级结构 图8-3 无全局概念模式的MDBS结构 计算机科学与工程学院

  13. 3.联邦式数据库的分级结构 • 联邦数据库系统由一组既协同工作又独立自治的部件数据库系统组成。这些部件DBS可以是CDB、DDB、甚至是另一个FDBS。如图8-4所示,联邦数据库结构包含如下几个部分: 图8-4 联邦数据库结构 计算机科学与工程学院

  14. 3.联邦式数据库的分级结构 (1)本地模式:它是部件DBS的概念模式。 (2)部件模式:它是本地模式经转换器处理后变成FDBS公共数据模型的形式。 (3)输出模式:它给出了部件模式可被FDBS使用的一个子集和一些访问控制信息。 (4)联邦模式: 它是各输出模式的并集,由各输出模式经构造器生成。 (5)外模式: 外模式由联邦模式经过滤器导出,其数据模型可以不同。 (6)转换器:把一种数据模型(格式)转换为另一种数据模型(格式)。把一种数据语言转换为另一种数据语言。 (7)过滤器:限制从一层处理器传送到另一层处理器的命令和相应的数据。 (8)构造器:把单个处理器的操作,分解、复制成多个操作(查询分解)。把多个处理器产生的数据合并成单个数据集合(模式集成)。 计算机科学与工程学院

  15. 8.2.3 数据分布 • 在构成分布式数据库系统的运行环境时,必须考虑构成分布式数据库系统所应用的各个组成部分各自如何使用数据的问题,所以,分布式数据库系统同样存在着分布式数据库DDB的设计问题,这就是数据分布。它包括了分布式数据库的逻辑划分和物理分配,以及用户对分布式数据库的划分或分配的感知程度(透明度)。 • 数据分布的主要目的是提高访问的局部性。即通过数据的合理分布,尽可能地使更多的数据能够就地存放,以减少远距离的数据访问,但在任何分布式数据库中,达到所有数据的访问都局部化是不可能的。即使多复本也只能达到读的完全局部化,对于数据的更新则需各个复本同步更新,因此仍然需要进行远程访问。一个成功的分布式数据库的设计应使访问的局部性能更好。数据分布的目的是为了就地访问而不是分布访问。 计算机科学与工程学院

  16. 8.2.3 数据分布 数据分布包括分割和分配两个方面,可以描述为以下两个步骤:先从逻辑上将全局概念模式,即全局关系模式,划分成若干逻辑片段(子关系)——分割;再按一定的冗余度将片段分配到各个节点上,这时逻辑片段就成为具体的物理片段——分配。 对分布式数据库分割后,仍应保持DDB原有的特质,所以分割后的各逻辑关系之间应遵循下列原则: (1)完整性原则。全局关系的所有数据必须包括在任何一个片段中,不允许出现某个数据属于全局关系,但却不属于任何片段。 (2)重构性原则。所有片段必须能重构(逆操作)成全局关系。 (3)不相交原则。不允许一个全局关系的某些数据既属于该全局关系的某一个片段又属于该全局关系的另一个片段。即要求一个全局关系被分割后得到的各个数据片段必须是相互不重叠的。 计算机科学与工程学院

  17. 8.2.3 数据分布 • 分割后的工作便是分配,分配的目标是将已分割好的片段分配到不同的场地中去,使得某节点对某片段的访问尽量为本地访问。分配的过程是线性的,亦即分割的输出是分配的输入。显然,分割与分配有着天然的联系,二者的区别仅在于分割着眼于全局,分配则考虑片段关系。数据分配一般有以下几种方式: • (1)集中型。数据虽经划分,但所有逻辑片段完全集中在一个场地上,仍然像一个集中数据库一样。 • (2)分割型。数据被划分后,所有逻辑片段各自分配在一个场地上,所有场地上分配的只是全局关系的一个子关系。 • (3)混合型。数据被划分后的逻辑片段根据需要分配,共享的片段在需要共享的场地上重复设置,高度私用的片段只设置在所需要的场地上。 计算机科学与工程学院

  18. 8.3 并行数据库系统 8.3.1 并行结构模型 8.3.2 数据分置与数据偏斜 计算机科学与工程学院

  19. 8.3.1 并行结构模型 • 并行计算机是并行数据库的基础。1986年,美国学者M.Stonebraker提出了并行计算机的3种并行结构模型。 •   (1)共享主存结构(Shared Memory)简称SM结构,也称全共享结构(SE-Shared Everything)。在此种结构中,各处理机通过共享主存通信,每个处理机都能访问任一存储单元和任一磁盘单元,处理机与存储器之间通过高速总线或交叉开关连接,如图8-5(a)。这是目前较成熟的结构,居市场主流。采用该结构的机器有IBM的IBM3090,BULL的DPS8,Sequent和Encore公司的对称多处理机等。该结构的优点是:结构简单、负载均衡、通信效率高。缺点是:维护开销大、可扩充性受限制、可用性低。建立在这种结构上的并行数据库系统有:XPRS、DBS3、Volcalno、IBM3090上的DB2等。 计算机科学与工程学院

  20. 8.3.1 并行结构模型 • (2)共享磁盘结构(Shared-Disk)简称SD结构,如图8-5(b)。在此种结构中,每个处理机有自己的内存,通过高速互连网,可以访问任何磁盘。这种结构的优点是可扩充性好,负载均衡,维护开销不大,可用性较高。缺点是复杂度较高,潜在性能较低的问题。建立在该类结构上的并行数据库系统有IBM的IMS/VS数据共享产品,DEC公司的VAX DBMS和Rdb产品,以及在DEC cluster和NCUBE计算机上的ORACLE数据库实现等。 计算机科学与工程学院

  21. 8.3.1 并行结构模型 • (3)无共享结构(Shared Nothing)简称SN结构,如图8-5(c)。这是一种松耦合系统,每个计算机系统通过高速网络互连,各计算机系统独占自己的主存与磁盘,这种结构的并行数据库本质上是一种分布数据库。无共享结构的优点很突出:它的扩充性好,增加新结点系统可平衡地增长,线性加速比好,在多个结点上复制数据,可增加系统可用性、可靠性,资源竞争对系统的干扰小,系统维护开销不大。而该结构的缺点是复杂度高,负载平衡难于达到,因为它依赖于数据库中数据的分割与放置。建立在该结构上的并行数据库有Teradata的DBC、Tandem的NonStopSQL产品以及原型系统BUBBA、EDS、GAMMA、GRACE、PRISMA等。 计算机科学与工程学院

  22. 8.3.1 并行结构模型 (b)共享磁盘 (a)共享主存 (c)无共享 图8-5 并行结构模型 计算机科学与工程学院

  23. 8.3.2 数据分置与数据偏斜 • 1.数据分置 • 类似于分布数据库中的数据分布,并行数据库中的数据如何分布到各结点的存储设备上去呢?这就是数据分置(Data Placement)问题。它由数据划分和分配两部分组成。要把数据分置到不同结点上,首先要对数据进行划分(Partitioning),这类似于分布数据库中的全局关系分段。分段与分布是以用户使用数据的方式以及在什么结点使用为依据的。与此不同,并行数据库的用户查询并不与特定结点相联系,数据分置不考虑特定用户的特定应用,它的目标是有利于用户查询的并行处理。 •   基本的数据分置方法有:轮回分置法(Round-Robin)、哈希分置法(Hash)、范围分置法(Range)以及多维数据分置法(Multi-Dimension)等。 计算机科学与工程学院

  24. 8.3.2 数据分置与数据偏斜 • 2.数据偏斜(Data Skew) •   数据偏斜是对并行执行效果有影响的数据分布不均匀的总称。Walton等人将数据偏斜分类如下: •   (1)属性值偏斜。这是数据集本身固有的。如我国人口信息中,民族属性的值分布不均,汉族比少数民族多得多。   •   (2)元组分置偏斜。数据初始分置时使用哈希分置或范围分置方法由分置属性分布不均引起的。 •   (3)选择性偏斜。由选择谓词时对每个结点的选择率不同引起的,它使选择操作在每个结点产生的结果大小不均。 计算机科学与工程学院

  25. 8.3.2 数据分置与数据偏斜 • (4)重分置偏斜。在两次操作中间,对第一次操作的结果重新分置,供第二次操作使用。与元组分置偏斜类似,重新分置也可能引起数据偏斜。 • (5)连接结果偏斜。由结点间数据分置偏斜,连接选择率不同造成的。 •   数据偏斜不能很好地发挥操作的并行性、负载的均衡性,显著地降低了并行数据库系统的性能。有些文章研究了抗数据偏斜的方法,减少数据偏斜对并行数据库的影响。 计算机科学与工程学院

  26. 8.4 其他数据库 • 8.4.1 模糊数据库 • 8.4.2 模糊演绎数据库 • 8.4.3 空间数据库 • 8.4.4 统计与科学数据库 • 8.4.5 时态和历史数据库 • 8.4.6 实时数据库 • 8.4.7 主存数据库 • 8.4.8 移动数据库 • 8.4.9 多媒体数据库 • 8.4.10 主动数据库 • 8.4.11 工程数据库 计算机科学与工程学院

  27. 8.5 数据仓库 8.5.1 数据仓库概念和特点 • 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构数据源的有效集成,集成后按照主题进行重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。 • 根据数据仓库概念的含义,数据仓库拥有以下四个特点: 计算机科学与工程学院

  28. 8.5.1 数据仓库概念和特点 • (1)面向主题。主题是一个抽象的概念,指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。 • (2)集成的。数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。 • (3)相对稳定的。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。 • (4)反映历史变化。数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。 计算机科学与工程学院

  29. 8.5.2 数据仓库的体系结构 整个数据仓库系统是一个包含四个层次的体系结构,具体如图8-10所示。 图8-10 数据仓库系统体系结构 计算机科学与工程学院

  30. 8.5.2 数据仓库的体系结构 • 数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等。 计算机科学与工程学院

  31. 8.5.2 数据仓库的体系结构 • 数据的存储与管理:是整个数据仓库系统的核心。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。 计算机科学与工程学院

  32. 8.5.2 数据仓库的体系结构 • OLAP服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:ROLAP、MOLAP和HOLAP。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。 计算机科学与工程学院

  33. 8.5.2 数据仓库的体系结构 • 前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。 计算机科学与工程学院

  34. 8.5.3 数据仓库系统的三个工具层 • 1.联机分析处理(OLAP) • 2.决策支持系统(DSS) • 3.数据挖掘 计算机科学与工程学院

  35. 8.5.4 数据仓库的关键技术 • 与关系数据库不同,数据仓库没有严格的数学理论基础,它更偏向于工程。由于数据仓库的工程性,因而在技术上可以根据它的工作过程分为:数据的抽取、存储和管理、数据的表现以及数据仓库设计的技术咨询四个方面。 计算机科学与工程学院

  36. 本章小结 • 本章分别讨论了面向对象数据库、分布式数据库、并行数据库和其他数据库。由于数据仓库技术的迅速崛起,较详细介绍了其相关内容。通过这些内容说明了数据库技术的最新发展。通过本章的学习,读者应该: • 掌握数据库技术的发展历程和数据库技术的发展方向。 • 理解数据库技术与其它技术相结合产生的新的类型数据库。 • 理解面向特定领域的数据库 • 掌握传统数据库与数据仓库的异同。 计算机科学与工程学院

  37. 下课了。。。 追 求 计算机科学与工程学院

More Related