1 / 51

数据库及其新技术发展

数据库及其新技术发展. Yuan Xiaojie Dept. of Computer Science and technology, Nankai University. 数据库技术的演化. 数据收集和数据库创建 ( 20 世纪 60 年代和更早). 数据库管理系统 ( 70 年代). 数据仓库和数据挖掘 ( 80 年代后期 -- 现在). 基于 Web 的数据库系统 ( 90 年代 -- 现在). 高级数据库系统 ( 80 年代中期 -- 现在). 新一代综合信息系统 ( 2000--... ). 讲座主要内容. DBMS. 数据仓库. 数据挖掘.

denver
Download Presentation

数据库及其新技术发展

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 数据库及其新技术发展 Yuan Xiaojie Dept. of Computer Science and technology, Nankai University

  2. 数据库技术的演化 数据收集和数据库创建 (20世纪60年代和更早) 数据库管理系统 (70年代) 数据仓库和数据挖掘 (80年代后期--现在) 基于Web的数据库系统 (90年代--现在) 高级数据库系统 (80年代中期--现在) 新一代综合信息系统 (2000--...)

  3. 讲座主要内容 DBMS 数据仓库 数据挖掘 • 为什么需要DBMS • DBMS主要功能 • DBMS系统演示 • 为什么需要数据仓库 • 数据仓库主要功能 • 数据仓库系统演示 • 为什么需要数据挖掘 • 数据挖掘主要功能 • 数据挖掘系统演示

  4. DBMS 为什么需要DBMS 文件系统是否可以完成数据库的存储功能? 利用C++编写数据存储程序样例 #include <fstream.h> struct Date{intiMonth,iDay,iYear;}; void main() { Date dt={6,10,92}; ofstreamdatafile("ata.dat",ios::binary); datafile.write((char *)&dt,sizeofdt); }

  5. ata.dat: 06 00 00 00 0A 00 00 00 5C 00 00 00

  6. 建立自己数据库所面临的问题 • 元数据(metadata),关于数据的数据 • 创建自己的C++数据库时,需要在自己的源代码中定义元数据,使得任何想使用这些数据的人不得不访问你的源代码 • 用于处理文件封锁和开锁的源代码会相当复杂 • 采用现有的数据库管理系统是最佳选择

  7. 数据库应用实例 • 银行系统 • 数据项有:姓名、地址、帐号、存款、结余等 • 基本操作:查询、更新、转帐等 • 不能出现任何错误:并发操作、支取现金等 • 订票系统 • 数据项有:航班信息、机票信息、预定信息等 • 基本操作:查询时间、票价、座位等,更新信息等 • 并发访问处理,系统崩溃处理,防止信息丢失等

  8. 数据库系统的主要特点 • 数据结构化 • 数据不再面向某一应用,而是面向整个系统 • 数据的共享性高、冗余度低、易扩充 • 具有较高的数据独立性 • 物理数据独立性、逻辑数据独立性 • 对数据实行集中统一的控制 • 数据的安全性保护 • 数据的完整性检查 • 并发控制 • 数据库恢复

  9. 现实世界 认识、抽象、命名、分类 信息世界 概念模型 (不依赖computer) 转换 机器世界 DBMS支持的数据模型 数据模型解释

  10. 基本数据模型 数据库中的数据是按照一定的逻辑结构存放的,这种结构是用数据模型来表示的

  11. An Example of a Relation Table name Attribute names Products: Name Price Category Manufacturer gizmo $19.99 gadgets GizmoWorks Power gizmo $29.99 gadgets GizmoWorks SingleTouch $149.99 photography Canon MultiTouch $203.99 household Hitachi tuples

  12. 关系数据库数据库 Project Department Workson Employee

  13. 关系数据库标准语言SQL • SQL(Structured Query Language)是1974年由Boyde和Chamberlin提出的 • SQL is a very-high-level language • User can say “what to do” rather than specify “how to do it” • Can avoid specifying a lot of data-manipulation details needed in procedural languages like C++ or Java • Database management system figures out “best” way to execute query • Called “query optimization”

  14. 创建关系表 CREATE TABLE [department] ( deptno char(4) PRIMARY KEY , deptname char(25), location char(20) ) CREATE TABLE [employee] ( empno int PRIMARY KEY empname char(20), deptno char(4) REFERENCES department(deptno), )

  15. 查询关系表 查询所有员工的工作地点 select empno, empname, location from employee, department where employee.deptno=department.deptno

  16. 在关系表中插入数据 insert into department values ('d5','工程部','上海')

  17. DBMS的核心技术 数据存储与索引 CREATE TABLE [employee] ( empno int PRIMARY KEY empname char(20), deptno char(4) REFERENCES department(deptno), ) 需要数据结构知识 需要操作系统知识

  18. DBMS的核心技术 查询处理和查询优化 数据库查询的实现: 数据 结果 OS可执行 的操作 执行 用户数据 需求 关系数据 操作语句 描述 DBMS翻译 数据库查询的优化: 数据库查询有多种实现算法,其时间运行效率差异很大,DBMS采取一些措施,自动选择较优的算法,以花费较小的代价实现用户所需的查询

  19. 查询处理和查询优化 select empno, empname, location from employee, department where employee.deptno=department.deptno 需要编译原理知识 需要离散数学知识

  20. DBMS的核心技术

  21. 数据仓库与数据挖掘 Data Warehousing, OLAP and data mining what and why (now)?

  22. 哪些是我们的最低或最高利润率的客户? 谁是我们的客户?他们要购买什么产品? 什么是最有效的分销渠道? 什么产品促销活动会对收入产生较大影响? 哪些客户最有可能参与竞争 新产品/服务会对收入和利润产生什么影响? 人们想知道……

  23. Data, Data everywhere yet ... • 无法找到需要的数据 • 数据分散在网络中 • 有许多版本,微妙的差异 • 无法得到需要的数据 • 需要专家帮助得到数据 • 无法理解找到的数据 • 可用的数据质量很差 • 无法使用找到的数据 • 结果出乎意料 • 数据需要从一种形式转化为其他

  24. What is a Data Warehouse? 数据仓库概念最早是1988年Barry Devlin和 Paul Murphy在IBM系统杂志上一篇名为“一个商业和信息系统结构”的文章中提出的。从系统的观点来看,商业智能的过程是: 从不同的数据源收集的数据中提取有用的数据,对数据进行清理以保证数据的正确性,将数据经转换、重构后存入数据仓库,然后寻找合适的查询和分析工具、数据挖掘工具、OLAP工具对信息进行处理,最后将知识呈现于用户面前,转变为决策。

  25. 为什么要建立数据仓库? 决定DECISIONS 知识KNOWLEDGE 数据DATA • 财经的 Financial • 经济的Economic • 政府Government • 销售分数Point-of-Sale • 人口统计学Demographic • 生活方式Lifestyle • Patterns • Trends • Facts • Relations • Models • Associations • Sequences • Target Markets • Funds allocation • Trading options • Where to advertise • Catalog mailing list • Sales geography

  26. Reporting, OLAP, Data Mining Data Analysis Data Storage Repository Middleware (Populations-Tools) Data-Migration OperationalData Sources Data Warehouse Architecture

  27. 用户视图(OLAP Tool)

  28. ROLAP- Engine Multidim. Database DW Integration MOLAP ROLAP Client- OLAP DW-DB (mostly relational)

  29. Year Month Country Region Day Prod. Type Branch Product Line Margin Range Customer Sales Rep Name Code Customer Type Example Data Model Sale 收入 成本 订货量

  30. Januar 99 Februar 99 1. Quartal 99 März 99 April 99 Mai 99 2. Quartal 99 Juni 99 Simple Hierarchies 1/2 Year Period Month Quarter Year Dimension Level 1. Halbjahr 99 1999 Juli 99 August 99 3. Quartal 99 2. Halbjahr 99 Sept. 99 ............

  31. Restriction Element Result Measures A m1 m2 B A B Query Result Result Granularity 典型查询(I)

  32. Canonical Query Definition Result Measures m1 … mk Restriction Elements r1 r2 … rn Result Granularity g1 g2 … gn 典型查询(II) • SELECTg1,...,gn, aggr(m1),..., aggr(mk)FROM FactName, Dim1,..., DimnWHERE Dim1.level(r1) = r1AND ... AND Dimn.level(rn) = rn • AND Dim1.d1=FactName.d1 AND ... AND Dimn.dn=FactName.dnGROUP BYg1,...,gn

  33. Data Mining works with Warehouse Data Data Warehousing provides the Enterprise with a memory • Data Mining provides the Enterprise with intelligence

  34. 应用领域 Industry Application 财经 信用卡分析 索赔,欺诈分析 保险 电信 呼叫记录分析 运输 物流管理 消费品 促销分析 数据服务提供商 增值数据 公用事业 功耗分析 …… ……

  35. 数据挖掘都干了些什么? • 英国电信需要发布一种新的产品,需要通过直邮的方式向客户推荐这种产品…… • 通过数据挖掘的方法使直邮的回应率提高了100% • GUS日用品零售商店需要准确的预测未来的商品销售量,降低库存成本…… • 通过数据挖掘的方法使库存成本比原来减少了3.8%

  36. 数据挖掘都干了些什么? • 美国国防财务部需要从每年上百万比的军火交易中发现可能存在的欺诈现象…… • 发现可能存在欺诈的交易,进行深入调查,节约了大量的调查成本 • 汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户…… • 营销费用减少了30%

  37. 数据挖掘效益分析(直邮) (Big Bank & Credit Card Company) 目的:发现新客户

  38. 数据挖掘的主要功能——可以挖掘哪些模式? • 一般功能 • 描述性的数据挖掘 • 预测性的数据挖掘 • 通常,用户并不知道在数据中能挖掘出什么东西,对此我们会在数据挖掘中应用一些常用的数据挖掘功能,挖掘出一些常用的模式,包括: • 概念/类描述: 特性化和区分(定性与对比) • 关联分析 • 分类和预测 • 聚类分析 • 孤立点分析 • 趋势和演变分析

  39. 数据挖掘的案例:“啤酒”和“尿布” • 一则广为流传的案例:啤酒和尿布的故事 • 美国加州某个超市连锁店发现: 在下班后前来购买婴儿尿布的顾客多数是男性,他们往往也同时购买啤酒。 • 处理:重新布置了货架,啤酒类商品、婴儿尿布、土豆片之类的佐酒小食品、男士们日常生活用品就近布置。 • 结果:上述几种商品的销量几乎马上成倍增长。

  40. 分类与预测 • 自动文档分类(Automatic Text Categorization,ATC), 在给定的分类体系下,根据文本的内容用计算机程序确定文本所属类别的过程. • 分类过程 • 构建分类器的方法 • Rocchio方法 • 朴素Bayes (Naive Bayes) • k-近邻法(k-Nearest Neighbor,kNN): • 支持向量机(support vector machine,SVM) • 。。。。 • 分类结果评估 • 特征选取的方法 • 预测: 多用于连续的数值数据

  41. 分类的两个阶段 a.模型训练阶段 训练集 b.使用模型 分类阶段 评估准确率(测试集) 对类标号未知的新 数据分类

  42. Training Dataset This follows an example from Quinlan’s ID3 数据仓库与数据挖掘技术

  43. Output: A Decision Tree for “buys_computer” age? <=30 overcast >40 30..40 student? credit rating? yes no yes fair excellent no yes no yes 数据仓库与数据挖掘技术

  44. 聚类分析 • 聚类是对数据对象进行划分的一种过程,与分类不同的是,它所划分的类是未知的,故此,这是一个“无指导的学习”(unsupervised learning)过程,即聚类算法不需要“教师”的指导,不需要提供训练数据,它倾向于数据的自然划分。 • 文本聚类(Text clustering): 将文本集合分组成多个类或簇,使得在同一个簇中的文本内容具有较高的相似度,而不同簇中的文本内容差别较大。它是聚类分析技术在文本处理领域的一种应用。

  45. 孤立点分析 • 与数据的一般行为或模式不一致。多数为噪声或异常数据,常被剔除。 • 在某些应用中,孤立点数据更有趣,如:银行诈骗,洗黑钱、恐怖行为。 • 有专门进行孤立点研究的方法与技术。统计方法是占主流,考察数据的分布,用距离来度量。

  46. 演化分析 • 对随时间变化的数据对象的变化规律和演化趋势进行建模分析。(时序数据库) • 如对主要股票的交易数据进行建模分析。 • 方法 • 趋势和偏差: 回归分析 • 序列模式匹配:周期性分析 • 基于类似性的分析

  47. 在何种数据上进行数据挖掘 • 关系数据库 • 数据仓库 • 事务数据库 • 高级数据库系统和信息库 • 空间数据库 • 时间数据库和时间序列数据库 • 流数据 • 多媒体数据库 • 面向对象数据库和对象-关系数据库 • 异种数据库和历史(legacy)数据库 • 文本数据库 • 万维网(WWW)

  48. http://www.sigkdd.org/kddcup

More Related