270 likes | 344 Views
数据信息产业和 Data Mining. ( 数值分析课内报告) 孟大志. 近十几年来,人们利用信息技术生产和收集数据的能力大幅度提高,千万个数据库被用于商业管理、政府办公、科学研究和工程开发等等,这一势头仍将持续发展下去。于是,二十一世纪,一个新的挑战被提了出来:在这被称之为信息爆炸的时代,如何才能不被信息的汪洋大海所淹没,又能从中及时发现有用的知识,提高信息利用率呢?否则大量的数据可能成为包袱,甚至成为垃圾。因此,面对“人人被数据淹没,人们却饥饿于知识”的挑战,数据挖掘和知识发现技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。.
E N D
数据信息产业和Data Mining (数值分析课内报告) 孟大志
IT业为什么发展这么快?为什么微软的盖兹会成为世界首富?——二十一世纪的需要,社会需要、经济需要、生活需要 ——信息世界的需要! 下一个快速发展的产业是什么?
信息爆炸是一把双刃剑: 巨量的信息是最重要的财富; (30亿个字符的DNA 序列;计算机产业和 数据信息产业) 巨量的信息是最危险的杀手。 (天气预报;网上犯罪与黑客) 决策与理解的危机。 Data Mining是解决问题的方法。
对人类社会影响最大的三类信息: 1)英特网信息 1961年11月21日,ARPANET连接了四个单位:UCLA,加州大学,斯坦福研究院和狄他州大学。当时没有人预见到这种NET将导致影响全人类的因特网! (ARPA:五角大楼高级研究计划暑) 1971年发展到24个站点;1981年突破200个;1990年ARPANET完成使命,指挥权转移到国家科学基金会。开始了因特网。 每季度网站以20%增长,完全超越了摩尔定律。 但是巨量在线信息的处理与应用成为瓶颈。
2)生物与医学信息 DNA的碱基数目,在GenBank中每十四个月增加1倍。还不包括Bioinformation 中所使用的关于核酸、蛋白质,基因组等更大量的信息。 数据处理与分析是更大量的计算: DNA序列结构,致病基因识别,蛋白质空间结构的描述与分析,药物设计等等。
3)全球化的社会管理 个人与单位的资讯, 金融与物资流通, 海陆空交通网络, 气象与环境监测。 生产与市场信息 —— 管理信息系统,ERP, MRP2, 电子政务, 电子商务……。 核心是辅助决策
一、数据仓库(Data Warehousing) 数据:字符集上的字符串的集合(同语言的定义)。 (英文字母,十进数字,汉字,图象,声音…) 数据→信息→知识 信息:数据+结构,减少不确定性; 知识:可重复、有规律的信息并被理解的产物。 信息和知识都可以当作数据:产生更高级的信息和知识 数据库=数据+结构+存储空间 (结构主义,Bourbaki:数学=集合+结构)
数据 ≠ 信息 ≠ 知识 理解信息 知识 理解是核心,是创造,是科学。
结构:集合的子集族。 数据仓库:完整,全面,系统,历史。 例. 图书馆 每本书是字符串的集合,是字符串全集的子集; 分类:按已知的属性把集合中的元素分成子集族,不同的 子集族属于不同的类; 结构: 国际图书分类法; 完善的图书馆是一个好的数据仓库.
数据仓库是面向决策支持的、集成的、 稳定的、不同时间的历史的数据集合。 数据结构:理解,发现,表达,应用。 结构是从数据构成信息的核心,相同的数据赋予不同的结构,得到不同的信息。 例1. 下雨天 留客天 留我不留? 下雨天留客 天留我不留。
例2.相同的数据,不同结构产生不同的文学信息例2.相同的数据,不同结构产生不同的文学信息 宋词 清明时节雨 纷纷路上行人 欲断魂。 借问酒家何处 有牧童 遥指杏花村。 唐诗 清明时节雨纷纷, 路上行人欲断魂。 借问酒家何处有? 牧童遥指杏花村。 剧本(元曲) [清明时节][雨纷纷] [路上] 行人(欲断魂): 借问酒家何处有? 牧童(遥指):杏花村。
二、Data Mining 1。什么是数据挖掘 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 相近似的术语:从数据库中发现知识(KDD)、 数据分析、数据融合(Data Fusion)等。 人们把原始数据看作是形成知识的源泉,就象从矿石中采矿一样。 原始数据是可以结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形、图象数据,甚至是分布在网络上的异构型数据。
分析数据的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。 分析了的数据可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。 例:IC卡数据 地理信息系统 人流动态图用途:公交,水电,房地产,商业,环境…长远:经济评价,分析与预测。 数据挖掘是一门很广义的交叉学科,它汇聚了不同领域的研究者,尤其是数学,数据库、人工智能、数据统计、可视化、并行计算等方面的学者和工程技术人员。
2.知识发现 “查询是数据库的奴隶,发现才是数据库的主人。” 数据挖掘能发现的知识类型: 广义型知识,反映事物共同性质的知识; 特征型知识,反映事物各种特征的知识; 差异型知识,反映事物的属性差别的知识; 关联型知识,反映事物之间的依赖和关联的知识; 预测型知识,根据历史和当前的知识预测未来的知识; 偏离型知识,揭示事物偏离常规的异常现象的知识; 在不同概念层次上发现:微观,中观,宏观,…
3.挖掘方法 根据开采任务分:预测模型发现,数据总结,分类与聚类,关联规则发现,序列模式发现,依赖关系和依赖模型发现,异常与趋势发现… 根据开采对象分:关系数据库,面向对象数据库,空间数据库,时态数据库,文本数据源,多媒体数据库,环球Web网… 根据开采方法分:机器学习,统计,神经网络,数据库… [归纳学习方法(决策树,规则归纳),基于范例学习,遗传算法;回归分析,判别分析,聚类分析;BP算法,自组织神经网络…]
4.几个具体方法 1)分类. 分类是理解的基础 分类器构造方法: 机器学习,神经网络,统计… 评价和比较尺度: 预测准确性,计算复杂度,模型简洁度. 2) 聚类. 发现共性,概念与规律 动态聚类法,有序样品聚类,有重复聚类,模糊聚类… 3) 关联规则发现. “在购买面包和黄油的顾客中,90%的也买了牛奶” 泛化关联规则: 界定物类层次,确切关联意义. 例. DNA序列的结构分析中,基因与AT丰度 例. 一场持续几年的思想争论中,焦点是什么?
例. 结构并不是一切:音韵数据与挖掘 “shi” 2,3,1,4,1,4,4,1,“,”,4,2,2,1,“,”,4,2,2,4,4,1,“。”,2,2,“,”,4,4,4,“。”,4,2,1,4,4,“,”,4,2,“,”,4,4,4,2,1,“,”,4,2,2,1,4,“,”,3,4,2,1,4,4,“,”,4,2,4,2,1,1,4,2,3,“。”,2,3,1,“,”,3,4,4,4,2,3,“。”,2,3,4,“,”,4,2,4,2,4,2,1,1,“。”,2,2,“,”,3,2,4,2,1,1,2,4,2,1,1,“。”,4,2,“,”,4,3,2,4,2,4,2,“,”4,4,4,4,“。” 1:狮,施,湿,诗,尸,矢 2:十,石,拾,实,时,食,识 3:使,室,始 4:是,事,市,试,世,逝,嗜,誓,释,恃,视,弑,适,氏
《施氏食狮史》 赵元任 石室诗士施氏嗜狮,誓食十狮,氏时时适市视狮。十时,氏适市,适十狮适市。是时,氏视是十狮。恃十石矢势,使是十狮逝世,氏拾是十狮尸适石室。石室湿,使侍试拭石室。石室拭。氏拾试食是十狮尸。食时,始识是十狮尸实石十狮尸。是时,氏始识是实事实,试释是事。
三. 网络信息处理-------自动文本分析 文本向量: 由文本的全部词的特征值或特征模式为分量 的向量. 以信息熵的形式构造. 文本向量空间: 全部文本向量的高维线性空间. 特征子空间: 又具有某种共同意义的分量组成的子空间. 主义 自由 个人 文本自动分类: 理解文本的类属性,子空间分类. (SVM的微分几何方法) 文本自动聚类: 发现文本集合中的新模式,新概念.
中国青年报2003/4/3: 今年三月,泰农银行总裁来京特别想了解北京的潜在客户群情况,看看与泰国进行贸易往来有哪些企业? 我是英国人,曾在德国摩根建福投资银行工作,现在作国外金融机构的中国事物投资顾问:“是否在京投资?要投多少?什么方式?盈利情况如何?” 他们在北京经过调查,得到的结论是:“两眼一摸黑!” 于是,报刊呼吁:北京应该有金融信息咨询机构!并且成立了相应的机构,指导咨询者到哪里去找信息。 这样的结果可能解决问题吗?……企业界? 商业界?各行各业都需要资料和数据咨询!
四.数据信息产业 1.经济发展的必然现象:数据爆炸 • 国家统计局公布或可查阅数据;政府部门统计部门可查阅数据;国家部门专有数据(银行,保险,证卷业,税务,工商,人口,环保等);非国营企事业单位可采集数据(生产,经营,纳税及财务);商业系统数据(超市票据);公用事业数据(地铁,工交票务或IC卡数据);个人资料与经济数据…等。
2.数据的商业价值 数据是有价原料; 加工后的商品是信息; 再加工后的商品是知识,是更有价值的商品。 网络造就了信息业,信息业的主要价值却不在信息的存储和传输----网络,而在信息本身。 数据信息产业是比今天的IT业更大的产业。
数据挖掘例:超市数据处理与分析. • 数据资源: 销售原始清单, 采购清单, 商品配放三维位置数据 • 库,导购员位置, 采购推车损耗率, 停车场使用密度, …等; b)构造数据仓库:相对完整的历史数据,形成动态数据库,赋予 信息处理的数据结构; c) Data Mining技术:动态数学模型,分类,聚类,相关性,规则 提取,…(统计,机器学习,SVM等); d)产生有价值信息与商业知识:“人-商品-商场”三位相关性分析, 动态关系分析,可以提供与时间相关的商品采购计划,安全库存 量模型,商品搭配与货柜设计策略,以至商场改造与再设计等有 重大商业价值的信息与知识; e) 外延价值:城市超市整体数据库的长期积累可以提供超市分布与再投资分析与风险预测,甚至经济发展分析与预测。对政府的经济政策提供资信。
3.数据信息产业 数据信息产业是利用数据信息本身的商业价值来创造利润的行业. 数据信息产业在市场经济中的必要性和重要性: .利用数据信息拓展多种销售渠道是企业经营活动的 重心; .完整准确的信息是广泛市场到目标市场转型的首要 条件; .什么是目标市场; .目标市场在顾客关系管理 (CRM) 中的重要性; .目标市场在市场商业活动中将发挥重要作用并成 为主要发展趋势; .数据信息产业的发展是经济高度完善和成熟的标志。
数据信息产业在金融业中的作用 • .联合诚信体系 (Credit Bureau) 是信息产业的一个 • 极好实例; • .信用卡在发达国家已成为普遍使用的支付手段; • .在美国和全世界最为流行的四种信用卡: • 最早发行的快捷卡 (American Express) • 世界发行量最大的签证卡 (Visa) • 富有首创精神的百事达卡 (Master) • 发现卡 (Discover) • .信用卡市场的开发和诚信体系的完善紧密相关 • .美国联合诚信体系经历了从小到大的发展历程 • .全世界最大的三家联合诚信体系 (Credit Bureau) 公司: 历史最长的 EFX (EquiFax) 公司 • 业务范围最大的 Experian 公司 • TransUnion 公司
数据信息产业-----数据信息市场 :物质市场的催化剂 没有酶生命不能存在一分钟; 没有数据信息产业和市场,物质商品市场将不能发展到 高级的水平,市场将萎缩,经济将衰退。 谢谢!