Data Mining

Data Mining By Yao Li-xiu: 34204010 lxyao@sjtu.edu.cn

Outline: • Introduction • Data Preprocessing • Concept Description • Association Rules • Classification and Regression • Clustering

Chapter 1 Introduction AI、ML、PR、DM Function &Applicaton

定义1 人工智能是一种使计算机能够思维，使机器具有智力的激动人心的新尝试。定义2 人工智能是那些与人的思维、决策、问题求解和学习等有关活动的自动化。定义3 人工智能是用计算模型研究智力行为。定义4 人工智能是研究那些使理解、推理和行为成为可能的计算。人工智能的定义

定义5 人工智能是一种能够执行需要人的智能的创造性机器的技术。定义6 人工智能研究如何使计算机做事让人过得更好。定义7 人工智能是一门通过计算过程力图理解和模仿智能行为的学科。定义8 人工智能是计算机科学中与智能行为的自动化有关的一个分支。其中，定义1和定义2涉及拟人思维；定义3和定义4与理性思维有关；定义5和定义6涉及拟人行为；定义7和定义8与拟人理性行为有关。人工智能的定义

Russell & Norvig的定义

人工智能的定义 人工智能是计算机科学的一个分支，是研究使计算机表现出人类智能的学科。它涉及逻辑学、计算机科学、脑科学、神经生理学、心理学、哲学、语言学、信息论、控制论等多个学科，是一门综合性的交叉和边缘学科。

人工智能的诞生 人工智能学科的诞生经历了漫长的历史过程。历史上一些伟大的科学家和思想家对此作出了巨大的贡献，为今天的人工智能研究作了长足和充分的准备。

亚里士多德（Aristotle）（公元前384 — 322） 古希腊伟大的哲学家、思想家，研究人类思维规律的鼻祖，为形式逻辑奠定了基础，提出了推理方法，给出了形式逻辑的一些基本定律，创造了三段论法。人工智能的诞生（1）由大前提和小前提推出结论。如 ‘凡金属(M)都能导电(P)’（大前提）， ‘铜(S)是金属(M)’（小前提）， ‘所以铜(S)能导电(P)’（结论）。演绎:从普遍性结论或一般性事理推导出个别性结论的论

弗兰西斯﹒培根（Francis Bacon）（1561 — 1626） 英国哲学家和自然科学家，系统提出了归纳法，成为和亚里士多德的演绎法相辅相成的思维法则。他强调了知识的重要作用，指出“知识就是力量”。人工智能的诞生（2）归纳：从个别性知识,引出一般性知识的推理,是由已知真的前提,引出可能真的结论

莱布尼茨（Leibnitz）（1646 — 1716） 德国数学家和哲学家，提出了关于数理逻辑的思想，即把形式逻辑符号化，从而对人的思维进行运算和推理的思想。人工智能的诞生（3） -3, -2, 5, (? ), 61, 122 -3 -2 5 24 61 122 他们的差是1，7，19，37，61，后五数的差是6，2*6，3*6 4*6 4

布尔（Boole）（1815 — 1864） 英国数学家、逻辑学家。他的主要贡献是初步实现了莱布尼茨关于思维符号化和数学化的思想，提出了一种崭新的代数系统——布尔代数，凡是传统逻辑能处理的问题，布尔代数都能处理。符号逻辑对于逻辑代数，布尔的方法是着重于外延逻辑，即类的逻辑。其中类或集合用x，y，z，…表示，而符号X，Y，Z，…则代表个体元素．用1表示万有类，用0表示空类或零类．他用xy表示两个集合的交[他称这个运算为选拔(election)]，即x与y所有共同元素的集合… 人工智能的诞生（4）

歌德尔（Gödel）（1906 — 1978） 美籍奥地利数理逻辑学家，他研究数理逻辑中的一些带根本性的问题，即不完全性定理和连续假设的相对协调性证明，指出了把人的思维形式化和机械化的某些极限，在理论上证明了有些事情是机器做不到的。人工智能的诞生（5）

图灵（Turing）（1912 — 1954） 英国数学家。他于1936年提出了一种理想计算机的数学模型（图灵机）。现已公认，所有可计算函数都能用图灵机计算，这为电子计算机的构建提供了理论根据。 1950年，他还提出了著名的“图灵实验”，给智能的标准提供了明确的定义：把人和计算机分两个房间，并且相互对话，如果作为人的一方不能判断对方是人还是计算机，那这台计算机就达到了人的智能。人工智能的诞生（6）

莫克利（J.W.Mauchly）（1907 — 1980） 美国数学家，和他的学生埃克特（J.P.Eckert），于1946年研制成功了世界上第一台通用电子数字计算机ENIAC。人工智能的诞生（7）

冯·诺依曼（John von Neumann）（ 1903 — 1957) 美籍匈牙利数学家，提出了以二进制和程序存储控制为核心的通用电子数字计算机体系结构原理，奠定了现代电子计算机体系结构的基础。1946——EDVAC。人工智能的诞生（8）由五个基本部分组成： 1）运算器 2）控制器 3）存储器 4）输入装置 5）输出装置

麦卡锡（John McCarthy），美国数学家、计算机科学家，“人工智能之父”。人工智能的诞生（9） • 首次提出“人工智能” （AI）概念； • 发明Lisp语言； • 研究不寻常的常识推理； • 发明“情景演算”。

1956年夏，在美国的达特茅斯学院，由McCarthy（斯坦福大学）、Minsky（哈佛大学）、Lochester（IBM公司）、Shannon（贝尔实验室）四人共同发起，1956年夏，在美国的达特茅斯学院，由McCarthy（斯坦福大学）、Minsky（哈佛大学）、Lochester（IBM公司）、Shannon（贝尔实验室）四人共同发起，邀请IBM公司的More、Samuel，MIT的Selfridge、Solomonff，还有Simon、Newell等人参加学术讨论班，在一起共同学习和探讨用机器模拟智能的各种问题。在会上，经McCarthy提议，决定使用“人工智能”一词来概括该研究方向。这次具有历史意义的会议标志着人工智能这个学科的正式诞生。人工智能的诞生（10）

1956年夏季，人类历史上第一次人工智能研讨会在美国的达特茅斯(Dartmouth)大学举行，标志着人工智能学科的诞生。1956年夏季，人类历史上第一次人工智能研讨会在美国的达特茅斯(Dartmouth)大学举行，标志着人工智能学科的诞生。 1969年召开了第一届国际人工智能联合会议(International Joint Conference on AI, IJCAI),此后每两年召开一次。 1970年《人工智能》国际杂志(International Journal of AI)创刊。这些对开展人工智能国际学术活动和交流、促进人工智能的研究和发展起到积极作用。

人工智能的研究及应用领域 第1章人工智能概述第2章确定性知识表示第3章确定性推理第4章搜索策略第5章计算智能第6章不确定性推理第7章机器学第8章自然语言理解第9章分布智能第10章新型专家系统人工智能研究及应用领域很多，主要研究领域包括问题求解、机器学习、专家系统、模式识别、自动定理证明、自然语言理解等。

人工智能的研究及应用领域 1 问题求解人工智能的第一个大成就是发展了能够求解难题的下棋(如国际象棋)程序，它包含问题的表示、分解、搜索与归约等。深蓝八皇后问题旅行者问题

人工智能的研究及应用领域 2 专家系统一般地说，专家系统是一个智能计算机程序系统，其内部具有大量专家水平的某个领域知识与经验，能够利用人类专家的知识和解决问题的方法来解决该领域的问题。　　发展专家系统的关键是表达和运用专家知识，即来自人类专家的并已被证明对解决有关领域内的典型问题是有用的事实和过程。

人工智能的研究及应用领域 3 模式识别模式的本意是指一些供模仿的标准式样或标本。模式识别就是指识别出给定物体所模仿的标本。人工智能所研究的模式识别是指用计算机代替人类或帮助人类感知模式，是对人类感知外界功能的模拟，研究的是计算机模式识别系统，也就是使一个计算机系统具有模拟人类通过感官接受外界信息、识别和理解周围环境的感知能力。例如，识别自己所需要的工具，产品…

人工智能的研究及应用领域 4 自动定理证明自动定理证明的实质：对前提P和结论Q，证明P->Q永真。反证法

人工智能的研究及应用领域 5 机器学习第1章　引言第2章　概念学习和一般到特殊序第3章　决策树学习第4章　人工神经网络第5章　评估假设第6章　贝叶斯学习第7章　计算学习理论第8章　基于实例的学习第9章　遗传算法第10章　学习规则集合第11章　分析这习第12章　归纳和分析学习的结合第13章　增强学习学习是人类智能的主要标志和获得知识的基本手段；要使机器象人一样拥有知识和智能，就必须使机器具有获得知识的能力。计算机获得知识的两种途径：直接获得；学习获得（机器学习）。学习是一个有特定目的的知识获取过程，其内部表现为新知识结构的不断建立和修改，而外部表现为性能的改善。

数据挖掘，机器学习和统计 数据挖掘是在人工智能（AI）和统计分析基础上发展起来的，这两门学科都致力于模式发现和预测。数据挖掘不是为了替代传统的统计分析技术。相反，他是统计分析方法学的延伸和扩展。大多数的统计分析技术都基于完善的数学理论和高超的技巧，预测的准确度还是令人满意的，但对使用者的要求很高。而随着计算机计算能力的不断增强，我们有可能利用计算机强大的计算能力只通过相对简单和固定的方法完成同样的功能。一些新兴的技术同样在知识发现领域取得了很好的效果，如SVM和决策树，在足够多的数据和计算能力下，他们几乎不用人的关照自动就能完成许多有价值的功能。数据挖掘就是利用了统计和人工智能技术的应用程序，他把这些高深复杂的技术封装起来，使人们不用自己掌握这些技术也能完成同样的功能，并且更专注于自己所要解决的问题。

一、数据挖掘的概念 (What is data mining?) 二、数据挖掘技术的发展（Development）三、功能(What data mining can do?) 四、应用（Application）五、DM的处理流程六、DM的研究发展方向七、一些流行的数据挖掘软件

数据挖掘的定义 数据挖掘的历史虽然较短，但从20世纪90年代以来，它的发展速度很快，加之它是多学科综合的产物，目前还没有一个完整的定义，人们提出了多种数据挖掘的定义，例如： SAS研究所（1997）：“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法”。 Bhavani（1999）：“使用模式识别技术、统计和数学技术，在大量的数据中发现有意义的新关系、模式和趋势的过程”。关键词：大量

数据挖掘的定义——韩家炜 简单的说，DM就是从大量数据里挖掘或提取有用的知识。广义的说，DM是一个从存储在Data base/data warehouse或其它介质里的大量数据中识别有效的、新颖的、有潜在价值的以及最终可理解的模式的非常规的过程。技术上的定义，DM就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

数据: • Static numeric data：1，2，3… • (Time) Series Data (the data related to time change) • Stock analysis, Bank account, Sensor data etc. Bioinformatics • Spatial Data (the data related to spatial or geographical information, GIS) • Remote Sensing, Census • Text Data (word, sentence, journal etc.) • Web log mining , Machine translate • Multimedia Data (figure, image, hyper-text, sound etc.) • Content-based Image Retrieval

Major reason: The widely availability of huge amounts of data and the imminent need for turning such data into useful information and knowledge. 数据挖掘技术是 1、必然：网络之后的下一个技术热点 2、数据挖掘技术的动力：数据爆炸但知识贫乏 3、数据挖掘技术的实现基础：计算机技术的发展

数据挖掘技术的实现基础 对这种技术进行支持的三种基础技术：- - 海量数据搜集- - 强大的多处理器计算机- - 数据挖掘算法 Friedman列举的四个主要的技术理由：- - 超大规模数据库的出现，例如商业数据仓库和计算机自动收集的数据记录；- - 先进的计算机技术，例如更快和更大的计算能力和并行体系结构；- - 对巨量数据的快速访问；- - 对这些数据应用精深的统计方法计算的能力。

1、1989年，USA Detroit,召开的11th国际人工智能联合会议的专题讨论会上，首次提出KDD的概念 2、1995年在Canada蒙特利尔召开的第一届知识发现和数据挖掘国际学术会议，作为人们重新认识数据、认识存储、认识数据统计和分析的新的起点，唤来了知识发现和数据挖掘理论及应用研究的热潮。美国计算机学会（ACM）于当年提出了数据挖掘的概念

Data Mining 国际顶级会议 摘自http://www.sigkdd.org/

ACM KDD cup KDD Cup是由美国计算机协会(ACM)组织的知识发现和数据挖掘国际竞赛；向DataMining领域的学术界和工业界开放，其目标是找出最有创新性和最有效的DataMining方法。在每年的ACM SIGKDD会议举行之前的三四个月，组织者在网站上公布比赛任务，参赛者必须在指定日期前提交结果。经组织者评审后，在SIGKDD会议上公布比赛结果，并邀请优胜者作报告。竞赛题目通常都是当前各个学科中实际的热门数据挖掘问题，具有较高的挑战性。往年的題目和数据来源于经济、制药、生物、信息等领域。

ACM KDD cup KDD-Cup 2011, http://kddcup.yahoo.com/# KDD-Cup 2010, Student performance evaluation KDD-Cup 2009, Fast Scoring on a Large Database KDD-Cup 2008, Breast cancer KDD-Cup 2007, Consumer recommendations KDD-Cup 2006, Pulmonary embolisms detection from image data KDD-Cup 2005, Internet user search query categorization KDD-Cup 2004, Particle physics; plus Protein homology prediction KDD-Cup 2003, Network mining and usage log analysis KDD-Cup 2002, BioMed document; plus Gene role classification KDD-Cup 2001, Molecular bioactivity; plus Protein locale prediction. KDD-Cup 2000, Online retailer website clickstream analysis KDD-Cup 1999, Computer network intrusion detection KDD-Cup 1998, Direct marketing for profit optimization KDD-Cup 1997, Direct marketing for lift curve optimization 摘自http://www.sigkdd.org/kddcup/index.php

1. 概念描述（类描述）一个概念常常是对一个包含大量数据的数据集合总体情况的概述。对含有大量数据的数据集合进行概述性的总结并获得简明、准确的描述，这种描述就称为概念描述。（最基本的功能）一般实现形式: ①数据特征化（Data Characterization）：对目标类数据的一般特征或特性的汇总，其中被分析的数据称为目标数据集 e.g.1 describing the customers who spend more than $1000 a year at some place: male, 40－50 years，employed, excellent credit ratings… e.g.2 describing milk: white, liquid, calcium-including e.g.3 Catching a cold: The sniffles，sore throat，have a fever …

②数据区分（Data Discrimination）： 目标类与其他类之间在某些特征上做一些比较描述 e.g.1 e.g.2 Apple & Tomato: color, taste, ingredient … ③Both

2. 关联分析 就是从给定的数据集发现频繁出现的项集模式知识，即发现各属性之间的关联关系并用关联规则描述出来不用很绝对的数字，只是提供一种大概的规则——多数准则常见表现形式: or Where, and are attribute-value pares. e.g.1Given a relational database, a data mining system may find association rules:

3. 分类、回归 Classification /Regression:根据一系列已知样本（训练样本），用各种算法训练产生一套能描述或区别数据的类别或概念的模型，并能够根据这个模型或函数来预测未知类别样本（测试样本）的分类结果。 e.g. Face recognition, fingerprint recognition 两者的区别可视为预报的目标不同 Classification：离散型的 Regression: 数量型的，连续型的一个是类别，一个是目标值，而类别一般是依据目标值来分类的。常见算法：PCA、DT、ANN、BN、SVM

4. 聚类分析 unsupervised classification (analyzes data objects unknowing about the class label) 根据属性标识对样本聚类，从数据集中找出相似的数据并组成不同的组。聚类的准则：聚类后，同一类之间的样本具有很强的相似性而非同类之间的样本具有很强的非相似性。相似性的度量：一般用的是距离。之后还有人根据具体数据格式加上别的一些度量方式，如对称性。 Measurement of Similarity 1) distance 2) distance + other other: symmetry , weight, etc.

Distance 1、Menkowsky Distance 2、Euclidean Distance 3、Weighted Distance 4、Mahalanobis Distance 5、Haming Distance (For the data with Boolean variable) 6、Geodesic Distance

测地距离 当数据集中样本分布在高维空间且满足某一特定曲面时，欧氏距离则不能反映样本间的真实距离。此时，应该将样本分布的形状信息考虑在内来衡量样本间的相似性。测地距离的基本思想：对于近邻样本，欧氏距离近似反映样本间沿数据分布曲面间的距离；对于相隔较远的样本，样本间的距离为样本分布曲面上连接两样本点间的最短空间曲线的长度。 J.B.Tenenbaum, V.D. Silva, and J.C.Langford, A global geometric framework for nonlinear dimensionality reduction, Science, 2000, vol. 290: 2319-2323

5. 序列分析、趋势分析 对随时间变化的数据对象的变化规律和趋势进行建模描述，可根据前一段时间的运动预测下一个时间点的状态。解决的问题一般可以分为下面两类：总结数据的序列或者变化趋势；（股票/期货交易，网页点击顺序记录）检测数据随时间变化的变化；（自来水厂用水量的日、周、月、年等周期变化）流程图

6. 离异点分析：噪声还是例外 是实际生活中的反常行为的写照。包括：噪声(删除)：实验错误… 特例(格外关注，建立案例库）：工业生产中的特例… 离异点的检测被广泛用于调查商业欺诈，偷税漏税等行为

零售/市场营销——the earliest application field • 生物/化工/医药 • 过程控制/质量监督 • 金融/证券/信用保险 • 司法(案例法Case_based reasoning) • web挖掘

Data Mining

Data Mining

Presentation Transcript

Data Mining

DATA MINING

Data Mining

Data Mining

Data Mining: Data

Data Mining

DATA MINING

Data Mining: Data

Data Mining: Proses Data Mining

Data Mining: Proses Data Mining

Data Mining: Data

Data Mining: P enelitian Data Mining

Data Mining

Data Mining: Data

Data Mining

Data Mining: Data

Data-mining

Data Mining

Data Mining: Data

Data Mining: Data

Data Mining: Data

Data Mining: Data