410 likes | 610 Views
信息管理专题 —— 数据挖掘 (Data Mining). 啤酒 与尿布 问题. 美国加州某个超级连锁店通过数据挖掘发现:该超市啤酒与尿布的销售量成正相关关系。后来发现,在下班后,来购买婴儿尿片的多数是男性,他们在购买婴儿尿片的同时往往也购买啤酒。于是连锁店经理当机立断重新布置货架,把啤酒与尿布放置在邻近的货架上,并且在两者之间放上土豆片之类的佐酒小吃,这样一来,上述几种商品的销量几乎马上成倍上涨。. 信息管理专题 —— 数据挖掘. 数据挖掘基本功能 聚类分析 关联挖掘 互联网数据挖掘. 数据丰富与知识匮乏.
E N D
啤酒 与尿布 问题 • 美国加州某个超级连锁店通过数据挖掘发现:该超市啤酒与尿布的销售量成正相关关系。后来发现,在下班后,来购买婴儿尿片的多数是男性,他们在购买婴儿尿片的同时往往也购买啤酒。于是连锁店经理当机立断重新布置货架,把啤酒与尿布放置在邻近的货架上,并且在两者之间放上土豆片之类的佐酒小吃,这样一来,上述几种商品的销量几乎马上成倍上涨。
信息管理专题——数据挖掘 • 数据挖掘基本功能 • 聚类分析 • 关联挖掘 • 互联网数据挖掘
数据丰富与知识匮乏 • 据粗略估计,20世纪80年代,全球信息量每隔20个月就要增加一倍。而进入90年代,全球所拥有的数据库及其所存储的数据规模增长更快。据估计,1993年全球数据存储容量为2000TB,2000年增加到300万TB。但是目前一个大型企业数据库中的数据,约只有7%得到很好的应用。
数据挖掘模式 有用性、确定性、简洁性、新颖性 利用智能方式挖掘智能模式或规律知识 将数据转换成易于进行数据挖掘的描述形式 评估与表示 选择 与转换 数据挖掘 将多个数据源中的相关数据组合到一起 数据清洗是指消除数据噪音 特定数据集 模式 知识 清洗与集成 数据仓库 数据库 数据库 处理 数据预 模式评估 规则挖掘
数据仓库 • 数据仓库是用以支持企业和组织的决策分析处理、面向主题、集成的、不可更新、随时间变化的数据集合
数据泛化 • 将数据抽象到更高的层次概念来取代低层次的数据。如:某个客户的地址(安徽省合肥市桐城南路375号),这样的数据可以泛化到“安徽省”。如年龄属性,可以映射到青年、中年、老年。
数据挖掘功能 对两类所分析数据的特点进行对比并对对比结果给出概要性总结 从给定的数据集中发现频繁出现的关联规则 对所分析数据进行概要总结 找出一组能够描述数据集合典型特性的模型,以便能够识别未知数据的归属 聚类基本思路:“各聚集(clusters)内部数据之间的相似程度最大化,各聚集对象间相似程度最小化”。聚类与分类的不同之处在于,后者所学习获取分类模型所使用的数据是已知类别归属,属于有教师监督学习,而聚类所分析处理的数据无归属类别 1、概念描述:定性与对比 2、关联分析★★★★★ 3、分类分析 4、聚类分析★★★★★ 5、异类分析 6、演化分析 不符合大多数数据对象所构成的规律的数据对象称为异类。在一些场合,如商业欺诈行为的自动检测,小概率发生的事件往往比经常发生的事件更具价值 对随时间变化的数据对象的变化规律和趋势进行建模描述
概要描述示例 • 【示例1 】一个数据挖掘系统需要从我校职工数据库中,挖掘出我校讲师情况的概要总结,并给出我校讲师概念描述: “62%(age<30)and (age>24)”
概要描述示例 • 【示例2 】一个数据挖掘系统需要从我校职工数据库中,针对我校副教授情况(对比数据集),对我校讲师情况(目标数据集)进行对比概要总结,并给出我校讲师对比概念描述: “讲师:78%(papers<3)and (teaching course<2)”,而“副教授: 66%(papers>=3)and (teaching course>=2)”
关联分析 • 【示例3 】一个数据挖掘系统可以从一个商场的销售记录数据中,挖掘出如下所示的关联规则: buy(X,”computer”) =>buy (X,”software”) [支持度=1%,信任度=60%]
支持度和信任度 有用性 确定性
分类分析-第一步:学习建模 分类算法 If age=30 to 40 and income =高 则信用评估=良好 训练样本 分类规则
分类分析-第二步:分类测试 分类规则 新数据:李勇, 30 ~40,收入高,信用评估如何? 良 测试数据
异类分析 • 【示例4 】异类分析可以用于从大量商品购买记录中,依据各账户平常所发生的购买行为,发现正在进行信用卡诈骗的购买行为(异类行为)。例如:可以根据购买的发生地点、购买商品类型和购买频率等发现属于信用卡诈骗的购买行为(异类数据)
演化分析 • 【示例5 】利用演化分析方法可对股市主要股票交易数据(时序数据,time series data)进行分析,以便获得整个股票市场的股票演化规律,以及一个特定股票的变化规律
信息管理专题——数据挖掘(Data Mining) • 数据挖掘基本功能 • 聚类分析 • 关联挖掘 • 互联网数据挖掘
聚类分析- κ均值(κ-means )算法 • 聚类基本思想:将数据集划分成若干组,并使得同一个组内的数据对象具有较高的相似度,而不同组中的数据对象则不相似。相似不相似通常利用各对象间的距离来描述。 • 聚类分析是人类活动中的一个重要内容,早在儿童时期,一个人就是通过不断完善潜意识中的分类模式,来学会识别不同的物体,如猫跟狗;动物和植物等。 • 在商业方面,聚类分析可以帮助市场人员发现客户群众所存在的不同组群。
聚类分析- κ均值(κ-means )算法 • κ-means算法思想:首先从n个数据对象中任选κ个对象作为初始聚类中心,而对所剩下的对象,则根据它们与这些聚类中心的距离,分别将它们分配给与其最相似的聚类;然后再计算每个新聚类的聚类中心(该聚类对象中所有对象的均值),不断循环直到标准测度函数开始收敛为止。
聚类分析- κ均值(κ-means )算法 + + + + + + + + +
信息管理专题——数据挖掘(Data Mining) • 数据挖掘基本功能 • 聚类分析 • 关联挖掘 • 互联网数据挖掘
关联挖掘 • 【示例6 】挖掘常在一起被购买的商品(关联知识)将帮助商家制定有针对性的市场营销策略。比如:顾客在购买牛奶时,是否也可能同时购买面包,显然能够回答这些问题将会帮助商家进行合适的货架商品摆放。 牛奶 果酱 面包 牛奶 鸡蛋 面包 糖 面包 黄油 牛奶 糖 鸡蛋 … 顾客1 顾客2 顾客3 顾客n
关联挖掘-相关概念 • 项集:一个数据项的集合,如{面包、黄油、牛奶} • κ项集:一个包含κ个数据项的项集。如集合{电脑,金融软件}就是一个2项集 • 频繁项集:若一个项集出现频度大于最小支持阈值(threshold)(最小支持度)乘以交易记录集中的记录数
关联挖掘-相关概念 • Apriori性质: • 一个频繁项集中任一子集也是频繁项集 • 如果一个集合不是频繁项集,则其所有超集也不可能是频繁项集
关联挖掘-步骤 • 发现所有的频繁项集 • 根据所获得的频繁项集,产生强关联规则,这些规则必须满足最小信任度阈值
单维布尔关联规则挖掘-Apriori算法 • 【示例7 】基于数据和Apriori算法进行数据挖掘。 交易数据库
单维布尔关联规则挖掘-Apriori算法 • 假设最小支持度为22% ,则最小支持频度为22%*9=2 • 第一步: 与最小支持度相比获得频繁项集 扫描数据库 候选1-项集C1 频繁1-项集L1
单维布尔关联规则挖掘-Apriori算法 • 第二步:连接步骤
单维布尔关联规则挖掘-Apriori算法 • 第二步:频繁项集L2产生 根据频繁项集L1产生C2 与最小支持度相比获得频繁项集 频繁2-项集L2
单维布尔关联规则挖掘-Apriori算法 • 第三步:连接步骤
单维布尔关联规则挖掘-Apriori算法 • 第三步:频繁项集L3产生 根据频繁项集L2产生C3 与最小支持度相比获得频繁项集 候选3-项集C3 频繁3-项集L3
单维布尔关联规则挖掘-Apriori算法 • 第四步:连接步骤
单维布尔关联规则挖掘-Apriori算法 • 第四步:频繁项集L4产生 根据频繁项集L3产生C4 与最小支持度相比获得频繁项集 频繁4-项集L4 候选4-项集C4
单维布尔关联规则挖掘-Apriori算法 • 挖掘结果:{G1、G2、G3}支持频度为2,满足最小支持度阈值,是频繁项集;{G1、G2、G5}支持频度为2;满足最小支持度阈值,是频繁项集。 • 信任度如何计算?(课后作业)
信息管理专题——数据挖掘(Data Mining) • 数据挖掘基本功能 • 聚类分析 • 关联挖掘 • 互联网数据挖掘
互联网数据挖掘-挖掘难度 • 互联网过大而无法有效的构造数据仓库和进行数据挖掘 • 网页的复杂性要远远大于任何传统的文本文档 • 互联网是一个高度动态的信息源 • 互联网所服务用户群体的多样性 • 互联网上的信息只有一小部分是真正有用或相关的
互联网数据挖掘-Google搜索引擎功能模块 该模块根据一定的网页搜索策略和规划,调度运行网页自动搜索软件(crawler),以便能够快速有效的搜集大量的不重复的网页,并将它们存储到搜索引擎的网页数据库中。 将网页数据库中的网页用相应的特征向量来描述,然后建立索引文件,以便能从网页数据库中快速检索出网页 • 自动搜索web网页模块: • 网页分析索引模块: • 网页检索查询模块: 根据用户具体检索要求,以及所建立的网页索引,从网页数据库中快速检索出满足用户查询要求的所有网页
Google搜索引擎功能模块-常用搜索策略 • 根据所提供的种子“URL”开始搜索,并从所搜索出的网页中抽取下一步搜索所需要的URLs,不断重复“搜索-抽取”这一过程以完成整个网页库的搜索工作 • 根据各网站受欢迎程度,规划一组URLs,然后不断重复“搜索-抽取”过程以完成访问频率高的网页集的搜索工作 • 根据网址名称或国家编码,将WEB空间化分成若干块,并将其分配给若干ROBOTS,使其在各自的空间完成穷尽搜索工作
互联网数据挖掘-搜索引擎评价 • 网页覆盖率 • 网页检索速度 • 网页检索质量 • 网页更新率
思考题 • 假设你有一个万能的数据挖掘工具,你最希望用它来解决一个什么问题?说出你的理由?