1 / 41

信息管理专题 —— 数据挖掘 (Data Mining)

信息管理专题 —— 数据挖掘 (Data Mining). 啤酒 与尿布 问题. 美国加州某个超级连锁店通过数据挖掘发现:该超市啤酒与尿布的销售量成正相关关系。后来发现,在下班后,来购买婴儿尿片的多数是男性,他们在购买婴儿尿片的同时往往也购买啤酒。于是连锁店经理当机立断重新布置货架,把啤酒与尿布放置在邻近的货架上,并且在两者之间放上土豆片之类的佐酒小吃,这样一来,上述几种商品的销量几乎马上成倍上涨。. 信息管理专题 —— 数据挖掘. 数据挖掘基本功能 聚类分析 关联挖掘 互联网数据挖掘. 数据丰富与知识匮乏.

lazaro
Download Presentation

信息管理专题 —— 数据挖掘 (Data Mining)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 信息管理专题——数据挖掘(Data Mining)

  2. 啤酒 与尿布 问题 • 美国加州某个超级连锁店通过数据挖掘发现:该超市啤酒与尿布的销售量成正相关关系。后来发现,在下班后,来购买婴儿尿片的多数是男性,他们在购买婴儿尿片的同时往往也购买啤酒。于是连锁店经理当机立断重新布置货架,把啤酒与尿布放置在邻近的货架上,并且在两者之间放上土豆片之类的佐酒小吃,这样一来,上述几种商品的销量几乎马上成倍上涨。

  3. 信息管理专题——数据挖掘 • 数据挖掘基本功能 • 聚类分析 • 关联挖掘 • 互联网数据挖掘

  4. 数据丰富与知识匮乏 • 据粗略估计,20世纪80年代,全球信息量每隔20个月就要增加一倍。而进入90年代,全球所拥有的数据库及其所存储的数据规模增长更快。据估计,1993年全球数据存储容量为2000TB,2000年增加到300万TB。但是目前一个大型企业数据库中的数据,约只有7%得到很好的应用。

  5. 数据挖掘模式 有用性、确定性、简洁性、新颖性 利用智能方式挖掘智能模式或规律知识 将数据转换成易于进行数据挖掘的描述形式 评估与表示 选择 与转换 数据挖掘 将多个数据源中的相关数据组合到一起 数据清洗是指消除数据噪音 特定数据集 模式 知识 清洗与集成 数据仓库 数据库 数据库 处理 数据预 模式评估 规则挖掘

  6. 数据仓库 • 数据仓库是用以支持企业和组织的决策分析处理、面向主题、集成的、不可更新、随时间变化的数据集合

  7. 数据泛化 • 将数据抽象到更高的层次概念来取代低层次的数据。如:某个客户的地址(安徽省合肥市桐城南路375号),这样的数据可以泛化到“安徽省”。如年龄属性,可以映射到青年、中年、老年。

  8. 数据挖掘功能 对两类所分析数据的特点进行对比并对对比结果给出概要性总结 从给定的数据集中发现频繁出现的关联规则 对所分析数据进行概要总结 找出一组能够描述数据集合典型特性的模型,以便能够识别未知数据的归属 聚类基本思路:“各聚集(clusters)内部数据之间的相似程度最大化,各聚集对象间相似程度最小化”。聚类与分类的不同之处在于,后者所学习获取分类模型所使用的数据是已知类别归属,属于有教师监督学习,而聚类所分析处理的数据无归属类别 1、概念描述:定性与对比 2、关联分析★★★★★ 3、分类分析 4、聚类分析★★★★★ 5、异类分析 6、演化分析 不符合大多数数据对象所构成的规律的数据对象称为异类。在一些场合,如商业欺诈行为的自动检测,小概率发生的事件往往比经常发生的事件更具价值 对随时间变化的数据对象的变化规律和趋势进行建模描述

  9. 概要描述示例 • 【示例1 】一个数据挖掘系统需要从我校职工数据库中,挖掘出我校讲师情况的概要总结,并给出我校讲师概念描述: “62%(age<30)and (age>24)”

  10. 概要描述示例 • 【示例2 】一个数据挖掘系统需要从我校职工数据库中,针对我校副教授情况(对比数据集),对我校讲师情况(目标数据集)进行对比概要总结,并给出我校讲师对比概念描述: “讲师:78%(papers<3)and (teaching course<2)”,而“副教授: 66%(papers>=3)and (teaching course>=2)”

  11. 关联分析 • 【示例3 】一个数据挖掘系统可以从一个商场的销售记录数据中,挖掘出如下所示的关联规则: buy(X,”computer”) =>buy (X,”software”) [支持度=1%,信任度=60%]

  12. 支持度和信任度 有用性 确定性

  13. 分类分析-第一步:学习建模 分类算法 If age=30 to 40 and income =高 则信用评估=良好 训练样本 分类规则

  14. 分类分析-第二步:分类测试 分类规则 新数据:李勇, 30 ~40,收入高,信用评估如何? 良 测试数据

  15. 异类分析 • 【示例4 】异类分析可以用于从大量商品购买记录中,依据各账户平常所发生的购买行为,发现正在进行信用卡诈骗的购买行为(异类行为)。例如:可以根据购买的发生地点、购买商品类型和购买频率等发现属于信用卡诈骗的购买行为(异类数据)

  16. 演化分析 • 【示例5 】利用演化分析方法可对股市主要股票交易数据(时序数据,time series data)进行分析,以便获得整个股票市场的股票演化规律,以及一个特定股票的变化规律

  17. 信息管理专题——数据挖掘(Data Mining) • 数据挖掘基本功能 • 聚类分析 • 关联挖掘 • 互联网数据挖掘

  18. 聚类分析- κ均值(κ-means )算法 • 聚类基本思想:将数据集划分成若干组,并使得同一个组内的数据对象具有较高的相似度,而不同组中的数据对象则不相似。相似不相似通常利用各对象间的距离来描述。 • 聚类分析是人类活动中的一个重要内容,早在儿童时期,一个人就是通过不断完善潜意识中的分类模式,来学会识别不同的物体,如猫跟狗;动物和植物等。 • 在商业方面,聚类分析可以帮助市场人员发现客户群众所存在的不同组群。

  19. 聚类分析-距离表示

  20. 聚类分析- κ均值(κ-means )算法 • κ-means算法思想:首先从n个数据对象中任选κ个对象作为初始聚类中心,而对所剩下的对象,则根据它们与这些聚类中心的距离,分别将它们分配给与其最相似的聚类;然后再计算每个新聚类的聚类中心(该聚类对象中所有对象的均值),不断循环直到标准测度函数开始收敛为止。

  21. 聚类分析- κ均值(κ-means )算法 + + + + + + + + +

  22. 信息管理专题——数据挖掘(Data Mining) • 数据挖掘基本功能 • 聚类分析 • 关联挖掘 • 互联网数据挖掘

  23. 关联挖掘 • 【示例6 】挖掘常在一起被购买的商品(关联知识)将帮助商家制定有针对性的市场营销策略。比如:顾客在购买牛奶时,是否也可能同时购买面包,显然能够回答这些问题将会帮助商家进行合适的货架商品摆放。 牛奶 果酱 面包 牛奶 鸡蛋 面包 糖 面包 黄油 牛奶 糖 鸡蛋 … 顾客1 顾客2 顾客3 顾客n

  24. 关联挖掘-相关概念 • 项集:一个数据项的集合,如{面包、黄油、牛奶} • κ项集:一个包含κ个数据项的项集。如集合{电脑,金融软件}就是一个2项集 • 频繁项集:若一个项集出现频度大于最小支持阈值(threshold)(最小支持度)乘以交易记录集中的记录数

  25. 关联挖掘-相关概念 • Apriori性质: • 一个频繁项集中任一子集也是频繁项集 • 如果一个集合不是频繁项集,则其所有超集也不可能是频繁项集

  26. 关联挖掘-步骤 • 发现所有的频繁项集 • 根据所获得的频繁项集,产生强关联规则,这些规则必须满足最小信任度阈值

  27. 单维布尔关联规则挖掘-Apriori算法 • 【示例7 】基于数据和Apriori算法进行数据挖掘。 交易数据库

  28. 单维布尔关联规则挖掘-Apriori算法 • 假设最小支持度为22% ,则最小支持频度为22%*9=2 • 第一步: 与最小支持度相比获得频繁项集 扫描数据库 候选1-项集C1 频繁1-项集L1

  29. 单维布尔关联规则挖掘-Apriori算法 • 第二步:连接步骤

  30. 单维布尔关联规则挖掘-Apriori算法 • 第二步:频繁项集L2产生 根据频繁项集L1产生C2 与最小支持度相比获得频繁项集 频繁2-项集L2

  31. 单维布尔关联规则挖掘-Apriori算法 • 第三步:连接步骤

  32. 单维布尔关联规则挖掘-Apriori算法 • 第三步:频繁项集L3产生 根据频繁项集L2产生C3 与最小支持度相比获得频繁项集 候选3-项集C3 频繁3-项集L3

  33. 单维布尔关联规则挖掘-Apriori算法 • 第四步:连接步骤

  34. 单维布尔关联规则挖掘-Apriori算法 • 第四步:频繁项集L4产生 根据频繁项集L3产生C4 与最小支持度相比获得频繁项集 频繁4-项集L4 候选4-项集C4

  35. 单维布尔关联规则挖掘-Apriori算法 • 挖掘结果:{G1、G2、G3}支持频度为2,满足最小支持度阈值,是频繁项集;{G1、G2、G5}支持频度为2;满足最小支持度阈值,是频繁项集。 • 信任度如何计算?(课后作业)

  36. 信息管理专题——数据挖掘(Data Mining) • 数据挖掘基本功能 • 聚类分析 • 关联挖掘 • 互联网数据挖掘

  37. 互联网数据挖掘-挖掘难度 • 互联网过大而无法有效的构造数据仓库和进行数据挖掘 • 网页的复杂性要远远大于任何传统的文本文档 • 互联网是一个高度动态的信息源 • 互联网所服务用户群体的多样性 • 互联网上的信息只有一小部分是真正有用或相关的

  38. 互联网数据挖掘-Google搜索引擎功能模块 该模块根据一定的网页搜索策略和规划,调度运行网页自动搜索软件(crawler),以便能够快速有效的搜集大量的不重复的网页,并将它们存储到搜索引擎的网页数据库中。 将网页数据库中的网页用相应的特征向量来描述,然后建立索引文件,以便能从网页数据库中快速检索出网页 • 自动搜索web网页模块: • 网页分析索引模块: • 网页检索查询模块: 根据用户具体检索要求,以及所建立的网页索引,从网页数据库中快速检索出满足用户查询要求的所有网页

  39. Google搜索引擎功能模块-常用搜索策略 • 根据所提供的种子“URL”开始搜索,并从所搜索出的网页中抽取下一步搜索所需要的URLs,不断重复“搜索-抽取”这一过程以完成整个网页库的搜索工作 • 根据各网站受欢迎程度,规划一组URLs,然后不断重复“搜索-抽取”过程以完成访问频率高的网页集的搜索工作 • 根据网址名称或国家编码,将WEB空间化分成若干块,并将其分配给若干ROBOTS,使其在各自的空间完成穷尽搜索工作

  40. 互联网数据挖掘-搜索引擎评价 • 网页覆盖率 • 网页检索速度 • 网页检索质量 • 网页更新率

  41. 思考题 • 假设你有一个万能的数据挖掘工具,你最希望用它来解决一个什么问题?说出你的理由?

More Related