第 7 课数据挖掘的高级主题

浙江大学本科生《数据挖掘导论》课件 第7课数据挖掘的高级主题徐从富，副教授浙江大学人工智能研究所

内容提纲 Web挖掘隐私保护数据挖掘

Web挖掘 WWW Knowledge

Web 挖掘简介 • Web日志挖掘

Web Mining简介 • 产生原因 • 应用 • 分类 • 过程

产生原因 • 网络信息搜集的需求与收集结果低效性的矛盾迫切需要对网络资源的整序与检索。 • 传统数据挖掘和文本挖掘技术的不断完善和应用。

应用 • 查询相关信息 • 从Web数据发现潜在的未知信息 • 了解用户的兴趣爱好 • 信息个性化

Web 挖掘分类 Web Mining Web Content Mining Web Structure Mining Web Usage Mining

Web内容挖掘 • Web内容挖掘是从文档内容或其描述中抽取知识的过程。 • Web内容挖掘策略 • 直接挖掘文档的内容 • 在其它工具搜索的基础上进行改进

Web内容挖掘（续） • 提取文字、图片或者其他组成网页内容成分的信息，即通过有效的内容挖掘能告诉我们哪些页面是德文或者法文的？哪些站点卖我们喜欢的东西？哪些页面介绍了我们感兴趣的知识？搜索引擎、智能代理和一些推荐引擎都使用内容挖掘来帮助客户在浩瀚的网络空间中寻找所需的内容。

Web结构挖掘 • Web结构挖掘研究的是Web文档的链接结构，揭示蕴含在这些文档结构中的有用模式，处理的数据是Web结构数据。是从WWW的组织结构和链接关系中推导知识。由于文档之间的互连，WWW能够提供除文档内容之外的有用信息。利用这些信息，可以对页面进行排序，发现重要的页面。

Web结构挖掘（续） • 提取网络的拓扑信息――网页之间的链接信息，即通过有效的结构挖掘能告诉我们哪些页面被其他页面所链接？哪些页面指向了其他页面？哪些页面的集合构成了一个独立的整体？

Web日志挖掘 • Web日志挖掘的主要目标则是从Web的访问记录中（Web服务器log日志）抽取感兴趣的模式。WWW中的每个服务器都保留了访问日志（Web access log），记录了用户访问和交互的信息。分析这些数据可以帮助理解用户的行为，从而改进站点的结构，或为用户提供个性化的服务。

Web日志挖掘（续） • 一般的访问模式跟踪 • 通过分析日志数据来了解用户的访问模式和倾向，以改进站点的组织结构 • 个性化的使用记录跟踪 • 倾向于分析单个用户的偏好，其目的是根据不同用户的访问模式，为每个用户提供定制的站点。

Web日志挖掘（续） • 提取关于客户如何运用浏览器浏览和使用这些链接的信息，即通过有效的日志挖掘能告诉我们那些客户访问了哪些页面？在每一页上待了多长时间？下一步单击了什么？在站点中是按照怎样的访问路线通向检查计数器，又是通过怎样的路线直接退出的？

Web挖掘过程 • 资源发现：在线或离线检索Web的过程，例如用爬虫（crawler）或（spider）在线收集Web页面 • 信息选择与预处理：对检索到的Web资源的任何变换都属于此过程。 • 词干提取 • 高低频词的过滤 • 汉语词的切分 • 综合过程：自动发现Web站点的共有模式 • 分析过程：对挖掘到的模式进行验证和可视化处理

Web日志挖掘 • Web日志挖掘数据类型 • Web日志挖掘应用 • Web日志挖掘过程

服务器日志

数据类型 • Client IP: 128.101.228.20 • Authenticated User ID: - - • Time/Date: [10/Nov/1999:10:16:39 -0600] • Request: "GET / HTTP/1.0" • Status: 200 • Bytes: - • Referrer: “-” • Agent: "Mozilla/4.61 [en] (WinNT; I)"

Web 日志挖掘应用 • Applications • 电子商务中发现潜在客户 • 增强终端用户信息获取的质量 • 提高Web服务器的性能 • 合理放置广告 • 提高站点设计 • 欺诈和入侵检测 • 预测用户行为

Web日志挖掘过程

Web日志挖掘过程 • 预处理 • 数据挖掘 • 模式分析

数据预处理 • 数据清理 • 用户对话识别 • 页面视图识别 • 路径完整

数据清理 • 根据一组原始的日志项，完成一系列基本任务，如归并日志、解析日志等。对于一些网站，需要过滤掉图象文件，这可以通过检查文件后缀实现。一般地，我们需要对日志中的状态码（status code）进行检查。

Agent IP Address Time/Date Method/URI Referrer 202.120.224.4 202.120.224.4 202.120.224.4 202.120.224.4 202.120.224.4 202.120.224.4 202.120.224.4 202.120.224.4 202.120.224.4 15:30:01/2-Jan-01 15:30:01/2-Jan-01 15:35:11/2-Jan-01 15:30:01/2-Jan-01 15:35:11/2-Jan-01 15:37:09/2-Jan-01 15:33:04/2-Jan-01 15:33:04/2-Jan-01 15:33:04/2-Jan-01 GET A.htm GET 1.htm GET C.htm GET Index.htm GET E.htm GET Index.htm GET A.htm GET B.htm GET 1.htm http://ex.edu/index.htm http://ex.edu/index.htm http://ex.edu/C.htm http://ok.edu/A.htm http://ok.edu/link.htm http://ok.edu/res.php http://ex.edu/index.htm http://ex.edu/A.htm http://ex.edu/index.htm Mozilla/4.0(IE4.0NT) Mozilla/4.0(IE4.0NT) Mozilla/4.0(IE5.0W98) Mozilla/4.0(IE5.0W98) Mozilla/4.0(IE4.0NT) Mozilla/4.0(IE4.0NT) Mozilla/4.0(IE5.0W98) Mozilla/4.0(IE5.0W98) Mozilla/4.0(IE5.0W98) 清理后的Sample Log

用户对话识别 • 1.IP Address & Agent • 2.Embedded Session ID • 3.Registration(User Profile) • 4.Cookie • 5.Software Agent (Applet&Scrtipt) • 6.Modified Browser

用户对话识别（续）

User1: 15:30:01/2-Jan-01 GET Index.htm http://ok.edu/link.htm Mozilla/4.0(IE5.0W98) 15:30:01/2-Jan-01 GET 1.htm http://ex.edu/index.htm 202.120.224.4 15:30:01/2-Jan-01 GET A.htm http://ex.edu/index.htm 15:35:11/2-Jan-01 GET C.htm http://ok.edu/A.htm 15:37:09/2-Jan-01 GET E.htm http://ex.edu/C.htm User2: Mozilla/4.0(IE4.0NT) 15:33:04/2-Jan-01 GET Index.htm http://ok.edu/res.php 15:33:04/2-Jan-01 GET 1.htm http://ex.edu/index.htm 202.120.224.4 15:33:04/2-Jan-01 GET A.htm http://ex.edu/index.htm 15:35:11/2-Jan-01 GET B.htm http://ex.edu/A.htm 用户对话识别

User1: Mozilla/4.0(IE5.0W98) 202.120.224.4 User2: Mozilla/4.0(IE4.0NT) 1-A http://ok.edu/res.php 202.120.224.4 B A.htm 页面视图识别 1-A http://ok.edu/link.htm 1-C A.htm E C.htm

路径补全 • 解决由于Cache带来的问题路径不全的问题

数据挖掘 • 统计分析 • 频繁项集和关联规则 • 聚类分析和分类 • 序列模式

统计分析 主要用于改进系统的性能、设计等包括： 1) 最频繁访问的页面 2) 每个页面的平均访问时间 3) 通过一个站点的平均时间

频繁项集和关联规则 可以寻找出经常频繁访问的page组，可用于修改Web 站点的设计或提前缓冲页面，改进系统的性能。

聚类和分类 • 包括两方面的应用： • *user • 用于Market segmentation(市场分割)和个人内容定制 • *page(content) • 后者主要用于IR和冲浪辅助

序列模式 可用于用户的 visit pattern.包括： 1.趋势分析 2.拐点检测

模式分析 • 目的是根据实际应用，通过用户的选择和观察，把发现的规则、模式和统计规律转换为知识。 • Visualization

隐私保护数据挖掘 • 隐私保护数据挖掘简介 • 隐私保护数据挖掘 • 面向企业信用评估的分布式隐私保护数据挖掘研究

一、隐私保护数据挖掘简介 • What • Why • Who • Goal • How • An Example

什么是数据挖掘 • 数据挖掘是从大量数据中提取或“挖掘”知识的过程。 • 数据挖掘以客观、有效的数据源为物质基础。 • 数据挖掘得到的知识是一种数据归纳的结果，是一种统计的知识。

什么是隐私 • 针对不同的应用环境，隐私定义不同。 • 在信息时代，隐私指用户隐藏个人信息的权利和控制自己的信息给其他人的能力。

什么是隐私保护数据挖掘 • “getting valid data mining results without learning the underlying data values” • 噪声背景的数据挖掘 • 受限制的数据挖掘

数据挖掘可能会违反用户的隐私 • 数据挖掘以准确的数据为数据源，进行数据归纳分析。 • 个体隐私 • 记录级和属性级上的隐私 • 组织隐私 • 结果级上的隐私，统计分析后的结果

什么人需要隐私保护数据挖掘？ • 政府和公用事业部门 • 疾病控制中心 • 保险公司 • 工商业组织 • 跨国公司 • 每个国家的法律是不同的 • 军事情报分析 • 犯罪行为分析 • 反恐分析

隐私的限制不会阻止数据挖掘 • 数据挖掘的目标是结果的总结 • 关联规则 • 分类 • 聚类 • 结果本身不会违反隐私 • 不包含个人身份信息 • 反映的是整个数据的归纳统计结果，而不是针对每个单位 The problem is computing the results without access to the data!

Efficiency Accuracy Privacy 隐私保护数据挖掘的目标 • PPDM encompasses the dual goal of meeting privacy requirements and providing valid data mining results. • 保护隐私和满足安全性要求（安全性） • 产生正确的数据挖掘归纳结果（准确性） • 提供高效的数据挖掘算法（高效性）

如何进行隐私保护数据挖掘

第 7 课 数据挖掘的高级主题