Web 挖掘：我们关心什么 -- 如何能帮助社会科学家们做研究？

Web挖掘：我们关心什么-- 如何能帮助社会科学家们做研究？李晓明，北京大学网络实验室 2007年7月21日,SEWM’06

在2004年的SEWM会议上，我报告了 • 关于SEWM的进一步思考--不要低估我们现在能做的事情 • 其中的观点 • 人类所有的活动都正在被数字化、网络化 • 计算和存储成本的下降使得一个小规模研究群体也可做出规模较大、意义较深远的事情来 • 以北京大学网络实验室建设的“中国网络信息博物馆”为例，展现了利用其中的数据和SEWM技术得到多方面有社会（科学）意义成果的可能

“Web InfoMall” 保存网络信息历史，提供跨时空挖掘素材（还可以用来打官司）自从2001，目前超过20亿中国网页，每天以上百万新网页的速度不断增加

我们将讨论 • 从事计算机专业的为什么应该关心社会科学家的事情？ • 社会科学家们关心五要素：时间、地点、人物、事件、状态（when, where, who, what, how） • 网站行政属地的自动判别问题 • 人物信息的发现问题 • 网页出生与更新的时间估计问题 • WebDigest：一个既有意义也有可能的目标？

“学科”的划分随“年龄”的变化 • 幼儿园，小学，初中：没有学科划分，所有人都学一样的东西 • 高中：文科，理科 • 大学：人文，社科，理科，工科 • 当然还有农科，医科，军事科学等等 • 研究生：“按二级学科招生” • 博士生：“各自钻到一个更窄的领域中” • 博士之后的研究：跨学科，交叉学科

信息技术，自然科学，社会科学 • 自然科学研究的三种基本方法：理论研究，实验研究，计算机模拟 • 普适性，应用性，成本 • 社会科学研究的方法：理论研究，实证研究，？计算机模拟？ • 理论研究：马克思主义，凯恩斯主义，等 • 实证研究：基于系统的数据收集与分析，形成概念，得出结论，追求定量的刻画定性的认识 • 人们现在开始谈“经济运行模拟”，“政策执行模拟”

信息技术对社会科学研究的帮助 • SPSS (Software Package for Social Science) • 搜索引擎技术（应用举例） • 法律意识与经济意识的对比 • 电子政务实施情况 • 饮用水安全问题 • 重大新闻事件的追踪 • 基本假设：网络信息反映社会运动状态 “让社会科学插上信息技术的翅膀”，《计算机学会通讯》，2006.3

从网络信息研究社会的基本假设 SEWM’04上看过这个图

社会科学家关心的五个基本要素 • 时间 • 事件发生的时间，消息发布的时间 • 地点 • 事件发生的地点，消息发布者的属地 • 人物（对象） • 不仅是人物，还包括机构等对象 • 事件 • 预定事件，突发事件 • 状态 • 好坏，褒贬从海量网络信息中有效地提取这些要素是一个令人兴奋的挑战

网站行政属地的判别问题 • 区别：行政属地 ≠ 服务器托管所在地 • 定义：网页，网站，机构 • page: 由一个url所代表的内容 • host: 一个空目录路径url所代表的所有网页的集合 • http://net.pku.edu.cn • organization: 在注册机构获得的一个域名属下所有网站的集合，例如，*.pku.edu.cn • 目标：给定一个网站集合，确定其每一个网站的行政属地

技术路线 • 通过对网站内容的分析获得其行政属地的判据，综合各种判据，形成判断 • 独立考察每一个网站中出现的地名、电话号码，邮编等提示信息 • 根据“多数指向原则”推断网站行政属地 • “多数指向原则” • 链接关系分析：从整个Web看每一个网站，通过网站之间的链接关系推断某些网站的行政属地 • 通过迭代，逐步形成对未知网站的认识

网站的互联（链接）趋向分析 • 基于CWT100g，一个包含500多万网页的数据集 • 以省为单位将1.7万个网站分组，考察网页之间的1.27亿链接，发现：当我们讲“互联网完全打破了地域观念”的时候需要小心 • 网站的69%出向链接是指向本网站网页的 • 在那些指向非本网站的出向链接中，有81%是指向本省网站的

测试集 • CWT100G • 从China-Web数据中抽取的100GB网页 • 约17000个站点 • 网页数量在站点中的分布差别很大 • Edu-Web • 2006年1月份搜集的教育网内的网页，60GB • 约3400个站点 • 网页数量分布比较平衡

运行结果（网站内容分析） • 程序可以给出判断的（置信度较高的）：64% • 在给出判断的结果中，人工抽查正确率：90% • 于是总的判断正确率，57% • 不算高，但已经不错

人物信息的发现问题 • 问题一：给定一个“人物”集合，分别找到关于他们所有的信息（网页） • 容易：上搜索引擎，尽管不一定完整，但差不多 • 不容易：如何区别重名的人物？ • 问题二：确定网上人物的“top N” • 不容易：连哪些人都不知道呀！ • 问题三：网上一共提到了哪些人？ • 不容易：不是大海捞针，也是沙里淘金 • 问题四：网上人物构成的社会网络？ • 容易与否：取决于这里“社会网络”的定义我们希望能效率很高地做这些事情

确定网上人物的“top N” • 不假思索的方法 • 得到一个海量网页集合（自己从网上抓取，或者获得某些流行公开的测试网页集，例如北大的CWT200g，或者2006年初得到的8亿网页） • 利用自然语言处理的经典算法，扫描每一篇网页内容，将人名提取出来 • 做好统计，声明得到了在给定集合上的“top N” • 问题（毛病） • “给定集合”与“网上”差的很远 • 经典算法的速度大约是5秒钟处理一篇网页，（于是处理CWT200g需要1.5亿秒=1700天），还不一定准。

认识与观察 • “top N”涉及的一定是比较有名的人（名人），如果N不是太大的话 • 许多网页包含有名人的信息，除了姓名，还有其他属性 • 例如年龄、职位、代表作、身高、体重、出生地 • 名人信息在网页中出现常有一定的模式 • 例如“冯巩，出生于天津”，模式即：[姓名] “，出生于”[地名] • 还有“冯巩，天津人”，模式即：[姓名] “，”[地名]“人” • 当然，我们事先既不知道有哪些模式，也不知道有哪些属性

扩展DIPRE (Sergey Brin, 1998) • Dual Iterative Pattern Relation Expansion • 利用两类不确定信息相互之间的“印证”，通过迭代逐步完成信息的提取 • 从已知的一些种子名人信息（关系）出发，利用搜索引擎，获得相关网页，从那些网页中发现表述名人信息的模式的集合 [例如，用“冯巩天津”到搜索引擎中查到所有相关网页，分析这些网页中出现“冯巩”和“天津”周围文字的情况，形成一个模式集合。这是从关系到模式的过程]

DIPRE • 按照这些模式（再次上搜索引擎），从网页发现其他的名人信息 • 例如，[姓名]“，出生于”[地名]，发现了“易建联，出生于广东鹤山”，得到新的关系<易建联，广东鹤山〉。这是从“模式”到“关系”的过程。 • 下一轮，我们用新得到的关系“易建联广东鹤山”获取网页集合，考察那些网页，可能发现新的模式，例如，[人名]“，祖籍”[地名]，这些新的模式又能引导我们发现新的关系 • 如此往复…

在所发现的4万多名人中的top 100 Top100人物相关网页数曲线图他们在不同类型中的分布

为什么他们就是真的“top 100”？ • “证明”：只需说明若某人名是真的“top 100”，则不会漏网 • 某人属于top 100，则他一定在网上大量出现 • 且一定会以某种流行的“模式”出现 • 该模式在迭代中会被发现 • 因此他总会在某次迭代中被发现 • 而一旦发现，他在网上出现的数量也就可知，就可以和其他的进行比较了

网上提到了哪些人（不一定名人）？ • 因此不一定“大量出现”，于是不一定有“流行模式”，于是DIPRE方法不能用了 • “小世界现象”在此的推广（hypothesis）：一个人名在网上有出现，则它会以很高的概率和其他人名共现在某些网页中，所形成的关系图的直径很小 • 这样，从若干人名（种子）开始，获得网页，从中发现新的人名（选些新种子），获得新的网页，…（避免分析无人名网页）

运行7天，获得210余万个人名 • 当种子达到1500时，得到了210万人名 • 网页平均有32个人名 • 某网页含有11480个人名！

2006年，中国网上人名最多的网页 中国网上含有人名最多的网页：11480

网页出生与修改的时间估计问题 • 给定一个网页集合，估计其中每篇网页的发布时间与最后修改时间 • LMT经常不可信 • 利用简单事实 • 若A指向B，则B的发布时间早于A的最后修改时间 • 以及某些网页已知的时间条件，在大量相互链接的网页集合情形下，我们有可能得到比较准确的结果。

WebDigest：目标与意义 • 我们希望能回答诸如下面的问题 • 网上出现次数最多的100个人是哪些 • 哪个网站最先报道了禽流感消息 • 对于吉林石化的爆炸事件，不同的省份分别有哪些报道 • 关于超女现象，给出网上报道的一个综述 • 2005年，温家宝总理到过那些省 • “刘德华自杀”的报道是真的吗 • …

WebDigest • 对问题的回答，不是某一篇网页中的内容，而是一个网页集合中蕴含的知识 • 以北大Web InfoMall的数据为基础，形成一种对它们整体的“理解”，然后允许别人进一步“提问” • 词典，网页数据，链接数据，各种中间表示，… • 构建工具：搜集，切词，去噪，消重，元数据，链接分析，分类，聚类，信息提取，摘要，综述… • 通过网络提供深度信息服务，浏览，查询；批处理，交互；…

WebDigest的若干基本挑战 • 增量网页搜集 • 数量覆盖率，质量覆盖率，预测正确率（效率） • 面向网页信息的中文切词（准确词性） • 中科院、哈工大、北大，质量和性能都还需改进 • 五要素（4W+H）的提取 • 支持高效查找的海量网页信息压缩 • 包括URL压缩，倒排表压缩，… • 海量网页内容综述和交互查询模式 • …… 在中国网页公共数据集上实现与评测

结束语 • 传统上，计算机专业的学生向来都是“面向自然科学”和“工程科学”的 • 但我们现在认为今后计算机应用的重心会向“社会科学”移动 • 整个社会信息的数字化、网络化将产生的深刻影响 • 从有意义的现实问题出发，发展算法和工具，在真实数据集上检验 • 充分注意到网络信息的“海量性”，在小规模数据上先进的方法现在不一定好用，看起来粗燥的方法却很可能凑效 • 这意味着激动人心的研究目标和内容（对学生来说，也意味着大量新的工作机会）

谢谢! • lxm@pku.edu.cn

Web 挖掘：我们关心什么 -- 如何能帮助社会科学家们做研究？

Web 挖掘：我们关心什么 -- 如何能帮助社会科学家们做研究？

Presentation Transcript