Web 挖掘:我们关心什么 -- 如何能帮助社会科学家们做研究?
Web 挖掘:我们关心什么 -- 如何能帮助社会科学家们做研究?. 李晓明,北京大学网络实验室 2007 年 7 月 21 日 ,SEWM’06. 在 2004 年的 SEWM 会议上,我报告了. 关于 SEWM 的进一步思考 -- 不要低估 我们 现在 能 做的事情 其中的观点 人类所有的活动都正在被数字化、网络化 计算和存储成本的下降使得一个小规模研究群体也可做出规模较大、意义较深远的事情来 以北京大学网络实验室建设的 “ 中国网络信息博物馆 ” 为例,展现了利用其中的数据和 SEWM 技术得到多方面有社会(科学)意义成果的可能. “Web InfoMall”.
Web 挖掘:我们关心什么 -- 如何能帮助社会科学家们做研究?
E N D
Presentation Transcript
Web挖掘:我们关心什么-- 如何能帮助社会科学家们做研究? 李晓明,北京大学网络实验室 2007年7月21日,SEWM’06
在2004年的SEWM会议上,我报告了 • 关于SEWM的进一步思考--不要低估我们现在能做的事情 • 其中的观点 • 人类所有的活动都正在被数字化、网络化 • 计算和存储成本的下降使得一个小规模研究群体也可做出规模较大、意义较深远的事情来 • 以北京大学网络实验室建设的“中国网络信息博物馆”为例,展现了利用其中的数据和SEWM技术得到多方面有社会(科学)意义成果的可能
“Web InfoMall” 保存网络信息历史,提供跨时空挖掘素材(还可以用来打官司) 自从2001,目前超过20亿中国网页,每天以上百万新网页的速度不断增加
我们将讨论 • 从事计算机专业的为什么应该关心社会科学家的事情? • 社会科学家们关心五要素:时间、地点、人物、事件、状态(when, where, who, what, how) • 网站行政属地的自动判别问题 • 人物信息的发现问题 • 网页出生与更新的时间估计问题 • WebDigest:一个既有意义也有可能的目标?
“学科”的划分随“年龄”的变化 • 幼儿园,小学,初中:没有学科划分,所有人都学一样的东西 • 高中:文科,理科 • 大学:人文,社科,理科,工科 • 当然还有农科,医科,军事科学等等 • 研究生:“按二级学科招生” • 博士生:“各自钻到一个更窄的领域中” • 博士之后的研究:跨学科,交叉学科
信息技术,自然科学,社会科学 • 自然科学研究的三种基本方法:理论研究,实验研究,计算机模拟 • 普适性,应用性,成本 • 社会科学研究的方法:理论研究,实证研究,?计算机模拟? • 理论研究:马克思主义,凯恩斯主义,等 • 实证研究:基于系统的数据收集与分析,形成概念,得出结论,追求定量的刻画定性的认识 • 人们现在开始谈“经济运行模拟”,“政策执行模拟”
信息技术对社会科学研究的帮助 • SPSS (Software Package for Social Science) • 搜索引擎技术(应用举例) • 法律意识与经济意识的对比 • 电子政务实施情况 • 饮用水安全问题 • 重大新闻事件的追踪 • 基本假设:网络信息反映社会运动状态 “让社会科学插上信息技术的翅膀”,《计算机学会通讯》,2006.3
从网络信息研究社会的基本假设 SEWM’04上看过这个图
社会科学家关心的五个基本要素 • 时间 • 事件发生的时间,消息发布的时间 • 地点 • 事件发生的地点,消息发布者的属地 • 人物(对象) • 不仅是人物,还包括机构等对象 • 事件 • 预定事件,突发事件 • 状态 • 好坏,褒贬 从海量网络信息中有效地提取这些要素是一个令人兴奋的挑战
网站行政属地的判别问题 • 区别:行政属地 ≠ 服务器托管所在地 • 定义:网页,网站,机构 • page: 由一个url所代表的内容 • host: 一个空目录路径url所代表的所有网页的集合 • http://net.pku.edu.cn • organization: 在注册机构获得的一个域名属下所有网站的集合,例如,*.pku.edu.cn • 目标:给定一个网站集合,确定其每一个网站的行政属地
技术路线 • 通过对网站内容的分析获得其行政属地的判据,综合各种判据,形成判断 • 独立考察每一个网站中出现的地名、电话号码,邮编等提示信息 • 根据“多数指向原则”推断网站行政属地 • “多数指向原则” • 链接关系分析:从整个Web看每一个网站,通过网站之间的链接关系推断某些网站的行政属地 • 通过迭代,逐步形成对未知网站的认识
网站的互联(链接)趋向分析 • 基于CWT100g,一个包含500多万网页的数据集 • 以省为单位将1.7万个网站分组,考察网页之间的1.27亿链接,发现:当我们讲“互联网完全打破了地域观念”的时候需要小心 • 网站的69%出向链接是指向本网站网页的 • 在那些指向非本网站的出向链接中,有81%是指向本省网站的
测试集 • CWT100G • 从China-Web数据中抽取的100GB网页 • 约17000个站点 • 网页数量在站点中的分布差别很大 • Edu-Web • 2006年1月份搜集的教育网内的网页,60GB • 约3400个站点 • 网页数量分布比较平衡
运行结果(网站内容分析) • 程序可以给出判断的(置信度较高的):64% • 在给出判断的结果中,人工抽查正确率:90% • 于是总的判断正确率,57% • 不算高,但已经不错
人物信息的发现问题 • 问题一:给定一个“人物”集合,分别找到关于他们所有的信息(网页) • 容易:上搜索引擎,尽管不一定完整,但差不多 • 不容易:如何区别重名的人物? • 问题二:确定网上人物的“top N” • 不容易:连哪些人都不知道呀! • 问题三:网上一共提到了哪些人? • 不容易:不是大海捞针,也是沙里淘金 • 问题四:网上人物构成的社会网络? • 容易与否:取决于这里“社会网络”的定义 我们希望能效率很高地做这些事情
确定网上人物的“top N” • 不假思索的方法 • 得到一个海量网页集合(自己从网上抓取,或者获得某些流行公开的测试网页集,例如北大的CWT200g,或者2006年初得到的8亿网页) • 利用自然语言处理的经典算法,扫描每一篇网页内容,将人名提取出来 • 做好统计,声明得到了在给定集合上的“top N” • 问题(毛病) • “给定集合”与“网上”差的很远 • 经典算法的速度大约是5秒钟处理一篇网页,(于是处理CWT200g需要1.5亿秒=1700天),还不一定准。
认识与观察 • “top N”涉及的一定是比较有名的人(名人),如果N不是太大的话 • 许多网页包含有名人的信息,除了姓名,还有其他属性 • 例如年龄、职位、代表作、身高、体重、出生地 • 名人信息在网页中出现常有一定的模式 • 例如“冯巩,出生于天津”,模式即:[姓名] “,出生于”[地名] • 还有“冯巩,天津人”,模式即:[姓名] “,”[地名]“人” • 当然,我们事先既不知道有哪些模式,也不知道有哪些属性
扩展DIPRE (Sergey Brin, 1998) • Dual Iterative Pattern Relation Expansion • 利用两类不确定信息相互之间的“印证”,通过迭代逐步完成信息的提取 • 从已知的一些种子名人信息(关系)出发,利用搜索引擎,获得相关网页,从那些网页中发现表述名人信息的模式的集合 [例如,用“冯巩 天津”到搜索引擎中查到所有相关网页,分析这些网页中出现“冯巩”和“天津”周围文字的情况,形成一个模式集合。这是从关系到模式的过程]
DIPRE • 按照这些模式(再次上搜索引擎),从网页发现其他的名人信息 • 例如,[姓名]“,出生于”[地名],发现了“易建联,出生于广东鹤山”,得到新的关系<易建联,广东鹤山〉。这是从“模式”到“关系”的过程。 • 下一轮,我们用新得到的关系“易建联 广东鹤山”获取网页集合,考察那些网页,可能发现新的模式,例如,[人名]“,祖籍”[地名],这些新的模式又能引导我们发现新的关系 • 如此往复…
在所发现的4万多名人中的top 100 Top100人物相关网页数曲线图 他们在不同类型中的分布
为什么他们就是真的“top 100”? • “证明”:只需说明若某人名是真的“top 100”,则不会漏网 • 某人属于top 100,则他一定在网上大量出现 • 且一定会以某种流行的“模式”出现 • 该模式在迭代中会被发现 • 因此他总会在某次迭代中被发现 • 而一旦发现,他在网上出现的数量也就可知,就可以和其他的进行比较了
网上提到了哪些人(不一定名人)? • 因此不一定“大量出现”,于是不一定有“流行模式”,于是DIPRE方法不能用了 • “小世界现象”在此的推广(hypothesis):一个人名在网上有出现,则它会以很高的概率和其他人名共现在某些网页中,所形成的关系图的直径很小 • 这样,从若干人名(种子)开始,获得网页,从中发现新的人名(选些新种子),获得新的网页,…(避免分析无人名网页)
运行7天,获得210余万个人名 • 当种子达到1500时,得到了210万人名 • 网页平均有32个人名 • 某网页含有11480个人名!
2006年,中国网上人名最多的网页 中国网上含有人名最多的网页:11480
网页出生与修改的时间估计问题 • 给定一个网页集合,估计其中每篇网页的发布时间与最后修改时间 • LMT经常不可信 • 利用简单事实 • 若A指向B,则B的发布时间早于A的最后修改时间 • 以及某些网页已知的时间条件,在大量相互链接的网页集合情形下,我们有可能得到比较准确的结果。
WebDigest:目标与意义 • 我们希望能回答诸如下面的问题 • 网上出现次数最多的100个人是哪些 • 哪个网站最先报道了禽流感消息 • 对于吉林石化的爆炸事件,不同的省份分别有哪些报道 • 关于超女现象,给出网上报道的一个综述 • 2005年,温家宝总理到过那些省 • “刘德华自杀”的报道是真的吗 • …
WebDigest • 对问题的回答,不是某一篇网页中的内容,而是一个网页集合中蕴含的知识 • 以北大Web InfoMall的数据为基础,形成一种对它们整体的“理解”,然后允许别人进一步“提问” • 词典,网页数据,链接数据,各种中间表示,… • 构建工具:搜集,切词,去噪,消重,元数据,链接分析,分类,聚类,信息提取,摘要,综述… • 通过网络提供深度信息服务,浏览,查询;批处理,交互;…
WebDigest的若干基本挑战 • 增量网页搜集 • 数量覆盖率,质量覆盖率,预测正确率(效率) • 面向网页信息的中文切词(准确词性) • 中科院、哈工大、北大,质量和性能都还需改进 • 五要素(4W+H)的提取 • 支持高效查找的海量网页信息压缩 • 包括URL压缩,倒排表压缩,… • 海量网页内容综述和交互查询模式 • …… 在中国网页公共数据集上实现与评测
结束语 • 传统上,计算机专业的学生向来都是“面向自然科学”和“工程科学”的 • 但我们现在认为今后计算机应用的重心会向“社会科学”移动 • 整个社会信息的数字化、网络化将产生的深刻影响 • 从有意义的现实问题出发,发展算法和工具,在真实数据集上检验 • 充分注意到网络信息的“海量性”,在小规模数据上先进的方法现在不一定好用,看起来粗燥的方法却很可能凑效 • 这意味着激动人心的研究目标和内容(对学生来说,也意味着大量新的工作机会)
谢 谢! • lxm@pku.edu.cn