graceland
Uploaded by
31 SLIDES
358 VIEWS
310LIKES

Web 挖掘:我们关心什么 -- 如何能帮助社会科学家们做研究?

DESCRIPTION

Web 挖掘:我们关心什么 -- 如何能帮助社会科学家们做研究?. 李晓明,北京大学网络实验室 2007 年 7 月 21 日 ,SEWM’06. 在 2004 年的 SEWM 会议上,我报告了. 关于 SEWM 的进一步思考 -- 不要低估 我们 现在 能 做的事情 其中的观点 人类所有的活动都正在被数字化、网络化 计算和存储成本的下降使得一个小规模研究群体也可做出规模较大、意义较深远的事情来 以北京大学网络实验室建设的 “ 中国网络信息博物馆 ” 为例,展现了利用其中的数据和 SEWM 技术得到多方面有社会(科学)意义成果的可能. “Web InfoMall”.

1 / 31

Download Presentation

Web 挖掘:我们关心什么 -- 如何能帮助社会科学家们做研究?

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Web挖掘:我们关心什么-- 如何能帮助社会科学家们做研究? 李晓明,北京大学网络实验室 2007年7月21日,SEWM’06

  2. 在2004年的SEWM会议上,我报告了 • 关于SEWM的进一步思考--不要低估我们现在能做的事情 • 其中的观点 • 人类所有的活动都正在被数字化、网络化 • 计算和存储成本的下降使得一个小规模研究群体也可做出规模较大、意义较深远的事情来 • 以北京大学网络实验室建设的“中国网络信息博物馆”为例,展现了利用其中的数据和SEWM技术得到多方面有社会(科学)意义成果的可能

  3. “Web InfoMall” 保存网络信息历史,提供跨时空挖掘素材(还可以用来打官司) 自从2001,目前超过20亿中国网页,每天以上百万新网页的速度不断增加

  4. 我们将讨论 • 从事计算机专业的为什么应该关心社会科学家的事情? • 社会科学家们关心五要素:时间、地点、人物、事件、状态(when, where, who, what, how) • 网站行政属地的自动判别问题 • 人物信息的发现问题 • 网页出生与更新的时间估计问题 • WebDigest:一个既有意义也有可能的目标?

  5. “学科”的划分随“年龄”的变化 • 幼儿园,小学,初中:没有学科划分,所有人都学一样的东西 • 高中:文科,理科 • 大学:人文,社科,理科,工科 • 当然还有农科,医科,军事科学等等 • 研究生:“按二级学科招生” • 博士生:“各自钻到一个更窄的领域中” • 博士之后的研究:跨学科,交叉学科

  6. 信息技术,自然科学,社会科学 • 自然科学研究的三种基本方法:理论研究,实验研究,计算机模拟 • 普适性,应用性,成本 • 社会科学研究的方法:理论研究,实证研究,?计算机模拟? • 理论研究:马克思主义,凯恩斯主义,等 • 实证研究:基于系统的数据收集与分析,形成概念,得出结论,追求定量的刻画定性的认识 • 人们现在开始谈“经济运行模拟”,“政策执行模拟”

  7. 信息技术对社会科学研究的帮助 • SPSS (Software Package for Social Science) • 搜索引擎技术(应用举例) • 法律意识与经济意识的对比 • 电子政务实施情况 • 饮用水安全问题 • 重大新闻事件的追踪 • 基本假设:网络信息反映社会运动状态 “让社会科学插上信息技术的翅膀”,《计算机学会通讯》,2006.3

  8. 从网络信息研究社会的基本假设 SEWM’04上看过这个图

  9. 社会科学家关心的五个基本要素 • 时间 • 事件发生的时间,消息发布的时间 • 地点 • 事件发生的地点,消息发布者的属地 • 人物(对象) • 不仅是人物,还包括机构等对象 • 事件 • 预定事件,突发事件 • 状态 • 好坏,褒贬 从海量网络信息中有效地提取这些要素是一个令人兴奋的挑战

  10. 网站行政属地的判别问题 • 区别:行政属地 ≠ 服务器托管所在地 • 定义:网页,网站,机构 • page: 由一个url所代表的内容 • host: 一个空目录路径url所代表的所有网页的集合 • http://net.pku.edu.cn • organization: 在注册机构获得的一个域名属下所有网站的集合,例如,*.pku.edu.cn • 目标:给定一个网站集合,确定其每一个网站的行政属地

  11. 技术路线 • 通过对网站内容的分析获得其行政属地的判据,综合各种判据,形成判断 • 独立考察每一个网站中出现的地名、电话号码,邮编等提示信息 • 根据“多数指向原则”推断网站行政属地 • “多数指向原则” • 链接关系分析:从整个Web看每一个网站,通过网站之间的链接关系推断某些网站的行政属地 • 通过迭代,逐步形成对未知网站的认识

  12. 网站的互联(链接)趋向分析 • 基于CWT100g,一个包含500多万网页的数据集 • 以省为单位将1.7万个网站分组,考察网页之间的1.27亿链接,发现:当我们讲“互联网完全打破了地域观念”的时候需要小心 • 网站的69%出向链接是指向本网站网页的 • 在那些指向非本网站的出向链接中,有81%是指向本省网站的

  13. 测试集 • CWT100G • 从China-Web数据中抽取的100GB网页 • 约17000个站点 • 网页数量在站点中的分布差别很大 • Edu-Web • 2006年1月份搜集的教育网内的网页,60GB • 约3400个站点 • 网页数量分布比较平衡

  14. 运行结果(网站内容分析) • 程序可以给出判断的(置信度较高的):64% • 在给出判断的结果中,人工抽查正确率:90% • 于是总的判断正确率,57% • 不算高,但已经不错

  15. 人物信息的发现问题 • 问题一:给定一个“人物”集合,分别找到关于他们所有的信息(网页) • 容易:上搜索引擎,尽管不一定完整,但差不多 • 不容易:如何区别重名的人物? • 问题二:确定网上人物的“top N” • 不容易:连哪些人都不知道呀! • 问题三:网上一共提到了哪些人? • 不容易:不是大海捞针,也是沙里淘金 • 问题四:网上人物构成的社会网络? • 容易与否:取决于这里“社会网络”的定义 我们希望能效率很高地做这些事情

  16. 确定网上人物的“top N” • 不假思索的方法 • 得到一个海量网页集合(自己从网上抓取,或者获得某些流行公开的测试网页集,例如北大的CWT200g,或者2006年初得到的8亿网页) • 利用自然语言处理的经典算法,扫描每一篇网页内容,将人名提取出来 • 做好统计,声明得到了在给定集合上的“top N” • 问题(毛病) • “给定集合”与“网上”差的很远 • 经典算法的速度大约是5秒钟处理一篇网页,(于是处理CWT200g需要1.5亿秒=1700天),还不一定准。

  17. 认识与观察 • “top N”涉及的一定是比较有名的人(名人),如果N不是太大的话 • 许多网页包含有名人的信息,除了姓名,还有其他属性 • 例如年龄、职位、代表作、身高、体重、出生地 • 名人信息在网页中出现常有一定的模式 • 例如“冯巩,出生于天津”,模式即:[姓名] “,出生于”[地名] • 还有“冯巩,天津人”,模式即:[姓名] “,”[地名]“人” • 当然,我们事先既不知道有哪些模式,也不知道有哪些属性

  18. 扩展DIPRE (Sergey Brin, 1998) • Dual Iterative Pattern Relation Expansion • 利用两类不确定信息相互之间的“印证”,通过迭代逐步完成信息的提取 • 从已知的一些种子名人信息(关系)出发,利用搜索引擎,获得相关网页,从那些网页中发现表述名人信息的模式的集合 [例如,用“冯巩 天津”到搜索引擎中查到所有相关网页,分析这些网页中出现“冯巩”和“天津”周围文字的情况,形成一个模式集合。这是从关系到模式的过程]

  19. DIPRE • 按照这些模式(再次上搜索引擎),从网页发现其他的名人信息 • 例如,[姓名]“,出生于”[地名],发现了“易建联,出生于广东鹤山”,得到新的关系<易建联,广东鹤山〉。这是从“模式”到“关系”的过程。 • 下一轮,我们用新得到的关系“易建联 广东鹤山”获取网页集合,考察那些网页,可能发现新的模式,例如,[人名]“,祖籍”[地名],这些新的模式又能引导我们发现新的关系 • 如此往复…

  20. 在所发现的4万多名人中的top 100 Top100人物相关网页数曲线图 他们在不同类型中的分布

  21. 为什么他们就是真的“top 100”? • “证明”:只需说明若某人名是真的“top 100”,则不会漏网 • 某人属于top 100,则他一定在网上大量出现 • 且一定会以某种流行的“模式”出现 • 该模式在迭代中会被发现 • 因此他总会在某次迭代中被发现 • 而一旦发现,他在网上出现的数量也就可知,就可以和其他的进行比较了

  22. 网上提到了哪些人(不一定名人)? • 因此不一定“大量出现”,于是不一定有“流行模式”,于是DIPRE方法不能用了 • “小世界现象”在此的推广(hypothesis):一个人名在网上有出现,则它会以很高的概率和其他人名共现在某些网页中,所形成的关系图的直径很小 • 这样,从若干人名(种子)开始,获得网页,从中发现新的人名(选些新种子),获得新的网页,…(避免分析无人名网页)

  23. 运行7天,获得210余万个人名 • 当种子达到1500时,得到了210万人名 • 网页平均有32个人名 • 某网页含有11480个人名!

  24. 2006年,中国网上人名最多的网页 中国网上含有人名最多的网页:11480

  25. 网页出生与修改的时间估计问题 • 给定一个网页集合,估计其中每篇网页的发布时间与最后修改时间 • LMT经常不可信 • 利用简单事实 • 若A指向B,则B的发布时间早于A的最后修改时间 • 以及某些网页已知的时间条件,在大量相互链接的网页集合情形下,我们有可能得到比较准确的结果。

  26. WebDigest:目标与意义 • 我们希望能回答诸如下面的问题 • 网上出现次数最多的100个人是哪些 • 哪个网站最先报道了禽流感消息 • 对于吉林石化的爆炸事件,不同的省份分别有哪些报道 • 关于超女现象,给出网上报道的一个综述 • 2005年,温家宝总理到过那些省 • “刘德华自杀”的报道是真的吗 • …

  27. WebDigest • 对问题的回答,不是某一篇网页中的内容,而是一个网页集合中蕴含的知识 • 以北大Web InfoMall的数据为基础,形成一种对它们整体的“理解”,然后允许别人进一步“提问” • 词典,网页数据,链接数据,各种中间表示,… • 构建工具:搜集,切词,去噪,消重,元数据,链接分析,分类,聚类,信息提取,摘要,综述… • 通过网络提供深度信息服务,浏览,查询;批处理,交互;…

  28. WebDigest的若干基本挑战 • 增量网页搜集 • 数量覆盖率,质量覆盖率,预测正确率(效率) • 面向网页信息的中文切词(准确词性) • 中科院、哈工大、北大,质量和性能都还需改进 • 五要素(4W+H)的提取 • 支持高效查找的海量网页信息压缩 • 包括URL压缩,倒排表压缩,… • 海量网页内容综述和交互查询模式 • …… 在中国网页公共数据集上实现与评测

  29. 结束语 • 传统上,计算机专业的学生向来都是“面向自然科学”和“工程科学”的 • 但我们现在认为今后计算机应用的重心会向“社会科学”移动 • 整个社会信息的数字化、网络化将产生的深刻影响 • 从有意义的现实问题出发,发展算法和工具,在真实数据集上检验 • 充分注意到网络信息的“海量性”,在小规模数据上先进的方法现在不一定好用,看起来粗燥的方法却很可能凑效 • 这意味着激动人心的研究目标和内容(对学生来说,也意味着大量新的工作机会)

  30. 谢 谢! • lxm@pku.edu.cn

More Related