1 / 41

可扩展 Web 信息搜集系统的 设计、实现与应用初探

可扩展 Web 信息搜集系统的 设计、实现与应用初探. 闫宏飞 北京大学网络与分布式实验室 2002 年6月14日. 提纲. 问题的提出 网页搜集系统的可扩展性研究 网页搜集系统的动态可配置性 海量网页应用研究初步 工作总结和展望. 工作的背景和意义. Web 发展 1989年提出->1993 Mosaic->1997 年底(3亿2000万) ->2000年1月(超过10亿) -> 2002年5月(超过20亿) , … 中国的 Web 发展 1995年底(10万到100万之间) 每年以指数形式增长 2002年1月(超过5000万),. 搜索引擎工作流程.

violet-pope
Download Presentation

可扩展 Web 信息搜集系统的 设计、实现与应用初探

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 可扩展Web信息搜集系统的设计、实现与应用初探可扩展Web信息搜集系统的设计、实现与应用初探 闫宏飞 北京大学网络与分布式实验室 2002年6月14日

  2. 提纲 • 问题的提出 • 网页搜集系统的可扩展性研究 • 网页搜集系统的动态可配置性 • 海量网页应用研究初步 • 工作总结和展望 2

  3. 工作的背景和意义 • Web发展 • 1989年提出->1993Mosaic->1997年底(3亿2000万) ->2000年1月(超过10亿) -> 2002年5月(超过20亿) ,… • 中国的Web 发展 • 1995年底(10万到100万之间) • 每年以指数形式增长 • 2002年1月(超过5000万),... 3

  4. 搜索引擎工作流程 • 起源于传统的信息全文检索理论 • 包括如下3个工作过程 www 建立索引库 搜集Web信息 检索查询 用户 4

  5. 搜集Web信息 • 应用到下列方面: • 搜索引擎 • 网页存档 • 其它方面 • 确认网页的有效性,站点结构分析,更新通知,镜像,个人Web助理 • 搜集方式 • 目标 • 尽快高效地获取网页 5

  6. 提纲 • 问题提出 • 可扩展网页搜集系统 • 分布式系统 • 搜集策略 • 增量式搜集 • 网页搜集系统的动态配置 • 海量网页应用研究初步 • 工作总结与展望 6

  7. 天网系统体系结构 WWW 搜集器 控制器 原始数据库 制定搜集策略 过滤IP地址 执行Robot协议 存储所抓取得网页 索引器 索引数据库 检索器 用户接口 用户 7

  8. 集中式搜集系统 8

  9. 高效搜集尽可能多的网页 目标 系统具有如下特点 主控2 • 尽可能减少主控之间网络通信量 • 各节点负载均衡 • 具有可扩展性 • 系统可以动态变化 主控1 主控3 调度 • 分布式策略 • 物理上分散 • IP分段 • 主控通信策略 • 环形通信 • 网状通信 主控N 搜集器 搜集器 搜集器 搜集器 分布式搜集系统 分布式并行 9

  10. 模拟系统实验 • 模拟数据:大小为507MB->761,129个网页的模拟Web数据 • 模拟实验机器配置:一台PC机,配有双Intel550 CPU,内存为512MB,硬盘36GB,运行的操作系统为Solaris 8.0 • 基于上述实验环境,分别模拟实验了主控数n为2,4,8,16时四种情况 10

  11. 负载平衡参照序列 11

  12. 模拟系统负载平衡 Hash函数:H ( URL ) = ( DNS ( URL中主机部分 ) ) MOD n 参考序列 12 可扩展搜集系统负载方差

  13. 模拟系统可扩展性 13

  14. 实际系统实验 • 机器配置:四台PC机,配有双Intel550 CPU,内存为512MB,硬盘36GB,运行的操作系统为Solaris 8.0 • 基于上述实验环境,分别实验了主控数n为1,2,3,4时四种情况 14

  15. 实际系统负载平衡 模拟实验方差 实际实验方差 15

  16. 实际系统可扩展性 16

  17. 表面 深层 搜集策略 17

  18. 增量式搜集 • 为什么要增量式搜集 • 设计目标 • 消除已经搜集到的网页中已经失效的网页 • 重新搜集更新过的网页 • 搜集没有访问过的网页 • 以多快好省的方式完成增量搜集过程 18

  19. 实现增量式搜集的两种策略 • 检查全部网页 • 重新访问的网页数量不大 • 检查中与服务器建立连接 • 网页平均生命周期1.43年,同一时间存在的网页总体的半衰期大约0.99年 • 有选择性的检查网页 19

  20. 搜集部分相关研究 • Harvest搜索引擎 • Google搜索引擎 • Internet Archive • Inktomi搜索引擎 20

  21. 提纲 • 问题提出 • 可扩展网页搜集系统 • 网页搜集系统的动态配置 • 海量网页应用研究初步 • 工作总结与展望 21

  22. 实现动态可配置的三种方法 • 采用全局Hash函数在所有运行节点间动态分配未访问URL。 • 基于第一种方法,同时每个主控记录着一张Web主机表,这张表在各个主控中是相同的,其中每一条记录包含一个Web主机及其所对应主控信息。 • 采用两阶段映射的方法 22

  23. 两阶段映射模型 已知:H : hosts on the web ; N : main-controllers; M : elements in the Array A. 则有:{ (h , n) | m =f1(h), n=f2(m), h∈H, m∈M, n∈N } 要求:(Ui ∩ Uj) = Ø ;(Hi ∩ Hj) = Ø ;(Ni ∩ Nj) = Ø • 负载平衡 • 通信量低 • 各主控之间不重复工作 • 有利于后续工作 23

  24. Array A URLs 1 … 1 2 … 2 … … 9 … 9 1 … 1 2 … 2 … … 9 … 9 1 … 1 11 … 11 2 … 2 11 … 11 … … 10 … 10 11 … 11 1 … 1 2 … 2 … … 10 … 10 N1 shift (4546..5000) N9(40001..45000) N2(5001..10000) N1(1..5000) N2(5001..10000) N2(5001..9545) N1(1..5000) N1(1..4545) N2 shift (9546..10000) N10(45001..50000) N10(45001..49545) N11 N2 (45556..46110) N9 (49440..50000) N1 (45001..45555) N10 shift (49546..50000) a) 稳定状态 b)增加节点 c) 减少节点 两阶段映射举例 设 N = 10 and M = 50000 24

  25. 提纲 • 问题提出 • 可扩展网页搜集系统 • 网页搜集系统的动态配置 • 海量网页应用研究初步 • 中国Web大小、形状和结构 • 工作总结与展望 25

  26. 术语介绍 http://www.search163.net/catalog/html/20/20582539.htm http://202.112.78.100/laddernet/hotlink/other.htm http://www.shxi.cetin.net.cn/导航/国内/jywh-ky.htm http://www.daqing.gov.cn/wldh/kj.html http://ftp.gliet.edu.cn/daohang/zhongkebu.htm http://www.dalian.edu.cn/new.htm http://www.dalian.edu.cn/ http://www.synet.edu.cn/ http://www.njnet.edu.cn/ http://www.shnet.edu.cn/ http://www.gznet.edu.cn/ • Web直径 • 网站 • 网页出度,网页入度 • 存在于导航功能中的称为导航影响入度 • 存在于认可功能中的称为认可影响入度 • 有效入度 • 权威型网页,目录型网页 26

  27. 天网搜集记录 第三次搜集数据具有代表性 覆盖了中国89.6%的网站,45.2%的网页。 类似于宽度优先搜索的策略 覆盖了93.2%有影响力的网站 27

  28. 基本统计数据 • 2002年1月WebGather系统搜集网页数为24,158,849,涉及44,028个网站。 • 平均每个网站有网页548.72个。 • 网页文字平均为12.92KB,网站在各省之间的分布方差为24.18。 • 其中教育网有8144个网站,网站分布方差为16.14; • 科技网有732个网站,网站分布方差为27.68。 28

  29. Web页面链接 实验数据是2,278,524 网页,58,625,283 个链接 网页的平均出度为25.7。 在58,625,283 个链接中指向国外的链接数只有1%。 29

  30. 中国Web的形状 30

  31. Web结构 31

  32. 网页有效入度/出度分布 网页的度的分布(尤其是有效入度/入度分布)符合幂级数定律:拥有度为i的网页数与1/ix成正比,其中x>1 x=1.95 x=2.37 32

  33. 网页入度分布 网页的度的分布(尤其是有效入度/入度分布)符合幂级数定律:拥有度为i的网页数与1/ix成正比,其中x>1 x=1.86 33

  34. 热门站点分类 34

  35. Web社区 • 网络社区 C= P∪I • 二分图定义 • 完全二分图 • 网络核心社区对应于完全二分图Ccore=Pcore∪Icore。 35

  36. 找出Web核心社区的方法 实验数据是2,278,524 网页,58,625,283 个链接,2.5GB。即Ppotential分布于2,278,524 网页根URL中, Ipotential分布于58,625,283个URL中 一个Ppotential相当于一个好的目录型网页(Hub), 至少包含6个不同域名的超链接 剩下1/8左右的网页(数据文件的大小减少到313MB) 过滤掉后,得到118MB的链接文件 36

  37. 找出Web核心社区的方法(续1) 去掉网页中有效入度大于9的链接 得到71MB的链接文件数据 去掉链接中重复的部分 数据文件变成14.5MB大小 将链接数据中的根URL和超链接URL编码成整数 生成Ipotential列表和Ppotential列表以及URL和整数的对应关系表。得到Ppotential集合包含20,160个URL, Ipotential集合包含201,603个URL,Ppotential与Ipotential的元素个数比是1:10 用i表示Web核心社区中Pcore的元素数,用j表示Icore的元素数。在Web核心社区参数i>=3,j=3和i>=3,j=4的情况下,从Ipotential集合中分别随机抽取100个,200个,…,1000,结合全部的Ppotential,利用倒排表方法找出Web核心社区 37

  38. 找出Web核心社区的方法(续2) 38

  39. 相关研究 • PageRank • HITS(Hyperlink-Induced Topic Search ) • 权威型网页 • 目录型网页 所有网页的编号集{1,2,…,n}。令相邻矩阵A 为一个n*n的矩阵,如果存在一个从网页i链接到网页j 的超链,就令矩阵中的第(i,j)项置为1,其它各项置为0。同时,我们将所有网页的权威型权值x和目录型权值y都表示成向量形式x = (x1, x2, … xn),y = (y1, y2, … yn) Web使用日志的挖掘 39

  40. 总结 • 已发表 • Hongfei YAN, Jianyong WANG, Xiaoming LI, and Lin GUO, “Architectural Design and Evaluation of an Efficient Web-crawling System, ” Journal of System and Software, Vol. 60 No. 3, March 2002. pp.185-193. • YAN Hongfei, WANG Jianyong, LI Xiaoming, “A Dynamic Reconfiguration Model for a Distributed Web Crawling System”, Proceedings of ICCNMC’01, Beijing, Oct.16-19,2001, pp.157-164. • 待刊 • 闫宏飞, 李晓明. 中国Web大小、形状和结构.“计算机研究与发展”. No. 6, 2002年6月. 1. 设计和实现了一种可扩展海量Web信息搜集系统体系结构 2. 设计实现了动态可配置方案 3. 提出了一种分析海量数据的方法,并由此得到了2002年初中国Web的大小、形状和结构 4.增量式搜集策略和网页搜集策略 40

  41. 工作展望 • 动态页面支持 • 多语言支持 • 简化系统操作与维护 • 提供更多的副产品 • 网页消重策略的改进,搜集策略的进一步改进 • 增量式存储Web全文网页 • 基于网页内容进行数据挖掘 • 扩大搜集的范围 • 存储非文本信息 • 压缩存储与回放 • 随着Web的迅猛发展,可以考虑物理上分布多个可扩展Web搜集系统,在更广泛意义下进行并行分布式的工作 41

More Related