1 / 42

汪 秉 宏

双结构万维网的理论依据. 汪 秉 宏. 中国科学技术大学 近代物理系 <bhwang@ustc.edu.cn>. Internet. World Wide Web. HTTP ( Hypertext Transfer Protocol ). Internet. ( Computed in 1995-1999, at both domain level and router level) Average distance L = 4.0 ER Random Graph model: L = 10 (too large)

Download Presentation

汪 秉 宏

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 双结构万维网的理论依据 汪 秉 宏 中国科学技术大学 近代物理系 <bhwang@ustc.edu.cn>

  2. Internet

  3. World Wide Web

  4. HTTP (Hypertext Transfer Protocol )

  5. Internet (Computed in 1995-1999, at both domain level and router level) • Average distance • L = 4.0 • ER Random Graph model: L = 10 (too large) • So, Internet is a small-world network • Degree distribution • Obey power law: P(k) ~ k -γ,γ = 2.2 ~ 2.48 • So, Internet is a scale-free network • Clustering coefficient • C = 0.3 • ER Random Graph model: C = 0.001 (too small) Small-world network is a better model for the Internet

  6. World Wide Web Average distance • Computed Average distance L = 14 • Diameter L = 19  at most 19 clicks to get anywhere • Degree distribution • Outgoing edges: P1(k) ~ k- γ1 γ1 = 2.38~2.72 • Incoming edges: P2(k) ~ k -γ2 γ2 = 2.1

  7. World Wide Web

  8. 中国互联网是什么结构? • 中国互联网信息资源连接数,服从什么样的幂次分布? • 中国互联网共有66万个网站,被访问量差异极大,社会地位(Google称为rank)差异极大。 • 中国互联网中心CNNIC发表的实测数据表明:中国互联网是无尺度网络。

  9. 中国互联网的分层次中心结构 • 前100个,前500个,前1000个,或前2000个是中心,是主流 • 互联网的流量,相当大的比例,源于这些网站 • 中国工程物理研究院马卫东等学者,根据中国互联网中心CNNIC发表的实测数据,给出了我国万维网网站连接数的数学模型。

  10. 他们根据Scale-free定律 • 再利用CNNIC提供的下列数据, 经计算最后得出

  11. 由此得知中国互联网的幂数大约为2.124。 • 依此模型推算,当99.5以上的网站连接数均低于100次时,却有万分之四的网站大于1000次,十万分之三的网站超出100000次。 • 因此,只要整合2至3千个网站作为主流资源,就可以在很大的程度上满足老百姓的日常需求。

  12. 如何整合资源? • 最近,中国工程院组织“信息基础设施和资源共享”的发展战略研究。 • 李国杰院士指出:“信息取精是关键”。 • 李德毅院士说,当前的迫切目标是让“适当的人在适当的时候享用适当的信息”。 • 无尺度现象告诉我们,要求所有的人享用所有信息,既不可能,也没有必要。

  13. 也就是说,我们可以借助幂次定律作为工具,把茫茫无边的信息资源一分为二,把满足广大人民日常需求的主流资源,甄别出来,整合起来。也就是说,我们可以借助幂次定律作为工具,把茫茫无边的信息资源一分为二,把满足广大人民日常需求的主流资源,甄别出来,整合起来。 • 这就是李幼平院士提出的双结构万维网的基本概念。

  14. 寻找双结构互联网的理论依据

  15. 李幼平院士提议,互联网在保留 TCP/IP的主结构的基础上,增添一种“卫星广播和分布存储”的“播存结构”作为次级结构。通过次级结构广泛复制数千种网站的内容,让每一栋大楼与每一个自然村都拥有主流文化资源,营造“存文化于民间”的全国环境,实现信息共享的历史性跨跃。 • 用“透明计算”模式整合互联网的主、次两级结构,用户只需提出内容需求,网页将自动以最低成本的方式来到用户身边,用户无需感知网页是来自何种网络。创造一种类似于水电服务那样简便的信息共享服务。

  16. 2005年10月9日晚,中国工程物理研究院 李幼平院士的电邮: • 1,请用复杂网络理念简要描述中国现有的万维网(尽量采用科学院中国互联网信息中心CNNIC的最新统计数据)。 • 2,请沿用用CNNIC“前一百”的提法,在现有67万个网站(web site)中,分离出“前100”、“前500”、“前1000”、“前3330”“前xx”……,形成“主流网站”。

  17. 3,假设,有人想出办法 (如播存结构), 有能力把“前xx”主流网站的 访问距离统统变为1, • 试问:中国万维网的的图象会发生什么变化?

  18. 汪秉宏10月9日的回信 • 李幼平院士,感谢您今天下午的电话。按照我目前的理解,您是否提出了这样的网络模型问题: • 假定我们已经有一个互联网的有向网络模型,它的平均距离(按照无向网络模型计算)为19。 • 这一个双向连接网络模型:若按照被访问方向的连接考虑,则其度分布是scale free,但按照出访方向考察,则连接度是泊松分布或者正态分布,这对应于一般的网民寻访网站数目有限,被别人访问的频次更低的实际情况。

  19. 现在我们按照被访问方向的连接度最大原则挑选出前3330个节点,这些节点对应于象新浪网站一类同时可能被点击访问数千数万次的重要网站。现在我们按照被访问方向的连接度最大原则挑选出前3330个节点,这些节点对应于象新浪网站一类同时可能被点击访问数千数万次的重要网站。 • 您所说的让这些重要节点的距离变为1来实现小世界网络,是否可以理解为把这些节点的被访问方向的连边与此网络的所有节点都直接连通? • 您的问题就是:当最大度的前3330个节点与该网络中的所有节点直接相连(按照被访问方向)以后,我们重新来计算网络的平均距离、连接度分布、群聚性质等等,看是否会变化。不知我的理解对不对?

  20. 我们的初步计算结果计算工作主要完成者:刘建国博士生(大连理工大学)王文旭博士生(中国科技大学近代物理系)我们的初步计算结果计算工作主要完成者:刘建国博士生(大连理工大学)王文旭博士生(中国科技大学近代物理系) • 初始网络的构建:网络以BA模型为基础构建。 • 假设每个新加入的节点都有三条边连出(出度为3),代表每一网民由于生理极限最多能够访问有限个网站。

  21. Fig. 1,出度为3的BA网络生成图, 网络规模为6000的网络的入度分布。

  22. N=6000,Kout=3 万维网BA模型计算结果 • 网络平均距离=4.7389 • 网络的相称配合性系数=0.0148 • 网络的群聚系数=0.04

  23. 挑选出连接度(按照进入方向)最大的前 S(=500,1000,2000或3000)个节点(网站)放上卫星。然后将这些放上卫星的连接度最大的节点与地面上的未被连接的 m(=10, 20, 30, 40, 50, 100, 200, 300,…,所有其它)个节点建立连接。

  24. 连接方式:◙全连接 ◙有限择优连接 ◙有限随机连接连接方向:地面网站(存储器) 上星网站

  25. 我们要计算双结构万维网的 • 网络的入度分布 P(k); • 网络的平均直径 D • 网络的平均群聚系数 C • 网络的相称混合性 r 随 S和 m的变化情况

  26. 全连接双结构万维网的入向连接度分布图。s=500,1000,2000,3000全连接双结构万维网的入向连接度分布图。s=500,1000,2000,3000

  27. 全连接双结构万维网(N=6000)的平均距离 D 随上星网站数目 s 的变化

  28. 全连接双结构万维网(N=6000)的群聚系数 C 随上星网站数目 s 的变化

  29. 全连接双结构万维网(N=6000)的相称混合性r 随上星网站数目 s 的变化

  30. 有限择优连接双结构万维网(N=6000)的 r 随 s 和 m的变化发现:当 s ≈m, r>0, 当 s ≠m, r<0

  31. 有限择优连接双结构万维网(N=6000)的D随 m的变化

  32. 有限随机连接双结构万维网的度分布s=100, m=100,500,1000,1500,2000图显示:随着m的增大,连接度大的节点出现的概率明显增大。

  33. 有限随机连接双结构万维网(N=6000)的 r 随 m的变化 发现:当 s 固定, r随m之增加而下降至-1

  34. 有限随机连接双结构万维网(N=6000)的 r 随 m的变化 发现:当 s 固定, r随m之增加而下降至-1

  35. 有限随机连接双结构万维网(N=6000, s=1000,3000 )的群聚系数 C 随 m的变化。C随m之增加而下降

  36. 有限随机连接双结构万维网(N=6000, s=100 )的 D 随 m的变化。发现:D随m之增加而下降

  37. 有限随机连接双结构万维网的 D 随 m 的变化 (N=6000, s=1000, 3000 )

  38. 我们的计算结果显示: • 当采用双结构万维网结构后,网络直径(或平均距离)有明显的下降。 • 这表明双结构万维网的小世界性质增强! • 但是,双结构万维网的群聚系数随上星网站数目S和上星网站与地面网站的连接数m的增加却是下降的。

  39. 双结构万维网的强弱联合特征 • 刻画相称混合性的量随上星网站数目和上星网站与地面网站的连接数的增加明显下降到接近于-1 • 这表明:万维网从单一结构变到双结构,其技术网络的性质加强了。 • 双结构万维网具有强弱联合的倾向,而不是强强联合。 • 强弱联合倾向符合我们的双结构万维网的原始宗旨:广大网民沐浴通过卫星的“直播镜象”带来的“信息阳光”!

  40. Thanksfor your listenning!

More Related