pagerank hits l.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
PageRank&Hits PowerPoint Presentation
Download Presentation
PageRank&Hits

Loading in 2 Seconds...

play fullscreen
1 / 29

PageRank&Hits - PowerPoint PPT Presentation


  • 282 Views
  • Uploaded on

PageRank&Hits. Jing Ai Zhongyuan Wang. 2007-04-18. Search Results. Outline. 背景介绍 PageRank Hits PageRank vs Hits PageRank&Hits 在研究中的应用. Outline. 背景介绍 PageRank Hits PageRank vs Hits PageRank&Hits 在研究中的应用. 背景介绍. Web 上 超链接结构 是个非常丰富和重要的资源,如果能够充分利用的话,可以极大的提高检索结果的质量。

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'PageRank&Hits' - JasminFlorian


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
pagerank hits

PageRank&Hits

Jing Ai

Zhongyuan Wang

2007-04-18

outline
Outline
  • 背景介绍
  • PageRank
  • Hits
  • PageRank vs Hits
  • PageRank&Hits在研究中的应用
outline5
Outline
  • 背景介绍
  • PageRank
  • Hits
  • PageRank vs Hits
  • PageRank&Hits在研究中的应用
slide6
背景介绍
  • Web上超链接结构是个非常丰富和重要的资源,如果能够充分利用的话,可以极大的提高检索结果的质量。
  • Sergey Brin和Lawrence Page在1998年提出了PageRank算法,同年J. Kleinberg提出了HITS算法
  • Lawrence Page, Sergey Brin, Rajeev Motwani, Terry Winograd, 'The PageRank Citation Ranking: Bringing Order to the Web', 1998, http://www-db.stanford.edu/~backrub/pageranksub.ps
  • 为了更高效地计算 PageRank,以下是改良以后的一篇论文。Taher H. Haveliwala, ‘Efficient Computation of PageRank’, Stanford Technical Report, 1999, http://dbpubs.stanford.edu:8090/pub/1999-31
  • PageRank(TM) 是美国 Google 公司的登记注册商标。
google
Google查询过程
  • Google 查询的全过程通常不超过半秒时间,但在这短短的时间内需要完成多个步骤,然后才能将搜索结果交付给搜索信息的用户。

PageRank?

HITS?

outline8
Outline
  • 背景介绍
  • PageRank
  • Hits
  • PageRank vs Hits
  • PageRank&Hits在研究中的应用
pagerank

这个算法不以站点排序,页面网页级别由一个个独立的页面决定

PageRank算法
  • PageRank算法1其中:PR(A):页面A的网页级别, PR(Ti):页面Ti的网页级别,页面Ti链向页面A, C(Ti):页面Ti链出的链接数量,d:阻尼系数,取值在0-1之间
  • PageRank算法2

其中N是互联网上所有网页的数量

PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

PR(A) = (1-d) / N + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

pagerank10
PageRank 的核心思想
  • PageRank 是基于「从许多优质的网页链接过来的网页,必定还是优质网页」的回归关系,来判定所有网页的重要性。

因此,如果从类似于 Yahoo! 那样的 PageRank 非常高的站点被链接的话,仅此网页的 PageRank 也会一下子上升;相反地,无论有多少反向链接数,如果全都是从那些没有多大意义的页面链接过来的话,PageRank 也不会轻易上升。

  • 反向链接数(单纯的意义上的受欢迎度指标)
  • 反向链接是否来自推荐度高的页面 (有根据的受欢迎指标)
  • 反向链接源页面的链接数 (被选中的几率指标)
computing pagerank
Computing PageRank

- initialize vector over web pages

loop:

- new ranks sum of normalized backlink ranks

- compute normalizing factor

- add escape term

- control parameter

while - stop when converged

slide12
行列阵的形式

aij=1 if (从页面 i 向页面 j 「 有 」 链接的情况)

aij=0 if (从页面 i 向页面 j 「没有」链接的情况)

  • 当黑点呈横向排列时,表示这个页面有很多正向链接(即向外导出的链接);
  • 反之,当黑店呈纵向排列时,表示这个页面有很多反向链接。

PageRank 的行列阵是把

这个邻接行列倒置后 (行和列互换),

为了将各列(column)矢量的

总和变成 1 (全概率),

pagerank13
PageRank实例

链接源I D 链接目标 ID

1 2,3 ,4,5, 7

2 1

3 1,2

4 2,3,5

5 1,3,4,6

6 1,5

7 5

pagerank14
PageRank实例

A = [

0, 1, 1, 1, 1, 0, 1;

1, 0, 0, 0, 0, 0, 0;

1, 1, 0, 0, 0, 0, 0;

0, 1, 1, 0, 1, 0, 0;

1, 0, 1, 1, 0, 1, 0;

1, 0, 0, 0, 1, 0, 0;

0, 0, 0, 0, 1, 0, 0;

]

1, 2, 3, 4, 5, 6, 7

1, 2, 3, 4, 5, 6, 7

pagerank15
PageRank实例
  • M: 将 A 倒置后将各个数值除以各自的非零要素

M = [

0, 1, 1/2, 0, 1/4, 1/2, 0;

1/5, 0, 1/2, 1/3, 0, 0, 0;

1/5, 0, 0, 1/3, 1/4, 0, 0;

1/5, 0, 0, 0, 1/4, 0, 0;

1/5, 0, 0, 1/3, 0, 1/2, 1;

0, 0, 0, 0, 1/4, 0, 0;

1/5, 0, 0, 0, 0, 0, 0;

]

pagerank16
PageRank实例
  • 流入量

=(ID=2发出的Rank)

+(ID=3发出的Rank)

+(ID=5发出的Rank)

+(ID=6发出的Rank)

= 0.166+0.141/2+0.179/4+0.045/2

= 0.30375

outline17
Outline
  • 背景介绍
  • PageRank
  • Hits
  • PageRank vs Hits
  • PageRank&Hits在研究中的应用
slide18
为什么要提出HITS算法?
  • PageRank算法中对于向外链接的权值贡献是平均的,也就是不考虑不同链接的重要性。而WEB的链接具有以下特征:

1.有些链接具有注释性,也有些链接是起导航或广告作用。有注释性的链接才用于权威判断。2.基于商业或竞争因素考虑,很少有WEB网页指向其竞争领域的权威网页。3.权威网页很少具有显式的描述,比如Google主页不会明确给出WEB搜索引擎之类的描述信息。

  • 可见平均的分布权值不符合链接的实际情况
slide19
HITS算法相关知识
  • 权威网页:一个网页被多次引用,则它可能是很重要的;一个网页虽然没有被多次引用,但是被重要的网页引用,则它也可能是很重要的;一个网页的重要性被平均的传递到它所引用的网页。这种网页称为权威(Authoritive)网页。
  • Hub网页:提供指向权威网页的链接集合的WEB网页,它本身可能并不重要,或者说没有几个网页指向它,但是它提供了指向就某个主题而言最为重要的站点的链接集合,比如一个课程主页上的推荐参考文献列表。
  • 在HITS算法中,对每个网页都要计算两个值:权威值(authority)与中心值(hub)
slide20
HITS算法介绍
  • HITS(Hyperlink-Induced Topic Search)是一种链接分析算法
  • 算法如下 :
  • 将查询q提交给传统的基于关键字匹配的搜索引擎.搜索引擎返回很多网页,从中取前n个网页作为根集合S(root set).
  • 把根集合中的页面所指向的页面都包括进来,再把指向根集合中的页面的页面也包括进来,这样就扩充成了基础集合(base set)T.
slide21
HITS算法介绍
  • 对V1中的任一个顶点v,用h(v)表示网页v的Hub值,对V2中的顶点u,用a(u)表示网页的Authority值,开始时h(v)=a(u)=1

顶点集V1

Hub网页

顶点集V2

权威网页

边集E

超链接

slide22
HITS算法介绍
  • 在V中的每个页面p都有一对非负的权重值〈ap,hp〉,其中ap表示权威值,hp表示中心值
  • 设指向页面p的页面为q,ap的值则更新为所有hq的和:
  • 如果把页面p所指向的页面称为q,则hp的值更新为所有aq之和:
  • 这两步将被重复多次,最后按照得到的权威值和中心值对页面进行排序.
slide23
HITS算法的评价
  • 若一个网页由很多好的Hub指向,则其权威值会相应增加(即权威值增加为所有指向它的网页的现有Hub值之和)
  • 若一个网页指向许多好的权威页,则Hub值也会相应增加(即Hub值增加为该网页链接的所有网页的权威值之和)
  • HITS算法输出一组具有较大Hub值的网页和具有较大权威值的网页。
outline24
Outline
  • 背景介绍
  • PageRank
  • Hits
  • PageRank vs Hits
  • PageRank&Hits在研究中的应用
pagerank hit
PageRank与Hit比较
  • Query相关与否
  • 权重传播模型
  • 处理的数据量以及时间
outline26
Outline
  • 背景介绍
  • PageRank
  • Hits
  • PageRank vs Hits
  • PageRank&Hits在研究中的应用
find an expert
Find An Expert

Prof. Weiyi Meng

Yanyan Ling

Co-author

Prof. Shan Wang

Wei Liu

Jing Ai

Co-author

Work together

visited

Co-author

Person Profile

Affiliation: Renmin Univ

Homepage:…

Publication

Title:…

conference:…

coauthors: wei liu, weiyi meng

Supervised by

Supervised by

Co-author

Supervised by

Local information

Prof. Xiaofeng Meng