180 likes | 485 Views
Fast Top-K Path-based Relevance Query on Massive Graphs. 主讲: 王春磊 2014 年 01 月 20 日. 东北大学计算机软件研究所 东北大学计算中心. Top-K 问题. 什么是 Top-K 问题 一系列的数值或对象中,最大、最小、最相关的前 k 个值或对象 Top-K 的实际应用 个性化的产品推荐系统 个性化:考虑用户当前行为的同时也考虑用户以前的一些行为(偏好) 个性化的网页 排名 , 在这些应用中使用的算法存在 Top-K 问题, 如 Personalized PageRank
E N D
Fast Top-K Path-based Relevance Query on Massive Graphs 主讲:王春磊 2014年01月20日 东北大学计算机软件研究所 东北大学计算中心
Top-K问题 • 什么是Top-K问题 • 一系列的数值或对象中,最大、最小、最相关的前k个值或对象 • Top-K的实际应用 • 个性化的产品推荐系统 • 个性化:考虑用户当前行为的同时也考虑用户以前的一些行为(偏好) • 个性化的网页排名, • 在这些应用中使用的算法存在Top-K问题,如Personalized PageRank • 有时只关心把哪些推荐给用户,而并不关心推荐给用户的产品之间的 关系 Page 2
PPR算法 Page 3
相关算法 • PPR算法 • Adsorption • Katz Metric Page 4
同一形式 Page 5
如何找到Top-K • 主要思想 • 在算法的计算过程中采用一定的方法找出Top-K,而不必等到算法收敛,进而提高寻找Top-K的性能 • Top-K算法 • 上界下界逼近算法 • 主要挑战 • 如何找到较好的上界 • 如何找到较精确的上界 Page 6
精确上界 Page 7
Naïve upper pounds Page 8
L-hop-precise-upper bounds Page 10
Global-score upper bounds Page 12
Bounds分布式环境下的实现 • 计算bounds的三种值 • 本地值:不需通信开销 • 远程值:需大量的通信开销 • 全局统计值:需少量的通信开销 • 计算bounds的原则 • 尽量的使用多使用本地的值,远程值尽量用全局统计值代替,尽量不使用远程值 Page 14
Bounds分布式环境下的实现 • Naïve upper bounds • Global-score-based upper bounds • L-hop-precise upper bounds Page 15
L-hop-precise upper bounds简化 Page 16
谢谢! 2014.01.20 东北大学计算机软件研究所 东北大学计算机中心