170 likes | 344 Views
基于大数据的视频推荐支撑平台. 优酷土豆 单明辉. Outlines. 视频推荐系统简介 RecPlatform v1.0 RecPlatform v2.0 架构 设计考量 部署与应用效果 展望总结. 视频推荐系统. 业务抽象 - 接口. 相关推荐 依视频推相关视频 videoId ->{ videoId } 个性化推荐 向人推视频 userId ->{ videoId }. … 3579 1357,5792,2618 245912 2436,1355,53456,357623 ….
E N D
基于大数据的视频推荐支撑平台 优酷土豆 单明辉
Outlines • 视频推荐系统简介 • RecPlatform v1.0 • RecPlatform v2.0 • 架构 • 设计考量 • 部署与应用效果 • 展望总结
业务抽象-接口 • 相关推荐 • 依视频推相关视频 • videoId->{videoId} • 个性化推荐 • 向人推视频 • userId->{videoId} … 3579 1357,5792,2618 245912 2436,1355,53456,357623 … (user’s behavior) uid_1474289 234526,3456,238489
业务抽象-数据 • 数据量-大 • 活跃视频量:数千万;用户量:1-10亿 • 视频相关性矩阵:单算法几G~几十G • 数据读取 • 相关推荐:每日几亿;热点明显 • 个性化推荐:每日几千万;热点不明显 • 数据更新 • 每日更新,更新比例大(个性化+相关:2亿条/天)
RecPlatform 1.0 • RecPortal • 接口适配; 结果封装 • 推荐在线算法服务器 • 提供单个相关算法在线服务 • 推荐离线算法服务器 • 统计,模型计算
RecPlatform 1.0-局限 • 视频相关性矩阵越来越大 • 算法数增加 • 稀疏性降低 • 单个推荐结果附加属性增多 • 关注用户长期兴趣 • 用户级存储 • 后台计算量增加 • 模型更复杂,日志更多 • 支持更新粒度为日
Main Changes in RecPlatform 2.0 • 离线计算:hadoop • 线上数据:hbase+Memcache • 增加流控模块 • 流量可动态、连续切分;方便小流量实验 • 增加准实时、实时模块
RecPlatform 2.0 设计考量 • Hbase • 元素/列/列簇/行/表 • 建表参数 (Version、TTL、In_Memory) • Id倒序 • 定期compact • 开启压缩(snappy)
RecPlatform 2.0 设计考量 • Memcache • 用户级数据不cache(热点不明显) • 灵活配置Memcache、local cache(ehcache等) • 视需要自定义序列化
RecPlatform 2.0 设计考量 • Hadoop • 标准化数据格式,复用中间数据 • 线上/线下业务分优先级 • 控制入库速度
系统服务器 • RecPortal服务器*15 • Memcache*6 • Hbase集群(主流量库11台,小流量库6台) • Hadoop集群:300 Nodes
系统性能指标 • 相关推荐请求 • 4亿次/天,平均响应时间3.5ms • 个性化推荐请求 • 3千万/天,平均响应时间30ms • Hbase • 入库2亿条/天 • 500G • 20kQPS,2-10ms
应用效果 • 推荐总量:60-80M播放/天 • UGC占比:1/3 • 相关CTR:40%
未来方向 • 实时推荐平台 • 集中计算、入库->实时计算 • 动态自适应调整内容曝光 • 全推荐平台 • 泛在个性化:用户行为更密集,上下文更丰富
Q&A • 山猪们@weibo.com