slide1
Download
Skip this Video
Download Presentation
基于大数据的视频推荐支撑平台

Loading in 2 Seconds...

play fullscreen
1 / 17

基于大数据的视频推荐支撑平台 - PowerPoint PPT Presentation


  • 141 Views
  • Uploaded on

基于大数据的视频推荐支撑平台. 优酷土豆 单明辉. Outlines. 视频推荐系统简介 RecPlatform v1.0 RecPlatform v2.0 架构 设计考量 部署与应用效果 展望总结. 视频推荐系统. 业务抽象 - 接口. 相关推荐 依视频推相关视频 videoId ->{ videoId } 个性化推荐 向人推视频 userId ->{ videoId }. … 3579  1357,5792,2618 245912  2436,1355,53456,357623 ….

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' 基于大数据的视频推荐支撑平台' - cindy


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
outlines
Outlines
  • 视频推荐系统简介
  • RecPlatform v1.0
  • RecPlatform v2.0
    • 架构
    • 设计考量
    • 部署与应用效果
  • 展望总结
slide4
业务抽象-接口
  • 相关推荐
    • 依视频推相关视频
    • videoId->{videoId}
  • 个性化推荐
    • 向人推视频
    • userId->{videoId}

3579  1357,5792,2618

245912  2436,1355,53456,357623

(user’s behavior)

uid_1474289  234526,3456,238489

slide5
业务抽象-数据
  • 数据量-大
    • 活跃视频量:数千万;用户量:1-10亿
    • 视频相关性矩阵:单算法几G~几十G
  • 数据读取
    • 相关推荐:每日几亿;热点明显
    • 个性化推荐:每日几千万;热点不明显
  • 数据更新
    • 每日更新,更新比例大(个性化+相关:2亿条/天)
recplatform 1 0
RecPlatform 1.0
  • RecPortal
    • 接口适配; 结果封装
  • 推荐在线算法服务器
    • 提供单个相关算法在线服务
  • 推荐离线算法服务器
    • 统计,模型计算
recplatform 1 01
RecPlatform 1.0-局限
  • 视频相关性矩阵越来越大
    • 算法数增加
    • 稀疏性降低
    • 单个推荐结果附加属性增多
  • 关注用户长期兴趣
    • 用户级存储
  • 后台计算量增加
    • 模型更复杂,日志更多
  • 支持更新粒度为日
main changes in recplatform 2 0
Main Changes in RecPlatform 2.0
  • 离线计算:hadoop
  • 线上数据:hbase+Memcache
  • 增加流控模块
    • 流量可动态、连续切分;方便小流量实验
  • 增加准实时、实时模块
recplatform 2 01
RecPlatform 2.0 设计考量
  • Hbase
    • 元素/列/列簇/行/表
    • 建表参数 (Version、TTL、In_Memory)
    • Id倒序
    • 定期compact
    • 开启压缩(snappy)
recplatform 2 02
RecPlatform 2.0 设计考量
  • Memcache
    • 用户级数据不cache(热点不明显)
    • 灵活配置Memcache、local cache(ehcache等)
    • 视需要自定义序列化
recplatform 2 03
RecPlatform 2.0 设计考量
  • Hadoop
    • 标准化数据格式,复用中间数据
    • 线上/线下业务分优先级
    • 控制入库速度
slide13
系统服务器
  • RecPortal服务器*15
  • Memcache*6
  • Hbase集群(主流量库11台,小流量库6台)
  • Hadoop集群:300 Nodes
slide14
系统性能指标
  • 相关推荐请求
    • 4亿次/天,平均响应时间3.5ms
  • 个性化推荐请求
    • 3千万/天,平均响应时间30ms
  • Hbase
    • 入库2亿条/天
    • 500G
    • 20kQPS,2-10ms
slide15
应用效果
  • 推荐总量:60-80M播放/天
  • UGC占比:1/3
  • 相关CTR:40%
slide16
未来方向
  • 实时推荐平台
    • 集中计算、入库->实时计算
    • 动态自适应调整内容曝光
  • 全推荐平台
    • 泛在个性化:用户行为更密集,上下文更丰富
slide17
Q&A
  • 山猪们@weibo.com
ad