基于大数据的视频推荐支撑平台
This presentation is the property of its rightful owner.
Sponsored Links
1 / 17

基于大数据的视频推荐支撑平台 PowerPoint PPT Presentation


  • 97 Views
  • Uploaded on
  • Presentation posted in: General

基于大数据的视频推荐支撑平台. 优酷土豆 单明辉. Outlines. 视频推荐系统简介 RecPlatform v1.0 RecPlatform v2.0 架构 设计考量 部署与应用效果 展望总结. 视频推荐系统. 业务抽象 - 接口. 相关推荐 依视频推相关视频 videoId ->{ videoId } 个性化推荐 向人推视频 userId ->{ videoId }. … 3579  1357,5792,2618 245912  2436,1355,53456,357623 ….

Download Presentation

基于大数据的视频推荐支撑平台

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


3146066

基于大数据的视频推荐支撑平台

优酷土豆 单明辉


Outlines

Outlines

  • 视频推荐系统简介

  • RecPlatform v1.0

  • RecPlatform v2.0

    • 架构

    • 设计考量

    • 部署与应用效果

  • 展望总结


3146066

视频推荐系统


3146066

业务抽象-接口

  • 相关推荐

    • 依视频推相关视频

    • videoId->{videoId}

  • 个性化推荐

    • 向人推视频

    • userId->{videoId}

3579  1357,5792,2618

245912  2436,1355,53456,357623

(user’s behavior)

uid_1474289  234526,3456,238489


3146066

业务抽象-数据

  • 数据量-大

    • 活跃视频量:数千万;用户量:1-10亿

    • 视频相关性矩阵:单算法几G~几十G

  • 数据读取

    • 相关推荐:每日几亿;热点明显

    • 个性化推荐:每日几千万;热点不明显

  • 数据更新

    • 每日更新,更新比例大(个性化+相关:2亿条/天)


Recplatform 1 0

RecPlatform 1.0

  • RecPortal

    • 接口适配; 结果封装

  • 推荐在线算法服务器

    • 提供单个相关算法在线服务

  • 推荐离线算法服务器

    • 统计,模型计算


Recplatform 1 01

RecPlatform 1.0-局限

  • 视频相关性矩阵越来越大

    • 算法数增加

    • 稀疏性降低

    • 单个推荐结果附加属性增多

  • 关注用户长期兴趣

    • 用户级存储

  • 后台计算量增加

    • 模型更复杂,日志更多

  • 支持更新粒度为日


Recplatform 2 0

RecPlatform 2.0 系统结构


Main changes in recplatform 2 0

Main Changes in RecPlatform 2.0

  • 离线计算:hadoop

  • 线上数据:hbase+Memcache

  • 增加流控模块

    • 流量可动态、连续切分;方便小流量实验

  • 增加准实时、实时模块


Recplatform 2 01

RecPlatform 2.0 设计考量

  • Hbase

    • 元素/列/列簇/行/表

    • 建表参数 (Version、TTL、In_Memory)

    • Id倒序

    • 定期compact

    • 开启压缩(snappy)


Recplatform 2 02

RecPlatform 2.0 设计考量

  • Memcache

    • 用户级数据不cache(热点不明显)

    • 灵活配置Memcache、local cache(ehcache等)

    • 视需要自定义序列化


Recplatform 2 03

RecPlatform 2.0 设计考量

  • Hadoop

    • 标准化数据格式,复用中间数据

    • 线上/线下业务分优先级

    • 控制入库速度


3146066

系统服务器

  • RecPortal服务器*15

  • Memcache*6

  • Hbase集群(主流量库11台,小流量库6台)

  • Hadoop集群:300 Nodes


3146066

系统性能指标

  • 相关推荐请求

    • 4亿次/天,平均响应时间3.5ms

  • 个性化推荐请求

    • 3千万/天,平均响应时间30ms

  • Hbase

    • 入库2亿条/天

    • 500G

    • 20kQPS,2-10ms


3146066

应用效果

  • 推荐总量:60-80M播放/天

  • UGC占比:1/3

  • 相关CTR:40%


3146066

未来方向

  • 实时推荐平台

    • 集中计算、入库->实时计算

    • 动态自适应调整内容曝光

  • 全推荐平台

    • 泛在个性化:用户行为更密集,上下文更丰富


3146066

Q&A

  • [email protected]


  • Login