slide1 n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
豆瓣在推荐领域的 实践与思考 PowerPoint Presentation
Download Presentation
豆瓣在推荐领域的 实践与思考

Loading in 2 Seconds...

play fullscreen
1 / 32

豆瓣在推荐领域的 实践与思考 - PowerPoint PPT Presentation


  • 153 Views
  • Uploaded on

豆瓣在推荐领域的 实践与思考. 胖子 @ 豆瓣 2009.12.19. 豆瓣的推荐引擎 -- 豆瓣猜. 豆瓣猜的产品形态. 喜欢 XX 的也喜欢 豆瓣猜你会喜欢 今日推荐 围绕推荐设计的产品. 什么样的产品适合推荐?. 具有媒体性的产品 (Media Product) 口味 (taste) 很重要 单位成本不重要 有瀑布效应 (information cascade) 多样性. 媒体 类 产品的数据特征. 文章. 人. 图书. 条目数. 小组. 单曲. 唱片. 电影. 广告. 用户数. 图书. 文章. 广告. 稀疏性.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about '豆瓣在推荐领域的 实践与思考' - megan-douglas


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide4
豆瓣猜的产品形态
  • 喜欢XX的也喜欢
  • 豆瓣猜你会喜欢
  • 今日推荐
  • 围绕推荐设计的产品
slide5
什么样的产品适合推荐?
  • 具有媒体性的产品(MediaProduct)
    • 口味(taste)很重要
    • 单位成本不重要
    • 有瀑布效应 (information cascade)
    • 多样性
slide7

文章

图书

条目数

小组

单曲

唱片

电影

广告

用户数

slide8

图书

文章

广告

稀疏性

小组

唱片

电影

单曲

时效性

slide9

文章

图书

多样性

小组

单曲

唱片

电影

广告

时效性

slide10

文章

图书

多样性

小组

唱片

单曲

电影

广告

反馈

slide11
什么样的产品适合推荐?
  • 条目增长相对稳定
  • 能够获得快速反馈
  • 稀疏性、多样性和时效性的平衡
slide12
豆瓣的成长

通过算法分析应对高成长性

slide13
推荐系统的可扩展性
  • User-Item矩阵 ,平均每行的非零元素个数是L个,考虑 的计算复杂性
    • 假设A的非零元均匀分布,求S的非零元素个数
    • S中任一元素非零的概率为,
slide15

考虑A中的元素非均匀分布的情况

let

according to Cauchy-Schwarz Inequality

so

slide16
推荐系统的可扩展性
  • 降低存储空间
  • 近似算法/分块
  • 并行/分布式计算
slide17
推荐系统面临的挑战
  • 产品形态
    • 推荐是一项技术还是一种产品/功能?
    • 推荐能否有独立的产品形态?
slide18

兴趣过多

推荐质量

冷启动

用户收藏

slide19
评价指标
  • Hit-rate / RMSE
  • 点击率
  • 如何形成闭环?
slide20
黑盒推荐的问题
  • 倾向于给出平庸的推荐
  • 放大噪声
  • 有信息,无结构
  • 缺乏对用户的持续关注
prediction
Prediction
  • 明确的优化指标
  • 静态模型/系统
  • 由数据形成信息
forecasting
Forecasting
  • 闭环的系统
  • 动态模型
  • 由信息形成知识
recommendation
Recommendation
  • 以用户为中心,建立用户行为模型
  • 有记忆的,进化的系统
  • 由知识形成系统结构
slide25
下一代推荐系统
  • 技术准备
    • 云计算
    • Open ID
    • Semantic Web
slide26

Anti-Spammer

推荐

信息过滤

广告

  • 个性化技术

机器学习

用户模型

聚类

协同过滤

矩阵分解

分类器

slide28
个性化推荐与非个性化推荐
  • 人人都需要过滤器?

slide29
如何发现信息
  • 排序 (Ranking)
  • 关联 (Correlation)
  • 聚类/分类 (Clustering/Classification)
  • 过滤 (Filtering)
slide30
一些有用的方法

EM

Correlation

Eigen Vector

Bayes

Boosting

Meta-Heuristics

thanks

Thanks

Q & A