320 likes | 500 Views
豆瓣在推荐领域的 实践与思考. 胖子 @ 豆瓣 2009.12.19. 豆瓣的推荐引擎 -- 豆瓣猜. 豆瓣猜的产品形态. 喜欢 XX 的也喜欢 豆瓣猜你会喜欢 今日推荐 围绕推荐设计的产品. 什么样的产品适合推荐?. 具有媒体性的产品 (Media Product) 口味 (taste) 很重要 单位成本不重要 有瀑布效应 (information cascade) 多样性. 媒体 类 产品的数据特征. 文章. 人. 图书. 条目数. 小组. 单曲. 唱片. 电影. 广告. 用户数. 图书. 文章. 广告. 稀疏性.
E N D
豆瓣在推荐领域的实践与思考 胖子@豆瓣 2009.12.19
豆瓣猜的产品形态 • 喜欢XX的也喜欢 • 豆瓣猜你会喜欢 • 今日推荐 • 围绕推荐设计的产品
什么样的产品适合推荐? • 具有媒体性的产品(MediaProduct) • 口味(taste)很重要 • 单位成本不重要 • 有瀑布效应 (information cascade) • 多样性
文章 人 图书 条目数 小组 单曲 唱片 电影 广告 用户数
图书 文章 广告 稀疏性 人 小组 唱片 电影 单曲 时效性
人 文章 图书 多样性 小组 单曲 唱片 电影 广告 时效性
人 文章 图书 多样性 小组 唱片 单曲 电影 广告 反馈
什么样的产品适合推荐? • 条目增长相对稳定 • 能够获得快速反馈 • 稀疏性、多样性和时效性的平衡
豆瓣的成长 通过算法分析应对高成长性
推荐系统的可扩展性 • User-Item矩阵 ,平均每行的非零元素个数是L个,考虑 的计算复杂性 • 假设A的非零元均匀分布,求S的非零元素个数 • S中任一元素非零的概率为,
考虑A中的元素非均匀分布的情况 let according to Cauchy-Schwarz Inequality so
推荐系统的可扩展性 • 降低存储空间 • 近似算法/分块 • 并行/分布式计算
推荐系统面临的挑战 • 产品形态 • 推荐是一项技术还是一种产品/功能? • 推荐能否有独立的产品形态?
兴趣过多 推荐质量 冷启动 用户收藏
评价指标 • Hit-rate / RMSE • 点击率 • 如何形成闭环?
黑盒推荐的问题 • 倾向于给出平庸的推荐 • 放大噪声 • 有信息,无结构 • 缺乏对用户的持续关注
Prediction • 明确的优化指标 • 静态模型/系统 • 由数据形成信息
Forecasting • 闭环的系统 • 动态模型 • 由信息形成知识
Recommendation • 以用户为中心,建立用户行为模型 • 有记忆的,进化的系统 • 由知识形成系统结构
下一代推荐系统 • 技术准备 • 云计算 • Open ID • Semantic Web • …
Anti-Spammer 推荐 信息过滤 广告 • 个性化技术 机器学习 用户模型 … 聚类 协同过滤 矩阵分解 分类器
个性化推荐与非个性化推荐 • 人人都需要过滤器? ?
如何发现信息 • 排序 (Ranking) • 关联 (Correlation) • 聚类/分类 (Clustering/Classification) • 过滤 (Filtering)
一些有用的方法 EM Correlation Eigen Vector Bayes Boosting Meta-Heuristics
Algorithms should facilitate rather than replace social processes.
Thanks Q & A