1 / 21

用户点击行为建模

用户点击行为建模. 何 靖 阿里云相关性团队. 搜索用户行为. 搜索用户行为 客户端 服务器端. 简单建模. 点击 = 相关,不点击 = 不相关 ClickThrough Rate(CTR) 越大  越相关 应用 查询推荐 查询分类: Nav /Info, Close/Open 相关反馈. 点击偏差. Percentage. Reversed Impression. 位置偏差 环境偏差 周围文档质量  点击 展示信息偏差. 点击行为建模. 基本假定 偏好模型 绝对相关性模型 评价和应用. 符号定义. 查询 q

jalila
Download Presentation

用户点击行为建模

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 用户点击行为建模 何 靖 阿里云相关性团队

  2. 搜索用户行为 • 搜索用户行为 • 客户端 • 服务器端 ALIBABA CONFIDENTIAL

  3. 简单建模 • 点击=相关,不点击=不相关 • ClickThrough Rate(CTR)越大 越相关 • 应用 • 查询推荐 • 查询分类:Nav/Info, Close/Open • 相关反馈 ALIBABA CONFIDENTIAL

  4. 点击偏差 Percentage Reversed Impression • 位置偏差 • 环境偏差 • 周围文档质量 点击 • 展示信息偏差 ALIBABA CONFIDENTIAL

  5. 点击行为建模 基本假定 偏好模型 绝对相关性模型 评价和应用 ALIBABA CONFIDENTIAL

  6. 符号定义 查询q 返回文档(d1, …, dn) 是否查看(e1, …, en) - binary 是否点击(c1, …, cn) - binary 相关性(r1, …, rn) ALIBABA CONFIDENTIAL

  7. 基本假定 Position i Position (i+1) 查看假定 级联假定 ALIBABA CONFIDENTIAL

  8. 偏好模型 查看假定 级联假定 Position i Position i Position j, j < i rj ri Position i • 基于规则[Joachims et al. SIGIR05, Joachims et al. TOIS07] • 统计意义的规则[Radlinski et al. AAAI05, Agrawal WSDM09] ALIBABA CONFIDENTIAL

  9. 偏好模型 • 模型:对用户点击和点击前的行为建模(查看-点击) • 输出:部分偏好关系 • 问题 • 得到相关性信息较弱:不能得到相关性绝对值,不能得到所有偏好关系 • 综合多次查询-点击能力较弱 ALIBABA CONFIDENTIAL

  10. 绝对相关性模型(点击模型) ci ei ri • 变量 • 依赖关系 ALIBABA CONFIDENTIAL

  11. 绝对相关性模型:对用户行为的建模 ALIBABA CONFIDENTIAL

  12. Cascade Model[Craswell et al. WSDM08] • 何时点击? • Pr(ci = 1 | ei = 1) = ri • 点击后是否继续查看? • 不点击是否继续查看? • 问题: 没有对一个以上的点击建模 ALIBABA CONFIDENTIAL

  13. Dependent Click Model[Guo et al. WSDM09] λi • 何时点击? • Pr(ci = 1 | ei = 1) = ri • 点击后是否继续查看? • 不点击是否继续查看? • 问题: 用户也可能不点击而离开 ALIBABA CONFIDENTIAL

  14. Click Chain Model[Guo et al. WWW09] α1 ri ei+1 • 何时点击? • Pr(ci = 1 | ei = 1) = ri • 不点击后是否继续查看? • 点击是否继续查看? • 问题: 展示信息偏差 ALIBABA CONFIDENTIAL

  15. Dynamic Bayesian Networks [Chapelle et al. WWW09] γ • 何时点击? • Pr(ci = 1 | ei = 1) = ai • 这里决定点击的是展示信息的吸引度(attractiveness) • 不点击后是否继续查看? • 点击是否继续查看? ALIBABA CONFIDENTIAL

  16. 模型推导 • 可见变量 • 隐变量 • 推导方法 • EM[Chapelle+09,Dupret+08] • M-step: 计算在当前文档相关性下的最有可能的查看情况 • E-step: 根据当前查看情况,估计文档相关性 • Bayesian Framework(Approximate)[Guo+09b] ALIBABA CONFIDENTIAL

  17. 模型验证 • 指标 • likelihood • Perplexity = 2^KL • 应用性验证 • 对Learn to Rank的帮助 • 验证结果 • Likelihood: CCM > UBM > DCM > Cascade [Guo+09b] • Perplexity: CCM > UBM ≈ DCM > Cascade [Guo+09b] • nDCG: DBM > Cascade [Chapelle+09] ALIBABA CONFIDENTIAL

  18. 模型应用 • Learn to rank[Joachims02, Cao+06, Dou+08] • 自动获得训练集 • 搜索引擎评测 • 利用偏好模型,可以比较两个搜索引擎的优劣[Joachims02, Radlinski+08, He+09] • 利用绝对相关性模型 • 得到了(r1, r2, …, rn) • 用现有评测指标DCG/RBP等对搜索引擎进行评测 ALIBABA CONFIDENTIAL

  19. 我的已有工作 • 提出一种基于偏好模型的搜索引擎质量比较方法 • 结果合并-收集点击-质量比较 • 提出一种利用绝对相关性模型的高效相关性收集方法 • 依靠比较少次数的查询,就可以比较准确地获得结果质量 • 优先收集:排序靠前、区分性大、信息不充分的文档信息 • 方法:最小化信息熵 • 提出一种结合更多搜索引擎特征的评价指标 • 文档相关性不能绝对标识搜索引擎质量 • 用用户满足信息需求的有效时间比来衡量搜索引擎的好坏 • Case Study:加入展示信息质量 ALIBABA CONFIDENTIAL

  20. 计划 • 在统一的数据上验证各种假定 • 何时点击? 文档相关度 or 展示信息 • 点击后是否终止? 肯定终止 or 当前文档相关性决定 or 位置信息决定 • 略过后是否终止? 肯定继续 or 唯一概率终止 or 位置信息决定 • 结合用户所有已点击信息预测用户的继续查看行为 • 用户继续查看/终止查询不是仅由前一个点击文档决定的[Dupret+10] • 考虑已经点击的文档综合能提供的信息和查看过的文档的关系 • 足够多的相关文档已经满足 离开 • 看过足够多的文档但相关信息不多失去耐心离开 • 结合点击时间因素来预测文档相关性 • 点击一个不相关的文档可能导致快速返回,修改查询或点击新的文档 ALIBABA CONFIDENTIAL

  21. ALIBABA CONFIDENTIAL

More Related