210 likes | 458 Views
用户点击行为建模. 何 靖 阿里云相关性团队. 搜索用户行为. 搜索用户行为 客户端 服务器端. 简单建模. 点击 = 相关,不点击 = 不相关 ClickThrough Rate(CTR) 越大 越相关 应用 查询推荐 查询分类: Nav /Info, Close/Open 相关反馈. 点击偏差. Percentage. Reversed Impression. 位置偏差 环境偏差 周围文档质量 点击 展示信息偏差. 点击行为建模. 基本假定 偏好模型 绝对相关性模型 评价和应用. 符号定义. 查询 q
E N D
用户点击行为建模 何 靖 阿里云相关性团队
搜索用户行为 • 搜索用户行为 • 客户端 • 服务器端 ALIBABA CONFIDENTIAL
简单建模 • 点击=相关,不点击=不相关 • ClickThrough Rate(CTR)越大 越相关 • 应用 • 查询推荐 • 查询分类:Nav/Info, Close/Open • 相关反馈 ALIBABA CONFIDENTIAL
点击偏差 Percentage Reversed Impression • 位置偏差 • 环境偏差 • 周围文档质量 点击 • 展示信息偏差 ALIBABA CONFIDENTIAL
点击行为建模 基本假定 偏好模型 绝对相关性模型 评价和应用 ALIBABA CONFIDENTIAL
符号定义 查询q 返回文档(d1, …, dn) 是否查看(e1, …, en) - binary 是否点击(c1, …, cn) - binary 相关性(r1, …, rn) ALIBABA CONFIDENTIAL
基本假定 Position i Position (i+1) 查看假定 级联假定 ALIBABA CONFIDENTIAL
偏好模型 查看假定 级联假定 Position i Position i Position j, j < i rj ri Position i • 基于规则[Joachims et al. SIGIR05, Joachims et al. TOIS07] • 统计意义的规则[Radlinski et al. AAAI05, Agrawal WSDM09] ALIBABA CONFIDENTIAL
偏好模型 • 模型:对用户点击和点击前的行为建模(查看-点击) • 输出:部分偏好关系 • 问题 • 得到相关性信息较弱:不能得到相关性绝对值,不能得到所有偏好关系 • 综合多次查询-点击能力较弱 ALIBABA CONFIDENTIAL
绝对相关性模型(点击模型) ci ei ri • 变量 • 依赖关系 ALIBABA CONFIDENTIAL
绝对相关性模型:对用户行为的建模 ALIBABA CONFIDENTIAL
Cascade Model[Craswell et al. WSDM08] • 何时点击? • Pr(ci = 1 | ei = 1) = ri • 点击后是否继续查看? • 不点击是否继续查看? • 问题: 没有对一个以上的点击建模 ALIBABA CONFIDENTIAL
Dependent Click Model[Guo et al. WSDM09] λi • 何时点击? • Pr(ci = 1 | ei = 1) = ri • 点击后是否继续查看? • 不点击是否继续查看? • 问题: 用户也可能不点击而离开 ALIBABA CONFIDENTIAL
Click Chain Model[Guo et al. WWW09] α1 ri ei+1 • 何时点击? • Pr(ci = 1 | ei = 1) = ri • 不点击后是否继续查看? • 点击是否继续查看? • 问题: 展示信息偏差 ALIBABA CONFIDENTIAL
Dynamic Bayesian Networks [Chapelle et al. WWW09] γ • 何时点击? • Pr(ci = 1 | ei = 1) = ai • 这里决定点击的是展示信息的吸引度(attractiveness) • 不点击后是否继续查看? • 点击是否继续查看? ALIBABA CONFIDENTIAL
模型推导 • 可见变量 • 隐变量 • 推导方法 • EM[Chapelle+09,Dupret+08] • M-step: 计算在当前文档相关性下的最有可能的查看情况 • E-step: 根据当前查看情况,估计文档相关性 • Bayesian Framework(Approximate)[Guo+09b] ALIBABA CONFIDENTIAL
模型验证 • 指标 • likelihood • Perplexity = 2^KL • 应用性验证 • 对Learn to Rank的帮助 • 验证结果 • Likelihood: CCM > UBM > DCM > Cascade [Guo+09b] • Perplexity: CCM > UBM ≈ DCM > Cascade [Guo+09b] • nDCG: DBM > Cascade [Chapelle+09] ALIBABA CONFIDENTIAL
模型应用 • Learn to rank[Joachims02, Cao+06, Dou+08] • 自动获得训练集 • 搜索引擎评测 • 利用偏好模型,可以比较两个搜索引擎的优劣[Joachims02, Radlinski+08, He+09] • 利用绝对相关性模型 • 得到了(r1, r2, …, rn) • 用现有评测指标DCG/RBP等对搜索引擎进行评测 ALIBABA CONFIDENTIAL
我的已有工作 • 提出一种基于偏好模型的搜索引擎质量比较方法 • 结果合并-收集点击-质量比较 • 提出一种利用绝对相关性模型的高效相关性收集方法 • 依靠比较少次数的查询,就可以比较准确地获得结果质量 • 优先收集:排序靠前、区分性大、信息不充分的文档信息 • 方法:最小化信息熵 • 提出一种结合更多搜索引擎特征的评价指标 • 文档相关性不能绝对标识搜索引擎质量 • 用用户满足信息需求的有效时间比来衡量搜索引擎的好坏 • Case Study:加入展示信息质量 ALIBABA CONFIDENTIAL
计划 • 在统一的数据上验证各种假定 • 何时点击? 文档相关度 or 展示信息 • 点击后是否终止? 肯定终止 or 当前文档相关性决定 or 位置信息决定 • 略过后是否终止? 肯定继续 or 唯一概率终止 or 位置信息决定 • 结合用户所有已点击信息预测用户的继续查看行为 • 用户继续查看/终止查询不是仅由前一个点击文档决定的[Dupret+10] • 考虑已经点击的文档综合能提供的信息和查看过的文档的关系 • 足够多的相关文档已经满足 离开 • 看过足够多的文档但相关信息不多失去耐心离开 • 结合点击时间因素来预测文档相关性 • 点击一个不相关的文档可能导致快速返回,修改查询或点击新的文档 ALIBABA CONFIDENTIAL