2010 搜索研究视野拾零 -- 从 P@N 到 ETR@N 的一种评测方法

2010搜索研究视野拾零--从P@N到ETR@N的一种评测方法2010搜索研究视野拾零--从P@N到ETR@N的一种评测方法李晓明，何靖北京大学网络与信息系统研究所（第六届全国信息检索学术会议，CCIR 2010） 2010年8月12日

不断拓展的搜索领域前沿 • 数据对象的演化 • Web 1.0, Web 2.0, …; 结构化，非结构化，结构化，… • 用户环境的改变 • 固定，移动（位置，个性化，带宽/能源） • 搜索要求的多样性 • 通用，学术，生活，专业；文档，答案，服务核心问题基本没变！

“Big issues” in IR and search engine • Relevance • Evaluation • Information needs • Performance • Incorporating new data • Scalability • Adaptability • Specific problems

评测的主要概念与方法 • Cranfield方法 • 测试集T：文档集D，信息需求集Q，相关关系DхQ{0,1} • 对单个需求q∈Q的响应，对Q中所有元素响应的综合 • 用户研究（user study） • 实验室环境（少数用户），报告感受，满意度等 • 隐反馈 • 开放用户环境，通过对用户行为的收集与建模，推断文档与需求的相关性，clickthrough

Cranfield方法的几个典型指标 • Dхq • R-P（F），P@N，R-precision，AP，RR（reciprocal rank） • DCG，RBP • ppref，wpref • DxQ • MAP，GMAP • nDCG， • 共同特点（假设）：qd-list

从用户时间的角度来理解系统性能 • 出发点：系统的效果可以通过用户在检索过程中所花时间的有效性来评测 – 时间效率 • 用户在审查系统返回内容的时候是要花时间的，我们于是可以认为看“不相关的内容”浪费了时间，看“相关的内容”则是时间的有效利用 • 在一个搜索会话过程所花的时间中，有效时间就是看相关文档的时间

Effective Time Ratio（ETR，时间效率） of getting relevant information of total search

Precision（精度）:ETR的一个特例 • Assumption: 在每个文档上花相同时间(T) P@5 = 0.4，需要将前面5个一一看过 of getting relevant information = 2T of total search = 5T ETR@5 = 0.4

搜索引擎：query-snippet-document模式

Snippets：False Positive 引导到不相关的文档，浪费了用户的时间 {snippet=1 | doc=0}

Snippets：False Negative 没能反映相关文档 {snippet=0 | doc=1}

Snippets Affect the Search Engine Quality!除了搜索系统提供的精度外，片段的质量也影响搜索引擎的质量！（即，ranking算法和snippet生成算法都影响系统性能）

搜索引擎：query--snippet--document • 用户在考察系统返回结果的时候，自然地进行一个两阶段过程 • 可以有不同方式为这两阶段过程建模

一种用户行为模型

用户行为模型背后的假设 • Examination Assumption[Dupret+08,Craswell+08, Guo+09a,Guo+09b] • Cascade Assumption[Craswell+08, Guo+09a,Guo+09b, Chapelle+09] • Examination Time Assumption，两阶段观察时间假设 • Snippet Examination Time（片段观察时间）: T1 • Doc Examination Time（文档观察时间）: T2 Position i Position (i+1)

ETR for Search Engine with Snippets of getting relevant information T1 + T2 of total search 5T1 + 3T2

一般地，我们有ETR R=1或0，对应其中对象和信息需求的“相关”与“不相关”。令 c=T2/T1，从而ETR只和一个参数有关

ETR的端点性质 可有三方面的原因：文档相关性，片段相关性，文档与片段相关性的匹配也是与直觉相符的

一般地，影响ETR的因素 • Retrieval System Performance(P@N) • Snippet Quality（片段质量，两种错误） • First Type Error（False Positive） • Second Type Error（False Negative） p1 = Pr{ | } p2 = Pr{ | }

ETR，有什么好处？（理论上，应用上）

理论上，我们希望说明 • 和典型评测指标对比 • 如果搜索引擎的snippet生成算法足够好，ETR是比Precision更好的一个指标（在时间效率意义上） • 用于比较两个搜索引擎系统 • 如果两个系统的snippet产生算法相同，则ETR比较两个系统结果与P@N一致 • 如果两个系统的ranking算法相同，则snippet生成算法的优劣决定了两个系统ETR的好坏

Expected ETR ：在错误概率下的期望值 • 为此，我们需要深入考虑snippet算法的两种可能的错误对ETR的影响 • First Type Error（False Positive） • Second Type Error（False Negative） p1 = Pr{ | } p2 = Pr{ | }

ETREETR

Expected ETR@N • 于是，我们有了用P@N，以及两种可能错误的概率（p1,p2）表达的EETR@N • 容易看出，EETR是p1, p2的减函数（当然）

EETR的性质 • 也就是在片段产生无错误的情况下，ETR要比P@N更有效 • （在实际意义上这其实是显然的，因为此时ETR意味着用户没有在不相关的文档上花时间，而P@N总是要求用户全部看过）

进一步性质（两个系统的对比） • 性质2说的是如果两个系统（A,B）有相同的snippet生成算法，则EETR与P@N一致 • 性质3说的是如果两个系统的ranking相同，则snippet生成算法的优劣决定了EETR的优劣，即EETR反映了snippet生成算法

ETR的实践意义 • 能不能用？（参数c=T2/T1的确定） • 好不好用？与用户体验的关联性(correlation)

ETR，能不能用？-- 估计c • 通常，搜索引擎日志能记录用户session中的一些时间信息和点击信息等 • 在前面提到的三个用户行为模型假设条件下 • 点击第一个snippet的时间，减去提交查询的时间，等于该snippet的位置，乘以T1 • 最后一次点击snippet的时间与提交查询时间之差由两部分构成：读前面所有snippet的时间，加上读若干文档的时间T2

利用用户日志估计 c=T2/T1 除T1,T2外，其他都可以从搜索引擎日志中得到。在一个月的日志分析基础上，我们估计出c≈10。

ETR，好不好用？--用户实验研究 目的:用户的满意程度与多种评测指标对比 • 10个自愿者，50个信息需求 • 对每个需求，从商用搜索引擎中获得前100个结果（snippet+ 文档） • 对每个需求，问每个人对结果的满意程度（1-4打分) • 人工标出文档与信息需求的相关性（R(di)），以及和snippet的相关性（R(si))，从而可以算出各种指标

评测方法（指标）的对比验证 • 用户满意度与评测指标之间的关联性Correlation[Huffman+07] between • User reported satisfaction • Measure value based on judgments • 取若干传统指标（P@N，DCG等），以及ETR • 较高关联性意味着该指标能较好反映用户的满意度感受

Results（用户满意度与评测指标的关联性correlation）Results（用户满意度与评测指标的关联性correlation） • 传统指标 • ETR and its cumulated version

Results （针对不同类型的需求） • Open Questions(可能有多个正确答案) • Close Questions(答案唯一)

小结 • 随着信息检索应用环境的变化，会涌现出一些新的应用模式，也可能给一些经典概念赋予新的含义 • 作为一个例子：审视现代搜索引擎的典型应用模式，“查询-片段-文档”，从用户时间效率的角度考虑搜索的有效性，我们可以获得比传统基于“查询-文档”模式更好的评测方法，ETR • ETR既反映检索系统质量，也反映了片段生成算法的优劣，能较好地反映用户对于搜索引擎效果的满意度

小结（续） • 从研究方法来看，报告的这项工作综合运用了与评测有关的三个方面的概念与技术 • ETR指标设计 – Cranfield方法 • 反映搜索引擎应用的特征 • 参数（c）估计 –用户隐反馈 • 不是随意尝试，而是从日志中统计出来 • 效果对比 –用户研究 • 不是只在几个指标之间对比，而是都以用户满意度为基准

欢迎讨论，lxm@pku.edu.cn

2010 搜索研究视野拾零 -- 从 P@N 到 ETR@N 的一种评测方法