360 likes | 479 Views
2010 搜索研究视野拾零 -- 从 P@N 到 ETR@N 的一种评测方法. 李晓明,何靖 北京大学网络与信息系统研究所 (第六届全国信息检索学术会议, CCIR 2010 ) 2010 年 8 月 12 日. 不断拓展的搜索领域前沿. 数据对象的演化 Web 1.0, Web 2.0, …; 结构化,非结构化,结构化, … 用户环境的改变 固定,移动(位置,个性化,带宽 / 能源) 搜索要求的多样性 通用,学术,生活,专业;文档,答案,服务. 核心问题基本没变!. “Big issues” in IR and search engine.
E N D
2010搜索研究视野拾零--从P@N到ETR@N的一种评测方法2010搜索研究视野拾零--从P@N到ETR@N的一种评测方法 李晓明,何靖 北京大学网络与信息系统研究所 (第六届全国信息检索学术会议,CCIR 2010) 2010年8月12日
不断拓展的搜索领域前沿 • 数据对象的演化 • Web 1.0, Web 2.0, …; 结构化,非结构化,结构化,… • 用户环境的改变 • 固定,移动(位置,个性化,带宽/能源) • 搜索要求的多样性 • 通用,学术,生活,专业;文档,答案,服务 核心问题基本没变!
“Big issues” in IR and search engine • Relevance • Evaluation • Information needs • Performance • Incorporating new data • Scalability • Adaptability • Specific problems
评测的主要概念与方法 • Cranfield方法 • 测试集T:文档集D,信息需求集Q,相关关系DхQ{0,1} • 对单个需求q∈Q的响应,对Q中所有元素响应的综合 • 用户研究(user study) • 实验室环境(少数用户),报告感受,满意度等 • 隐反馈 • 开放用户环境,通过对用户行为的收集与建模,推断文档与需求的相关性,clickthrough
Cranfield方法的几个典型指标 • Dхq • R-P(F),P@N,R-precision,AP,RR(reciprocal rank) • DCG,RBP • ppref,wpref • DxQ • MAP,GMAP • nDCG, • 共同特点(假设):qd-list
从用户时间的角度来理解系统性能 • 出发点:系统的效果可以通过用户在检索过程中所花时间的有效性来评测 – 时间效率 • 用户在审查系统返回内容的时候是要花时间的,我们于是可以认为看“不相关的内容”浪费了时间,看“相关的内容”则是时间的有效利用 • 在一个搜索会话过程所花的时间中,有效时间就是看相关文档的时间
Effective Time Ratio(ETR,时间效率) of getting relevant information of total search
Precision(精度):ETR的一个特例 • Assumption: 在每个文档上花相同时间(T) P@5 = 0.4, 需要将前面5个一一看过 of getting relevant information = 2T of total search = 5T ETR@5 = 0.4
Snippets:False Positive 引导到不相关的文档,浪费了用户的时间 {snippet=1 | doc=0}
Snippets:False Negative 没能反映相关文档 {snippet=0 | doc=1}
Snippets Affect the Search Engine Quality!除了搜索系统提供的精度外,片段的质量也影响搜索引擎的质量!(即,ranking算法和snippet生成算法都影响系统性能)
搜索引擎:query--snippet--document • 用户在考察系统返回结果的时候,自然地进行一个两阶段过程 • 可以有不同方式为这两阶段过程建模
用户行为模型背后的假设 • Examination Assumption[Dupret+08,Craswell+08, Guo+09a,Guo+09b] • Cascade Assumption[Craswell+08, Guo+09a,Guo+09b, Chapelle+09] • Examination Time Assumption,两阶段观察时间假设 • Snippet Examination Time(片段观察时间): T1 • Doc Examination Time(文档观察时间): T2 Position i Position (i+1)
ETR for Search Engine with Snippets of getting relevant information T1 + T2 of total search 5T1 + 3T2
一般地,我们有ETR R=1或0,对应其中对象和信息需求的“相关”与“不相关”。令 c=T2/T1,从而ETR只和一个参数有关
ETR的端点性质 可有三方面的原因:文档相关性,片段相关性,文档与片段相关性的匹配 也是与直觉相符的
一般地,影响ETR的因素 • Retrieval System Performance(P@N) • Snippet Quality(片段质量,两种错误) • First Type Error(False Positive) • Second Type Error(False Negative) p1 = Pr{ | } p2 = Pr{ | }
理论上,我们希望说明 • 和典型评测指标对比 • 如果搜索引擎的snippet生成算法足够好,ETR是比Precision更好的一个指标(在时间效率意义上) • 用于比较两个搜索引擎系统 • 如果两个系统的snippet产生算法相同,则ETR比较两个系统结果与P@N一致 • 如果两个系统的ranking算法相同,则snippet生成算法的优劣决定了两个系统ETR的好坏
Expected ETR :在错误概率下的期望值 • 为此,我们需要深入考虑snippet算法的两种可能的错误对ETR的影响 • First Type Error(False Positive) • Second Type Error(False Negative) p1 = Pr{ | } p2 = Pr{ | }
Expected ETR@N • 于是,我们有了用P@N,以及两种可能错误的概率(p1,p2)表达的EETR@N • 容易看出,EETR是p1, p2的减函数(当然)
EETR的性质 • 也就是在片段产生无错误的情况下,ETR要比P@N更有效 • (在实际意义上这其实是显然的,因为此时ETR意味着用户没有在不相关的文档上花时间,而P@N总是要求用户全部看过)
进一步性质(两个系统的对比) • 性质2说的是如果两个系统(A,B)有相同的snippet生成算法,则EETR与P@N一致 • 性质3说的是如果两个系统的ranking相同,则snippet生成算法的优劣决定了EETR的优劣,即EETR反映了snippet生成算法
ETR的实践意义 • 能不能用?(参数c=T2/T1的确定) • 好不好用?与用户体验的关联性(correlation)
ETR,能不能用?-- 估计c • 通常,搜索引擎日志能记录用户session中的一些时间信息和点击信息等 • 在前面提到的三个用户行为模型假设条件下 • 点击第一个snippet的时间,减去提交查询的时间,等于该snippet的位置,乘以T1 • 最后一次点击snippet的时间与提交查询时间之差由两部分构成:读前面所有snippet的时间,加上读若干文档的时间T2
利用用户日志估计 c=T2/T1 除T1,T2外,其他都可以从搜索引擎日志中得到。在一个月的日志分析基础上,我们估计出c≈10。
ETR,好不好用?--用户实验研究 目的:用户的满意程度与多种评测指标对比 • 10个自愿者,50个信息需求 • 对每个需求,从商用搜索引擎中获得前100个结果(snippet+ 文档) • 对每个需求,问每个人对结果的满意程度(1-4打分) • 人工标出文档与信息需求的相关性(R(di)),以及和snippet的相关性(R(si)),从而可以算出各种指标
评测方法(指标)的对比验证 • 用户满意度与评测指标之间的关联性Correlation[Huffman+07] between • User reported satisfaction • Measure value based on judgments • 取若干传统指标(P@N,DCG等),以及ETR • 较高关联性意味着该指标能较好反映用户的满意度感受
Results(用户满意度与评测指标的关联性correlation)Results(用户满意度与评测指标的关联性correlation) • 传统指标 • ETR and its cumulated version
Results (针对不同类型的需求) • Open Questions(可能有多个正确答案) • Close Questions(答案唯一)
小结 • 随着信息检索应用环境的变化,会涌现出一些新的应用模式,也可能给一些经典概念赋予新的含义 • 作为一个例子:审视现代搜索引擎的典型应用模式,“查询-片段-文档”,从用户时间效率的角度考虑搜索的有效性,我们可以获得比传统基于“查询-文档”模式更好的评测方法,ETR • ETR既反映检索系统质量,也反映了片段生成算法的优劣,能较好地反映用户对于搜索引擎效果的满意度
小结(续) • 从研究方法来看,报告的这项工作综合运用了与评测有关的三个方面的概念与技术 • ETR指标设计 – Cranfield方法 • 反映搜索引擎应用的特征 • 参数(c)估计 –用户隐反馈 • 不是随意尝试,而是从日志中统计出来 • 效果对比 –用户研究 • 不是只在几个指标之间对比,而是都以用户满意度为基准