1 / 36

2010 搜索研究视野拾零 -- 从 P@N 到 ETR@N 的一种评测方法

2010 搜索研究视野拾零 -- 从 P@N 到 ETR@N 的一种评测方法. 李晓明,何靖 北京大学网络与信息系统研究所 (第六届全国信息检索学术会议, CCIR 2010 ) 2010 年 8 月 12 日. 不断拓展的搜索领域前沿. 数据对象的演化 Web 1.0, Web 2.0, …; 结构化,非结构化,结构化, … 用户环境的改变 固定,移动(位置,个性化,带宽 / 能源) 搜索要求的多样性 通用,学术,生活,专业;文档,答案,服务. 核心问题基本没变!. “Big issues” in IR and search engine.

harva
Download Presentation

2010 搜索研究视野拾零 -- 从 P@N 到 ETR@N 的一种评测方法

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 2010搜索研究视野拾零--从P@N到ETR@N的一种评测方法2010搜索研究视野拾零--从P@N到ETR@N的一种评测方法 李晓明,何靖 北京大学网络与信息系统研究所 (第六届全国信息检索学术会议,CCIR 2010) 2010年8月12日

  2. 不断拓展的搜索领域前沿 • 数据对象的演化 • Web 1.0, Web 2.0, …; 结构化,非结构化,结构化,… • 用户环境的改变 • 固定,移动(位置,个性化,带宽/能源) • 搜索要求的多样性 • 通用,学术,生活,专业;文档,答案,服务 核心问题基本没变!

  3. “Big issues” in IR and search engine • Relevance • Evaluation • Information needs • Performance • Incorporating new data • Scalability • Adaptability • Specific problems

  4. 评测的主要概念与方法 • Cranfield方法 • 测试集T:文档集D,信息需求集Q,相关关系DхQ{0,1} • 对单个需求q∈Q的响应,对Q中所有元素响应的综合 • 用户研究(user study) • 实验室环境(少数用户),报告感受,满意度等 • 隐反馈 • 开放用户环境,通过对用户行为的收集与建模,推断文档与需求的相关性,clickthrough

  5. Cranfield方法的几个典型指标 • Dхq • R-P(F),P@N,R-precision,AP,RR(reciprocal rank) • DCG,RBP • ppref,wpref • DxQ • MAP,GMAP • nDCG, • 共同特点(假设):qd-list

  6. 从用户时间的角度来理解系统性能 • 出发点:系统的效果可以通过用户在检索过程中所花时间的有效性来评测 – 时间效率 • 用户在审查系统返回内容的时候是要花时间的,我们于是可以认为看“不相关的内容”浪费了时间,看“相关的内容”则是时间的有效利用 • 在一个搜索会话过程所花的时间中,有效时间就是看相关文档的时间

  7. Effective Time Ratio(ETR,时间效率) of getting relevant information of total search

  8. Precision(精度):ETR的一个特例 • Assumption: 在每个文档上花相同时间(T) P@5 = 0.4, 需要将前面5个一一看过 of getting relevant information = 2T of total search = 5T ETR@5 = 0.4

  9. 搜索引擎:query-snippet-document模式

  10. Snippets:False Positive 引导到不相关的文档,浪费了用户的时间 {snippet=1 | doc=0}

  11. Snippets:False Negative 没能反映相关文档 {snippet=0 | doc=1}

  12. Snippets Affect the Search Engine Quality!除了搜索系统提供的精度外,片段的质量也影响搜索引擎的质量!(即,ranking算法和snippet生成算法都影响系统性能)

  13. 搜索引擎:query--snippet--document • 用户在考察系统返回结果的时候,自然地进行一个两阶段过程 • 可以有不同方式为这两阶段过程建模

  14. 一种用户行为模型

  15. 用户行为模型背后的假设 • Examination Assumption[Dupret+08,Craswell+08, Guo+09a,Guo+09b] • Cascade Assumption[Craswell+08, Guo+09a,Guo+09b, Chapelle+09] • Examination Time Assumption,两阶段观察时间假设 • Snippet Examination Time(片段观察时间): T1 • Doc Examination Time(文档观察时间): T2 Position i Position (i+1)

  16. ETR for Search Engine with Snippets of getting relevant information T1 + T2 of total search 5T1 + 3T2

  17. 一般地,我们有ETR R=1或0,对应其中对象和信息需求的“相关”与“不相关”。令 c=T2/T1,从而ETR只和一个参数有关

  18. ETR的端点性质 可有三方面的原因:文档相关性,片段相关性,文档与片段相关性的匹配 也是与直觉相符的

  19. 一般地,影响ETR的因素 • Retrieval System Performance(P@N) • Snippet Quality(片段质量,两种错误) • First Type Error(False Positive) • Second Type Error(False Negative) p1 = Pr{ | } p2 = Pr{ | }

  20. ETR,有什么好处?(理论上,应用上)

  21. 理论上,我们希望说明 • 和典型评测指标对比 • 如果搜索引擎的snippet生成算法足够好,ETR是比Precision更好的一个指标(在时间效率意义上) • 用于比较两个搜索引擎系统 • 如果两个系统的snippet产生算法相同,则ETR比较两个系统结果与P@N一致 • 如果两个系统的ranking算法相同,则snippet生成算法的优劣决定了两个系统ETR的好坏

  22. Expected ETR :在错误概率下的期望值 • 为此,我们需要深入考虑snippet算法的两种可能的错误对ETR的影响 • First Type Error(False Positive) • Second Type Error(False Negative) p1 = Pr{ | } p2 = Pr{ | }

  23. ETREETR

  24. Expected ETR@N • 于是,我们有了用P@N,以及两种可能错误的概率(p1,p2)表达的EETR@N • 容易看出,EETR是p1, p2的减函数(当然)

  25. EETR的性质 • 也就是在片段产生无错误的情况下,ETR要比P@N更有效 • (在实际意义上这其实是显然的,因为此时ETR意味着用户没有在不相关的文档上花时间,而P@N总是要求用户全部看过)

  26. 进一步性质(两个系统的对比) • 性质2说的是如果两个系统(A,B)有相同的snippet生成算法,则EETR与P@N一致 • 性质3说的是如果两个系统的ranking相同,则snippet生成算法的优劣决定了EETR的优劣,即EETR反映了snippet生成算法

  27. ETR的实践意义 • 能不能用?(参数c=T2/T1的确定) • 好不好用?与用户体验的关联性(correlation)

  28. ETR,能不能用?-- 估计c • 通常,搜索引擎日志能记录用户session中的一些时间信息和点击信息等 • 在前面提到的三个用户行为模型假设条件下 • 点击第一个snippet的时间,减去提交查询的时间,等于该snippet的位置,乘以T1 • 最后一次点击snippet的时间与提交查询时间之差由两部分构成:读前面所有snippet的时间,加上读若干文档的时间T2

  29. 利用用户日志估计 c=T2/T1 除T1,T2外,其他都可以从搜索引擎日志中得到。在一个月的日志分析基础上,我们估计出c≈10。

  30. ETR,好不好用?--用户实验研究 目的:用户的满意程度与多种评测指标对比 • 10个自愿者,50个信息需求 • 对每个需求,从商用搜索引擎中获得前100个结果(snippet+ 文档) • 对每个需求,问每个人对结果的满意程度(1-4打分) • 人工标出文档与信息需求的相关性(R(di)),以及和snippet的相关性(R(si)),从而可以算出各种指标

  31. 评测方法(指标)的对比验证 • 用户满意度与评测指标之间的关联性Correlation[Huffman+07] between • User reported satisfaction • Measure value based on judgments • 取若干传统指标(P@N,DCG等),以及ETR • 较高关联性意味着该指标能较好反映用户的满意度感受

  32. Results(用户满意度与评测指标的关联性correlation)Results(用户满意度与评测指标的关联性correlation) • 传统指标 • ETR and its cumulated version

  33. Results (针对不同类型的需求) • Open Questions(可能有多个正确答案) • Close Questions(答案唯一)

  34. 小结 • 随着信息检索应用环境的变化,会涌现出一些新的应用模式,也可能给一些经典概念赋予新的含义 • 作为一个例子:审视现代搜索引擎的典型应用模式,“查询-片段-文档”,从用户时间效率的角度考虑搜索的有效性,我们可以获得比传统基于“查询-文档”模式更好的评测方法,ETR • ETR既反映检索系统质量,也反映了片段生成算法的优劣,能较好地反映用户对于搜索引擎效果的满意度

  35. 小结(续) • 从研究方法来看,报告的这项工作综合运用了与评测有关的三个方面的概念与技术 • ETR指标设计 – Cranfield方法 • 反映搜索引擎应用的特征 • 参数(c)估计 –用户隐反馈 • 不是随意尝试,而是从日志中统计出来 • 效果对比 –用户研究 • 不是只在几个指标之间对比,而是都以用户满意度为基准

  36. 欢迎讨论,lxm@pku.edu.cn

More Related