370 likes | 670 Views
TREC 现况简介及针对 Robust Track 开展研究的建议. 主要内容. TREC 概况 TREC 评测方法及标准 Robust Track 简介. 第一部分 TREC 概况. 历史 发展 目标. TREC 的历史. TREC: Text REtrieval Conference ,文本检索会议 通过所发展出的大型测试集,制定各种测试项目、测试 程序及测量准则,组合成一个评估检索系统的机制 组织者:
E N D
TREC现况简介及针对Robust Track开展研究的建议
主要内容 • TREC概况 • TREC评测方法及标准 • Robust Track简介
第一部分 TREC概况 • 历史 • 发展 • 目标
TREC的历史 • TREC: Text REtrieval Conference,文本检索会议 通过所发展出的大型测试集,制定各种测试项目、测试 程序及测量准则,组合成一个评估检索系统的机制 • 组织者: • NIST (National Institute of Standards and Technology) 美国国家标准及技术局 • DARPA (Defense Advanced Research Projects Agency) 美国国防部高等研究计划局 • 会议: 1992~2003,12
TREC的运行过程 • TREC由一个程序委员会(包括来自政府、工业界和学术界的代表)管理。 • TREC以年度为周期运行。过程为: • 确定任务(1~2): NIST选择某些任务,制定规范 • 参加者报名(2~3):参加者根据自己的兴趣选择任务(报名免费,大部分数据也免费) • 参加者运行任务(3~9):参加者用自己的系统运行测试问题,给出结果并将它们提交给NIST • 结果评估(10): NIST使用固定的评测软件和工具对结果进行评估,并将结果返回给参加者 • 大会交流(11,马里兰州的Gaithersburg):论文交流
TREC目标 • 总目标:支持在信息检索领域的基础研究,提供对 大规模文本检索方法的评估办法 • 鼓励对基于大测试集合的信息检索方法的研究 • 提供一个可以用来交流研究思想的论坛,增进工业界、学术界和政府部门之间的互相了解; • 示范信息检索理论在解决实际问题方面的重大进步,提高信息检索技术从理论走向商业应用的速度 • 为工业界和学术界提高评估技术的可用性,并开发新的更为适用的评估技术。
测试数据和测试软件 • 由LDC (Linguistic Data Consortium)等多家单位免费提供,但少数数据有所修改,而且必须签订协议 • 每年使用的数据可以是新的,也可以是上一年度已经使用过的 • TREC使用的评估软件是开放的,任何组织和个人都可以用它对自己的系统进行评测
第二部分 TREC评测方法及标准 相关名词、评测方法
名词定义 • Track: TREC的每个子任务。 A TREC workshop consists of a set tracks, areas of focus in which particular retrieval tasks are defined.
名词定义 • TREC目前所包含的Tracks: • Cross-Language Track • Filtering Track • Genomics Track • HARD Track • Interactive Track • Novelty Track • Question Answering Track • Robust Retrieval Track • Terabyte Track • Video Track • Web Track
名词定义 • Topic • 预先确定的问题,用来向检索系统提问 • Topic query (自动或者手工) • Question (QA) • Document • 包括训练集和测试集合 • Relevance Judgments • 相关性评估
Topic的一般结构 • Title:标题,通常由几个单词构成,非常简短 • Description:描述,一句话,比Title详细,包含了Title的所有单词 • Narrative:详述,更详细地描述了哪些文档是相关的
Topic示例 <num>Number: 351 <title>Falkland petroleum exploration <desc>Description: What information is available on petroleum exploration in the South Atlantic near the Falkland Islands? <narr>Narrative: Any document discussing petroleum exploration in the South Atlantic near the Falkland Islands is considered relevant. Documents discussing petroleum exploration in continental South America are not relevant.
Topic的建构方式 • 以模拟的方式建立,并非实际搜集而来 • 每届的测试主题均由一至二人建构发展——描述方式及词汇运用的一致性 • 利用PRISE系统,从10050
使用Topic的方式 • 按照会议要求,可以利用Topic文本中的部分或者全部字段,构造适当的查询条件 • 可以使用任何方式构造查询条件,这包括手工的和自动的两大类。但提交查询结果时要注明产生方式。
Document • 收录的主要是新闻性文件及杂志期刊 • 文件的异质性,esp. 长度
Relevance Judgments原则 • 主要根据主题的Narrative栏位进行。对相关与否的判断原则是,只要文件部分与主题相关即可(即使只是数句),并不要求文件的每个部分均与主题相关
相关性评估过程(1) • 对于每一个topic,NIST从参加者取得的结果中挑选中一部分运行结果,从每个运行结果中取头100个文档,然后用这些文档构成一个文档池,使用人工方式对这些文档进行判断。相关性判断是二值的:相关或不相关。没有进行判断的文档被认为是不相关的。
相关性评估过程(2) • NIST使用trec-eval软件包对所有参加者的运行结果进行评估,给出大量参数化的评测结果(主要是precision和recall)。根据这些评测数据,参加者可以比较彼此的系统性能。 • 各个track也有相应的公开评测工具
评测准则(1) • 主要依据: • 召回率 • 精确率
评测准则(2) • 主要生成图表: • 摘要统计表(Summary Statistics Table) • 召回率与精确率对应表(Recall Level Precision Averages Table) • 文件数与精确率对应表(Document Level Averages Table) • 召回率/精确率图(Recall/Precision Graph) • 平均精确率柱状图(Average Precision Histogram)
引入Robust Track 的意义 • An important component of effectiveness for commercial retrieval systems is the ability of the system to return reasonable results for every topic. Users remember abject failures. A relatively few such failures cause the user to mistrust the system and discontinue use. • The standard retrieval evaluation paradigm based on averages over sets of topics does not significantly penalize systems for failed topics. • The robust retrieval track looks to improve the consistency of retrieval technology by focusing on poorly performing topics.
Robust Track 的主要任务 • A traditional ad hoc task the performance of systems that search a static set of documents using previously-unseen topics • For each topic, create a query and submit a ranking of the top 1000 documents for that topic.
ad hoc运作示意图 Training Topics Test Topics Q1 (Training) Q2 (Ad hoc) Training Documents
Robust Track数据集 • Topic Set:100个topic,50 old topics and 50 new topics • Document collection:approximately 528,000 documents and 1,904 MB of text
old topics的选择方式 • Use the effectiveness of the retrieval runs in TRECs • For each topic, create a box plot of the average precision scores for all runs submitted to the ad hoc task in that topic’s • Selected topics with low median average precision scores but with at least one (there was usually more than one) high outlier
Old topics 的使用 • Full relevance data for these topics was available to the participants • only restriction placed on the use of relevance data for the 50 old topics was that the relevance judgments could not be used during the processing of the submitted runs.
Topics’ Relevance Judgments • Old Topics • Existing relevance judgments • New Topics • Create pools from all runs submitted to the track and use the top 125 documents per run
Evaluating Measures • trec_eval • %no • Area Note: All computed over the set of 50 old topics, the set of 50new topics, and the combined set of 100 topics
The meaning of “%no” • Percentage of topics that retrieved no relevant documents in the top ten retrieved • Direct and intuitive • Coarse
The meaning of “Area” • the area underneath the MAP(X) vs. X curve • MAP: mean of the average precision • MAP(X): the mean average precision over the worst X topics, a function of X • X is set from 1…12 for the 50-topicssets and 1…25 for the combined set • not exactly intuitive • incorporate much more information Note: different systems’ scores are computed over a different set of topics in general
Approaches to increasing the effectiveness • Query expansion based on pseudo-feedback • per-topic merging of results from different component runs • Reorder the similarity-ranked list to maximize the number of retrieved-set document clusters with representatives in the top 10 ranks
New aspect of the evaluation • Test whether a system can predict which topics it will perform most poorly on