SEWM2005 中文 Web 信息检索评测

SEWM2005 中文Web信息检索评测 闫宏飞,yhf@net.pku.edu.cn 北京大学网络实验室 2005-09-27

System = t1 + t2 +…+ tn • 系统包含若干技术，t • 某人发明了一个新的 t，评价它的方式: • 用它替换系统中的相应技术，看对总的效果的贡献 • 单独在一个评测环境中评价 • 前者往往代价较高（时间，费用） • 例如研究搜索引擎排序算法的不一定有机会摆弄真正的，有大规模用户的搜索引擎 • 后者可能和真实系统应用有距离 • 能对这距离有把握也行

Outline • TREC (Text REtrieval Conference) • GOV2等 • CWIRF (Chinese Web Information Retrival Forum) • CWT100g(Chinese Web Test collection with 100gigabyte web pages)

What is TREC? • A workshop series that provides the infrastructure for large-scale testing of (text) retrieval technology • realistic test collections • uniform, appropriate scoring procedures • a forum for the exchange of research ideas and for the discussion of research methodology

TREC Conference • Established in 1992 to evaluate large-scale IR • Retrieving documents from a gigabyte collection • Has run continuously since then • TREC 2004(13th) meeting is in November • Run by NIST’s Information Access Division • Probably most well known IR evaluation setting • Started with 25 participating organizations in 1992 evaluation • In 2003, there were 93 groups from 22 different countries • Proceedings available on-line (http://trec.nist.gov ) • Overview of TREC 2003 at http://trec.nist.gov/pubs/trec12/papers/OVERVIEW.12.pdf

TREC General Format • TREC consists of IR research tracks • Ad hoc, routing, confusion ( scanned documents, speech recognition ), video, filtering, multilingual ( cross-language, Spanish, Chinese ), question answering, novelty, high precision, interactive, Web, database merging, NLP, Terabyte… • Each track works on roughly the same model • November: track approved by TREC community • Winter: track’s members finalize format for track • Spring: researchers train system based on specification • Summer: researchers carry out format evaluation • Usually a “blind” evaluation: research do not know answer • Fall: NIST carries out evaluation • November: Group meeting (TREC) to find out: • How well your site did • How others tackled the program • Many tracks are run by volunteers outside of NIST (e.g. Web) • “Coopetition” model of evaluation • Successful approaches generally adopted in next cycle

Yearly Conference Cycle Collection

TREC追求的四个目标 • 以大规模测试集为基础，推动信息检索的研究； • 经由开放式的论坛，使与会者能交流研究的成果与心得，以增进学术界、产业界与政府的交流互通； • 经由对真实检索环境的模拟与重要改进，加速将实验室研究技术转化为商业产品； • 发展适当且具应用性的评估技术，供各界遵循采用，包括开发更适用于现有系统的新的评估技术。

SEWM2005评测任务 • 中文Web检索 • 主题提取 • 导航搜索方法 • 中文网页分类

Web测试集的设计原则 • 测试集（test collection）就包括文档集（documents）、查询集（queries）和相关结果集（relevance judgments）三个部分。 • Web测试集设计中最基本的问题是：文档集|尽可能真实代表所要研究的对象 • 文档集应当是静态样本还是动态样本? • 在多大程度上可以成为研究对象的代表? • 为了使文档集能满足通用的或特定的研究目标，总体规模应当有多大?

测试集使用框架

主题提取（Topic Distillation） 目的是对于一个特定主题发现一组关键资源。注重以站点作为资源的查询。要求是在前十个结果中寻找尽可能多的不同站点（用它们的网站的入口页面表示）。例如对于主题‘linux’，在CWT100g中的下面站点可能被认为是关键资源： http://www.oldlinux.org/ linux org http://www.mhdn.net/os/29/ 明辉开发者网络 linux区 http://www.redflag-linux.com/ 红旗Linux 被判断为是一个关键资源，返回页面应该是一个站点的好的首页面。判断是否一个好的首页面,应该考查结果是否符合下面三个条件: 1)是否大部分切合主题； 2)提供主题的可靠的信息； 3)不是一个更大的切合主题站点的一部分。对于'linux'这一主题，页面'www.mhdn.net' 不符合第一个条件，而页面'http://www.redflag-linux.com/chanpin/Desktop/index.html'不符合第三个条件。

Topic示例: 主题提取（TD） <top> <num> Number: TD74 <title> C语言程序设计 </title> <desc> Description: 与C语言程序相关的程序，源码，论坛等 </top>

Topic示例: 导航搜索（HP/NP） <top> <num>Number: NP383 <title>龙厨美食网</title> </top> <top> <num>Number: NP287 <title>“求职信”网络蠕虫病毒解决方案</title> </top>

构建相关结果集 • 工作形式，招募人员方式 • 初步评估：通过发布招募广告招募人员来完成 • 检查：招募天网组内的成员来完成 • 工作内容 • 针对75个TD，每个主题通过pooling给出了500个左右的URL • 组织人员 • 组织人：李静静 • 协助人：秦琦，郭化楠

2005年提交结果的参赛队

TD评测结果 • 根据答案超过3个的60个主题各做评分

NPHP评测结果 • 与给出答案具有相同MD5的结果都算正确结果

评测过程中FAQ • 发现一些网页在050722url.no中没有对应的编号。 • 对于相同网页内容，网页地址不同的问题 • 要求是在前十个结果中寻找尽可能多的不同站点（用它们的网站首页面表示）,发现2004年给出的judgment有问题 • 关于输出格式的具体化规定 • ……

总结及讨论 • 测试集的改进 • 文档集 • CWT100g  CWT200g • 质量和发布形式 • 评测形式 • 评测任务的设定 • 查询集合和答案集合的生成

谢谢!

研讨会时间表 • 2个Overview, 四支队伍，大约每个报告40分钟，共计4小时 • 13:30-14:10 北大网络实验室，闫宏飞，2005评测Overview，记Web Track的Overview • 14:10-14:50 龚笔宏，中文网页分类Overview • 14:50-15:20 江西师范大学网络所，曾雪强，参加网页分类报告 • 15:20-16:50 华南理工大学,朱旭圻,参加网页分类报告 • 15:50-16:00 break • 16:00-16:40 北航软件所，曹勇刚，参加Web Track报告 • 16:40-17:20 北大计算机所，路斌，参加Web Track报告 • 17:20-18:00 华南理工大学木棉队, 欧健文，参加Web Track报告

SEWM2005 中文 Web 信息检索评测

SEWM2005 中文 Web 信息检索评测

Presentation Transcript