220 likes | 343 Views
SEWM2005 中文 Web 信息检索评测. 闫宏飞 , yhf@net.pku.edu.cn 北京大学网络实验室 2005-09-27. System = t 1 + t 2 + … + t n. 系统包含若干技术, t 某人发明了一个新的 t ,评价它的方式 : 用它替换系统中的相应技术,看对总的效果的贡献 单独在一个评测环境中评价 前者往往代价较高(时间,费用) 例如研究搜索引擎排序算法的不一定有机会摆弄真正的,有大规模用户的搜索引擎 后者可能和真实系统应用有距离 能对这距离有把握也行. Outline.
E N D
SEWM2005 中文Web信息检索评测 闫宏飞,yhf@net.pku.edu.cn 北京大学网络实验室 2005-09-27
System = t1 + t2 +…+ tn • 系统包含若干技术,t • 某人发明了一个新的 t,评价它的方式: • 用它替换系统中的相应技术,看对总的效果的贡献 • 单独在一个评测环境中评价 • 前者往往代价较高(时间,费用) • 例如研究搜索引擎排序算法的不一定有机会摆弄真正的,有大规模用户的搜索引擎 • 后者可能和真实系统应用有距离 • 能对这距离有把握也行
Outline • TREC (Text REtrieval Conference) • GOV2等 • CWIRF (Chinese Web Information Retrival Forum) • CWT100g(Chinese Web Test collection with 100gigabyte web pages)
What is TREC? • A workshop series that provides the infrastructure for large-scale testing of (text) retrieval technology • realistic test collections • uniform, appropriate scoring procedures • a forum for the exchange of research ideas and for the discussion of research methodology
TREC Conference • Established in 1992 to evaluate large-scale IR • Retrieving documents from a gigabyte collection • Has run continuously since then • TREC 2004(13th) meeting is in November • Run by NIST’s Information Access Division • Probably most well known IR evaluation setting • Started with 25 participating organizations in 1992 evaluation • In 2003, there were 93 groups from 22 different countries • Proceedings available on-line (http://trec.nist.gov ) • Overview of TREC 2003 at http://trec.nist.gov/pubs/trec12/papers/OVERVIEW.12.pdf
TREC General Format • TREC consists of IR research tracks • Ad hoc, routing, confusion ( scanned documents, speech recognition ), video, filtering, multilingual ( cross-language, Spanish, Chinese ), question answering, novelty, high precision, interactive, Web, database merging, NLP, Terabyte… • Each track works on roughly the same model • November: track approved by TREC community • Winter: track’s members finalize format for track • Spring: researchers train system based on specification • Summer: researchers carry out format evaluation • Usually a “blind” evaluation: research do not know answer • Fall: NIST carries out evaluation • November: Group meeting (TREC) to find out: • How well your site did • How others tackled the program • Many tracks are run by volunteers outside of NIST (e.g. Web) • “Coopetition” model of evaluation • Successful approaches generally adopted in next cycle
Yearly Conference Cycle Collection
TREC追求的四个目标 • 以大规模测试集为基础,推动信息检索的研究; • 经由开放式的论坛,使与会者能交流研究的成果与心得,以增进学术界、产业界与政府的交流互通; • 经由对真实检索环境的模拟与重要改进,加速将实验室研究技术转化为商业产品; • 发展适当且具应用性的评估技术,供各界遵循采用,包括开发更适用于现有系统的新的评估技术。
SEWM2005评测任务 • 中文Web检索 • 主题提取 • 导航搜索方法 • 中文网页分类
Web测试集的设计原则 • 测试集(test collection)就包括文档集(documents)、查询集(queries)和相关结果集(relevance judgments)三个部分。 • Web测试集设计中最基本的问题是:文档集|尽可能真实代表所要研究的对象 • 文档集应当是静态样本还是动态样本? • 在多大程度上可以成为研究对象的代表? • 为了使文档集能满足通用的或特定的研究目标,总体规模应当有多大?
主题提取(Topic Distillation) 目的是对于一个特定主题发现一组关键资源。注重以站点作为资源的查询。要求是在前十个结果中寻找尽可能多的不同站点(用它们的网站 的入口页面表示)。 例如对于主题‘linux’,在CWT100g中的下面站点可能被认为是关键资源: http://www.oldlinux.org/ linux org http://www.mhdn.net/os/29/ 明辉开发者网络 linux区 http://www.redflag-linux.com/ 红旗Linux 被判断为是一个关键资源,返回页面应该是一个站点的好的首页面。判断是否一个好的首页面,应该考查结果是否符合下面三个条件: 1)是否大部分切合主题; 2)提供主题的可靠的信息; 3)不是一个更大的切合主题站点的一部分。 对于'linux'这一主题,页面'www.mhdn.net' 不符合第一个条件,而页面'http://www.redflag-linux.com/chanpin/Desktop/index.html'不符合第三个条件。
Topic示例: 主题提取(TD) <top> <num> Number: TD74 <title> C语言程序设计 </title> <desc> Description: 与C语言程序相关的程序,源码,论坛等 </top>
Topic示例: 导航搜索(HP/NP) <top> <num>Number: NP383 <title>龙厨美食网</title> </top> <top> <num>Number: NP287 <title>“求职信”网络蠕虫病毒解决方案</title> </top>
构建相关结果集 • 工作形式,招募人员方式 • 初步评估:通过发布招募广告招募人员来完成 • 检查:招募天网组内的成员来完成 • 工作内容 • 针对75个TD,每个主题通过pooling给出了500个左右的URL • 组织人员 • 组织人:李静静 • 协助人:秦琦,郭化楠
TD评测结果 • 根据答案超过3个的60个主题各做评分
NPHP评测结果 • 与给出答案具有相同MD5的结果都算正确结果
评测过程中FAQ • 发现一些网页在050722url.no中没有对应的编号。 • 对于相同网页内容,网页地址不同的问题 • 要求是在前十个结果中寻找尽可能多的不同站点(用它们的网站首页面表示),发现2004年给出的judgment有问题 • 关于输出格式的具体化规定 • ……
总结及讨论 • 测试集的改进 • 文档集 • CWT100g CWT200g • 质量和发布形式 • 评测形式 • 评测任务的设定 • 查询集合和答案集合的生成
研讨会时间表 • 2个Overview, 四支队伍,大约每个报告40分钟,共计4小时 • 13:30-14:10 北大网络实验室,闫宏飞,2005评测Overview,记Web Track的Overview • 14:10-14:50 龚笔宏,中文网页分类Overview • 14:50-15:20 江西师范大学网络所,曾雪强,参加网页分类报告 • 15:20-16:50 华南理工大学,朱旭圻,参加网页分类报告 • 15:50-16:00 break • 16:00-16:40 北航软件所,曹勇刚,参加Web Track报告 • 16:40-17:20 北大计算机所,路斌,参加Web Track报告 • 17:20-18:00 华南理工大学木棉队, 欧健文,参加Web Track报告