1 / 22

SEWM2005 中文 Web 信息检索评测

SEWM2005 中文 Web 信息检索评测. 闫宏飞 , yhf@net.pku.edu.cn 北京大学网络实验室 2005-09-27. System = t 1 + t 2 + … + t n. 系统包含若干技术, t 某人发明了一个新的 t ,评价它的方式 : 用它替换系统中的相应技术,看对总的效果的贡献 单独在一个评测环境中评价 前者往往代价较高(时间,费用) 例如研究搜索引擎排序算法的不一定有机会摆弄真正的,有大规模用户的搜索引擎 后者可能和真实系统应用有距离 能对这距离有把握也行. Outline.

varana
Download Presentation

SEWM2005 中文 Web 信息检索评测

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. SEWM2005 中文Web信息检索评测 闫宏飞,yhf@net.pku.edu.cn 北京大学网络实验室 2005-09-27

  2. System = t1 + t2 +…+ tn • 系统包含若干技术,t • 某人发明了一个新的 t,评价它的方式: • 用它替换系统中的相应技术,看对总的效果的贡献 • 单独在一个评测环境中评价 • 前者往往代价较高(时间,费用) • 例如研究搜索引擎排序算法的不一定有机会摆弄真正的,有大规模用户的搜索引擎 • 后者可能和真实系统应用有距离 • 能对这距离有把握也行

  3. Outline • TREC (Text REtrieval Conference) • GOV2等 • CWIRF (Chinese Web Information Retrival Forum) • CWT100g(Chinese Web Test collection with 100gigabyte web pages)

  4. What is TREC? • A workshop series that provides the infrastructure for large-scale testing of (text) retrieval technology • realistic test collections • uniform, appropriate scoring procedures • a forum for the exchange of research ideas and for the discussion of research methodology

  5. TREC Conference • Established in 1992 to evaluate large-scale IR • Retrieving documents from a gigabyte collection • Has run continuously since then • TREC 2004(13th) meeting is in November • Run by NIST’s Information Access Division • Probably most well known IR evaluation setting • Started with 25 participating organizations in 1992 evaluation • In 2003, there were 93 groups from 22 different countries • Proceedings available on-line (http://trec.nist.gov ) • Overview of TREC 2003 at http://trec.nist.gov/pubs/trec12/papers/OVERVIEW.12.pdf

  6. TREC General Format • TREC consists of IR research tracks • Ad hoc, routing, confusion ( scanned documents, speech recognition ), video, filtering, multilingual ( cross-language, Spanish, Chinese ), question answering, novelty, high precision, interactive, Web, database merging, NLP, Terabyte… • Each track works on roughly the same model • November: track approved by TREC community • Winter: track’s members finalize format for track • Spring: researchers train system based on specification • Summer: researchers carry out format evaluation • Usually a “blind” evaluation: research do not know answer • Fall: NIST carries out evaluation • November: Group meeting (TREC) to find out: • How well your site did • How others tackled the program • Many tracks are run by volunteers outside of NIST (e.g. Web) • “Coopetition” model of evaluation • Successful approaches generally adopted in next cycle

  7. Yearly Conference Cycle Collection

  8. TREC追求的四个目标 • 以大规模测试集为基础,推动信息检索的研究; • 经由开放式的论坛,使与会者能交流研究的成果与心得,以增进学术界、产业界与政府的交流互通; • 经由对真实检索环境的模拟与重要改进,加速将实验室研究技术转化为商业产品; • 发展适当且具应用性的评估技术,供各界遵循采用,包括开发更适用于现有系统的新的评估技术。

  9. SEWM2005评测任务 • 中文Web检索 • 主题提取 • 导航搜索方法 • 中文网页分类

  10. Web测试集的设计原则 • 测试集(test collection)就包括文档集(documents)、查询集(queries)和相关结果集(relevance judgments)三个部分。 • Web测试集设计中最基本的问题是:文档集|尽可能真实代表所要研究的对象 • 文档集应当是静态样本还是动态样本? • 在多大程度上可以成为研究对象的代表? • 为了使文档集能满足通用的或特定的研究目标,总体规模应当有多大?

  11. 测试集使用框架

  12. 主题提取(Topic Distillation) 目的是对于一个特定主题发现一组关键资源。注重以站点作为资源的查询。要求是在前十个结果中寻找尽可能多的不同站点(用它们的网站 的入口页面表示)。 例如对于主题‘linux’,在CWT100g中的下面站点可能被认为是关键资源: http://www.oldlinux.org/ linux org http://www.mhdn.net/os/29/ 明辉开发者网络 linux区 http://www.redflag-linux.com/ 红旗Linux 被判断为是一个关键资源,返回页面应该是一个站点的好的首页面。判断是否一个好的首页面,应该考查结果是否符合下面三个条件: 1)是否大部分切合主题; 2)提供主题的可靠的信息; 3)不是一个更大的切合主题站点的一部分。 对于'linux'这一主题,页面'www.mhdn.net' 不符合第一个条件,而页面'http://www.redflag-linux.com/chanpin/Desktop/index.html'不符合第三个条件。

  13. Topic示例: 主题提取(TD) <top> <num> Number: TD74 <title> C语言程序设计 </title> <desc> Description: 与C语言程序相关的程序,源码,论坛等 </top>

  14. Topic示例: 导航搜索(HP/NP) <top> <num>Number: NP383 <title>龙厨美食网</title> </top> <top> <num>Number: NP287 <title>“求职信”网络蠕虫病毒解决方案</title> </top>

  15. 构建相关结果集 • 工作形式,招募人员方式 • 初步评估:通过发布招募广告招募人员来完成 • 检查:招募天网组内的成员来完成 • 工作内容 • 针对75个TD,每个主题通过pooling给出了500个左右的URL • 组织人员 • 组织人:李静静 • 协助人:秦琦,郭化楠

  16. 2005年提交结果的参赛队

  17. TD评测结果 • 根据答案超过3个的60个主题各做评分

  18. NPHP评测结果 • 与给出答案具有相同MD5的结果都算正确结果

  19. 评测过程中FAQ • 发现一些网页在050722url.no中没有对应的编号。 • 对于相同网页内容,网页地址不同的问题 • 要求是在前十个结果中寻找尽可能多的不同站点(用它们的网站首页面表示),发现2004年给出的judgment有问题 • 关于输出格式的具体化规定 • ……

  20. 总结及讨论 • 测试集的改进 • 文档集 • CWT100g  CWT200g • 质量和发布形式 • 评测形式 • 评测任务的设定 • 查询集合和答案集合的生成

  21. 谢谢!

  22. 研讨会时间表 • 2个Overview, 四支队伍,大约每个报告40分钟,共计4小时 • 13:30-14:10 北大网络实验室,闫宏飞,2005评测Overview,记Web Track的Overview • 14:10-14:50 龚笔宏,中文网页分类Overview • 14:50-15:20 江西师范大学网络所,曾雪强,参加网页分类报告 • 15:20-16:50 华南理工大学,朱旭圻,参加网页分类报告 • 15:50-16:00 break • 16:00-16:40 北航软件所,曹勇刚,参加Web Track报告 • 16:40-17:20 北大计算机所,路斌,参加Web Track报告 • 17:20-18:00 华南理工大学木棉队, 欧健文,参加Web Track报告

More Related