1 / 13

SEWM'07 中文网页分类评测

SEWM'07 中文网页分类评测. 龚笔宏 , gbh@net.pku.edu.cn 北京大学网络与分布式系统实验室 2007-03. 主要内容. SEWM’07 网页分类评测 评测的结果及分析 总结及讨论. 1.SEWM’07 CCT 评测. 目的: SEWM ’ 05,06 CCT 测试集的做法 随机挑选大约 3,000 个页面 剔除文字少、内容含糊、无明确类别归属的网页 每类平均 100 个测试页面 在原有的评测上加大难度 对测试页面选择的,完全随机,页面质量参次不齐 . 存在类别为空的情况。. 1.SEWM’07 CCT 评测. 数据集准备:

wynona
Download Presentation

SEWM'07 中文网页分类评测

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. SEWM'07中文网页分类评测 龚笔宏,gbh@net.pku.edu.cn 北京大学网络与分布式系统实验室 2007-03

  2. 主要内容 • SEWM’07网页分类评测 • 评测的结果及分析 • 总结及讨论

  3. 1.SEWM’07 CCT评测 • 目的: • SEWM’05,06 CCT测试集的做法 • 随机挑选大约3,000个页面 • 剔除文字少、内容含糊、无明确类别归属的网页 • 每类平均100个测试页面 • 在原有的评测上加大难度 • 对测试页面选择的,完全随机,页面质量参次不齐. • 存在类别为空的情况。

  4. 1.SEWM’07 CCT评测 • 数据集准备: • 在CWT20G中随机选择1000个页面 • 人工对其进行分类 • 测试集特性: • “娱乐与休闲”占了28%的测试页面,其次为 “计算机”,“商业与经济” • 无类别的页面 约20%,主要是: • 空页面 • 论坛登陆页面 • 论坛出错页面 • 平均网页大小 24.9k 5.49k~631k. SEWM’05 26.8k/30.3k

  5. 1.SEWM’07 CCT评测

  6. 1.SEWM’07 CCT评测 • 评测指标:主要有精度presicion,召回率recall,宏观F1值 –增加“其他”类 • P值 其中 是经分类系统输出分类结果为第i类的文档个数, 是在中分类正确的文档个数。 • R值 其中 为所有测试文档中,属于第i类的文档个数; 是经分类系统输出分类结果为第i类且结果正确的文档个数 • F1值

  7. 2.评测的结果及分析 已提交结果的队伍:

  8. 剔除了“无类别”测试页面后:

  9. 2.评测的结果及分析 • 今年的评测: • 分类平均质量不如往年,可能的原因 • 测试页面噪音多,文字少,分类难度加大 • “无类别页面“的处理

  10. 3.总结及讨论 • 测试页面的选取 • 不加挑选,以符合真实情况 • 对主页型页面的分类确定 • 对”无类别“页面的确定

  11. 谢谢!

More Related