sewm2006
Download
Skip this Video
Download Presentation
SEWM2006 中文网页分类评测 清华大学参赛队报告

Loading in 2 Seconds...

play fullscreen
1 / 20

SEWM2006 中文网页分类评测 清华大学参赛队报告 - PowerPoint PPT Presentation


  • 176 Views
  • Uploaded on

SEWM2006 中文网页分类评测 清华大学参赛队报告. 清华大学计算机科学与技术系 智能技术与系统国家重点实验室 徐舒 [email protected] 内容提纲. CWT200G 数据预处理 网页分类策略 未来工作及建议 参考文献. 数据预处理-总体设计. zlib 压缩存储 处理全部 200G 数据 保留原始网页的页面信息和链接关系 中间数据可用于对网页分类的进一步的研究. 数据预处理- HTML 解析( 1 ). 网页分类需要注意的几个问题: 直接应用纯文本分类策略效果很差 通常包含具有丰富语义信息的 Tag

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' SEWM2006 中文网页分类评测 清华大学参赛队报告' - tevy


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
sewm2006

SEWM2006中文网页分类评测清华大学参赛队报告

清华大学计算机科学与技术系

智能技术与系统国家重点实验室

徐舒

[email protected]

slide2
内容提纲
  • CWT200G数据预处理
  • 网页分类策略
  • 未来工作及建议
  • 参考文献
slide3
数据预处理-总体设计
  • zlib压缩存储
  • 处理全部200G数据
  • 保留原始网页的页面信息和链接关系
  • 中间数据可用于对网页分类的进一步的研究
html 1
数据预处理-HTML解析(1)
  • 网页分类需要注意的几个问题:
    • 直接应用纯文本分类策略效果很差
    • 通常包含具有丰富语义信息的Tag
    • 通常含有大量噪声
    • 可能包含多媒体信息而无确切的文本内容
  • 提取HTML中如下标签和属性:
    • <Title>
    • <METADATA> (keywords,description,etc),
    • <A> (Surrounding text)
    • 页面正文信息
  • 实现方法:
    • 基于Python的HTMLParser类,重载其中部分接口
html 2
数据预处理-HTML解析(2)
  • 编码转换:
    • 常用网页编码格式:
      • GBK/GB18030/GB2312(简体)
      • BIG-5(繁体)
      • UTF8/UTF16(通用)
    • 只处理BIG5,GBK和UTF-8三种编码
    • 统一转码成为GBK编码(编码转换库Libiconv)
    • 05年训练集中的编码数量统计:
      • BIG5:53,
      • UTF-8:6,
      • GBK:15457
slide6
数据预处理-信息抽取和去噪(1)
  • 在解析HTML的基础上进行
  • 表征同一网页的不同形式
  • 页面内部信息
    • 标题
    • META信息
    • 页面正文
    • 页面链接文本
  • Web结构信息
    • 链入文本聚合
slide7

数据预处理-信息抽取和去噪(2)

  • 过滤广告噪声(基于规则)
    • 无链接文字(AnchorText)
    • 链接文字周围没有非链接的文字
    • 链接文字中出现了给定的过滤关键词,例如“下一页”,“图铃”等
  • 缺乏可靠的抑制噪声的措施
  • 不直接删除广告信息,而是给出标记,由后续程序进一步判断
slide8
数据预处理-并行化
  • 海量数据,无进程间通信,易于并行处理
  • 申请使用清华大学计算机集群系统
    • 128台rx2600服务器作为计算节点 ,256 安腾CPU
    • RedHat Linux操作系统
    • 每秒13300亿次的峰值浮点运算能力
    • 实际使用:12节点,预处理用时:28小时
slide9
数据预处理-中间数据格式

.ID

CWT200G-DFHR23224

.URL

http://adminabc.bdwm.net/

.METADATA

@title:北大未明

.ANCHORDATA

首页

联系我们

.LINKSIN

@link:http://edu.sina.com @anchortext:北大未明

@surroundingtext:点击进入北大为名网站 @Use:Y

.LINKSOUT

@link:http://adminabc.bdwm.net/about.html @anchortext:关于我们

@surroundingtext: @Use:Y

.CONTENT

欢迎来到北大未明网站

.CLASSID

slide10
内容提纲
  • CWT200G数据预处理
  • 网页分类策略
  • 未来工作及建议
  • 参考文献
slide11
分类策略-综述
  • 基于纯文本分类策略
    • 向量空间模型
  • 采用SVM(libSVM)作为试验中统一使用的分类器
    • 特征的选择远比分类器本身重要
    • 良好的泛化能力
    • 由于训练后模型只需考虑支持向量,分类速度快
  • 特征和权重
    • 二元串(Bigram)作为特征
    • TF*IDF权重
    • CHI-square进行特征选择,70000维
slide12
分类策略-多特征融合
  • 多个来源,独立表征网页的信息的融合
  • 采用线性加权的方法融合
  • 使用插值法贪婪搜索确定各个特征的权重
  • 最终采用的融合策略(向量级特征融合):
slide13
分类策略-链接分析(1)
  • 网页间存在链接:主题存在一定关联
  • 分类完成基础上,简单的标签传播算法进行refine(20G)

Step1:给出20G目标网页集合中所有的网页分类标签,并给出分类的置信度。

Step2:对于那些进行了归一化之后分类置信度很低的网页,我们认为这些网页的分类结果是不可靠的,

Step3:对于上述所有置信度很低的网页,观察指向该网页的所有网页的分类结果,如果这些网页均为分类置信度很高的网页,并且在分类结果上有很强的内聚性,则将当前页面的分类标签更换为指向其的那些网页的分类结果。

slide14
分类策略-链接分析(2)

8类上的传播效果

11类上的传播效果

slide15
内容提纲
  • CWT200G数据预处理
  • 网页分类策略
  • 未来工作及建议
  • 参考文献
slide16
未来工作
  • 更加有效的页面去噪方法(VIPS,摘要等)
  • 更大规模的数据集上进行链接分析
  • 改进标签传播的算法
slide17
一些感想和建议
  • 8类的分类体系有些过于重叠:如娱乐和时尚
  • 用户调查(User Study)的结果:
    • 在05年的1100篇测试集上进行标注
    • 比较8类分类器的机器分类结果和用户标注
    • 存在用户和机器标注不一致但都合理的情况
    • 上述情形在分类置信度存在双峰时尤为突出:(73/1100)
  • 层次分类(Google Directory)?多标签?
slide18
内容提纲
  • CWT200G数据预处理
  • 网页分类策略
  • 未来工作及建议
  • 参考文献
slide19
参考文献
  • [1] G.R. Xue, Q, Yang H.J Zeng, Y,Yu and Z.Chen. Exploiting the Hierarchical Structure for Link Analysis The 28th Annual International ACM SIGIR conference on Research and Development in Information Retrieval (SIGIR\'2005), July 2005.
  • [2] D. Cai, X. F. He, J. R. Wen and W.Y. Ma. Block-level Link Analysis. The 27th Annual International ACM SIGIR conference on Research and Development in Information Retrieval (SIGIR\'2004), July 2004.
  • [3] Y.H.Hu and G.M.Xin. Title Extraction from Bodies of HTML Documents and its application to Web Page Retrieval
  • [4].J.Glover. Using Web Structure for Classifying and Describing Web Pages, www2002.
  • [5] J. F¨urnkranz. Exploiting structural information for text classification on the WWW. In Intelligent Data Analysis, pages 487–498, 1999.
  • [6] S. Chakrabarti, B. Dom, and P. Indyk. Enhanced hypertext categorization using hyperlinks. SIGMOD Record (ACMSpecial Interest Group on Management of Data), 27(2):307–318, June 1998.
  • [7] A. Blum and T. Mitchell. Combining labeled and unlabeled data with co-training. In COLT: Proceedings of theWorkshop on Computational Learning Theory, MorganKaufmann Publishers, 1998.
  • [8] Y. Yang, S. Slattery, and R. Ghani. A study of approaches to hypertext categorization. Journal of Intelligent InformationSystems. Kluwer Academic Press, (accepted), 2001.
ad