1 / 16

文本分类中的类别信息特征选择方法

2006 年度全国搜索引擎和网上信息挖掘会议. 文本分类中的类别信息特征选择方法. 余俊英 王明文 盛俊 江西师范大学 2006 年 7 月 21 日. 提纲. 研究背景 基本思路 OCFS 算法 类别信息特征选择算法 实验结果 进一步工作. 研究背景. 文本分类的特点 数量巨大的训练样本 高特征维数 特征降维技术 特征提取:主成分分析、线性判别分析、潜在语义索引 特征选择:文档频数、信息增益、期望交叉熵、互信息、文本证据权、几率比、卡方统计量等 常用的特征选择方法存在的问题 卡方统计量和信息增益都是贪心算法,寻求满意解. 基本思路.

edda
Download Presentation

文本分类中的类别信息特征选择方法

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 2006年度全国搜索引擎和网上信息挖掘会议 文本分类中的类别信息特征选择方法 余俊英 王明文 盛俊 江西师范大学 2006年7月21日

  2. 提纲 • 研究背景 • 基本思路 • OCFS算法 • 类别信息特征选择算法 • 实验结果 • 进一步工作

  3. 研究背景 • 文本分类的特点 • 数量巨大的训练样本 • 高特征维数 • 特征降维技术 • 特征提取:主成分分析、线性判别分析、潜在语义索引 • 特征选择:文档频数、信息增益、期望交叉熵、互信息、文本证据权、几率比、卡方统计量等 • 常用的特征选择方法存在的问题 • 卡方统计量和信息增益都是贪心算法,寻求满意解

  4. 基本思路 正交质心算法 从特征选择的角度来优化特征提取算法 OCFS算法 考虑特征对类内分布的影响 类别信息特征选择

  5. 目标是:用一组特征来表示文档集合,在这组特征的表示下,类别与类别之间的分散程度达到最大,类别内文档的离散程度达到最小。目标是:用一组特征来表示文档集合,在这组特征的表示下,类别与类别之间的分散程度达到最大,类别内文档的离散程度达到最小。 • OCFS算法使得类别之间的离散程度最大,但是没有考虑类内文档的聚集程度。 • 利用LDA的两个目标函数来刻画类间分布与类内分布。优化这两个目标函数,并且进行综合,得到最后对特征评分函数(即特征对分类信息的贡献)

  6. LDA的目标函数 • 类间分布矩阵: • 类内分布矩阵:

  7. OCFS算法 • 思想:在OR算法的基础上,从特征选择的角度来优化特征抽取方法。 • OC算法目的是,通过对类别中心矩阵进行QR分解,从连续的空间中找到一个变换矩阵 ,使得文档向量 变换成(p<<d) • 定理:求OC算法的解等价于下面的优化问题,

  8. 从特征选择的角度考虑,在离散的空间求变换矩阵,便转换成这样一个优化问题: • 设为 二元矩阵,每列有且仅有一个非零元,则: (a) • 现在问题变成:找到p个特征,由这些特征生成的变换矩阵能够最大化(a)式,这等价于根据 找前p个最大值

  9. 类别信息特征选择 • OCFS算法仅仅考虑了特征对类间离散程度的贡献,而特征对类内离散程度的影响却被忽略。 • 这里,我们目的也是要找到一个变换矩阵 ,使得 最小,其中 • 由于 ,是一个二元矩阵,每列有且仅有一个非零元素,那么: • 只要根据 找前p个最小的即可

  10. 第一步:计算训练集中各个类别的质心 第二步:计算整个训练集文档的质心 第三步:计算各个特征对类间分布的贡献 第四步:计算各个特征对类内分布的贡献 第五步:计算各个特征的最终分数 第六步:在分数集合 中选取前 个数最大的特征

  11. 试验结果 • 文档集:Reuters-21578,共135类,保留训练集和测试集都有正例的90个类。 • 特征选择方法:卡方统计量、OCFS以及本文提出的类别信息特征选择方法。 • 特征权重:LTC权重 • 分类器:SVMLight以及KNN分类器 • 性能指标:宏平均F1和微平均F1

  12. 表2 SVM分类结果

  13. 进一步工作 • 当选取的特征数比较少的时候,微平均值相对比较低,特征的类内分布分数受那些稀有词的影响比较大,如何消除稀有词带来的噪音。 • 通过与投影寻踪或者是卡方统计量特征选择方法进行组合。 • 进一步合理化和优化类别信息的目标函数

  14. 请各位老师、同学指正谢谢!

More Related