160 likes | 331 Views
2006 年度全国搜索引擎和网上信息挖掘会议. 文本分类中的类别信息特征选择方法. 余俊英 王明文 盛俊 江西师范大学 2006 年 7 月 21 日. 提纲. 研究背景 基本思路 OCFS 算法 类别信息特征选择算法 实验结果 进一步工作. 研究背景. 文本分类的特点 数量巨大的训练样本 高特征维数 特征降维技术 特征提取:主成分分析、线性判别分析、潜在语义索引 特征选择:文档频数、信息增益、期望交叉熵、互信息、文本证据权、几率比、卡方统计量等 常用的特征选择方法存在的问题 卡方统计量和信息增益都是贪心算法,寻求满意解. 基本思路.
E N D
2006年度全国搜索引擎和网上信息挖掘会议 文本分类中的类别信息特征选择方法 余俊英 王明文 盛俊 江西师范大学 2006年7月21日
提纲 • 研究背景 • 基本思路 • OCFS算法 • 类别信息特征选择算法 • 实验结果 • 进一步工作
研究背景 • 文本分类的特点 • 数量巨大的训练样本 • 高特征维数 • 特征降维技术 • 特征提取:主成分分析、线性判别分析、潜在语义索引 • 特征选择:文档频数、信息增益、期望交叉熵、互信息、文本证据权、几率比、卡方统计量等 • 常用的特征选择方法存在的问题 • 卡方统计量和信息增益都是贪心算法,寻求满意解
基本思路 正交质心算法 从特征选择的角度来优化特征提取算法 OCFS算法 考虑特征对类内分布的影响 类别信息特征选择
目标是:用一组特征来表示文档集合,在这组特征的表示下,类别与类别之间的分散程度达到最大,类别内文档的离散程度达到最小。目标是:用一组特征来表示文档集合,在这组特征的表示下,类别与类别之间的分散程度达到最大,类别内文档的离散程度达到最小。 • OCFS算法使得类别之间的离散程度最大,但是没有考虑类内文档的聚集程度。 • 利用LDA的两个目标函数来刻画类间分布与类内分布。优化这两个目标函数,并且进行综合,得到最后对特征评分函数(即特征对分类信息的贡献)
LDA的目标函数 • 类间分布矩阵: • 类内分布矩阵:
OCFS算法 • 思想:在OR算法的基础上,从特征选择的角度来优化特征抽取方法。 • OC算法目的是,通过对类别中心矩阵进行QR分解,从连续的空间中找到一个变换矩阵 ,使得文档向量 变换成(p<<d) • 定理:求OC算法的解等价于下面的优化问题,
从特征选择的角度考虑,在离散的空间求变换矩阵,便转换成这样一个优化问题: • 设为 二元矩阵,每列有且仅有一个非零元,则: (a) • 现在问题变成:找到p个特征,由这些特征生成的变换矩阵能够最大化(a)式,这等价于根据 找前p个最大值
类别信息特征选择 • OCFS算法仅仅考虑了特征对类间离散程度的贡献,而特征对类内离散程度的影响却被忽略。 • 这里,我们目的也是要找到一个变换矩阵 ,使得 最小,其中 • 由于 ,是一个二元矩阵,每列有且仅有一个非零元素,那么: • 只要根据 找前p个最小的即可
第一步:计算训练集中各个类别的质心 第二步:计算整个训练集文档的质心 第三步:计算各个特征对类间分布的贡献 第四步:计算各个特征对类内分布的贡献 第五步:计算各个特征的最终分数 第六步:在分数集合 中选取前 个数最大的特征
试验结果 • 文档集:Reuters-21578,共135类,保留训练集和测试集都有正例的90个类。 • 特征选择方法:卡方统计量、OCFS以及本文提出的类别信息特征选择方法。 • 特征权重:LTC权重 • 分类器:SVMLight以及KNN分类器 • 性能指标:宏平均F1和微平均F1
进一步工作 • 当选取的特征数比较少的时候,微平均值相对比较低,特征的类内分布分数受那些稀有词的影响比较大,如何消除稀有词带来的噪音。 • 通过与投影寻踪或者是卡方统计量特征选择方法进行组合。 • 进一步合理化和优化类别信息的目标函数