420 likes | 601 Views
文本分类的信息论模型. 段建国 2006-01-05. 内容安排. 基于互信息最大化的特征压缩算法 特征聚类 特征选择 文本分类的信息论模型 贝叶斯分类模型 基于 KL 距离的中心向量分类模型 文本分类的广义信息论模型 意义信息和加权熵. 第一部分. 基于互信息最大化的特征压缩算法. 互信息最大化准则. 离散随机变量 表示原始特征,可能的取值为 离散随机变量 表示新的特征,可能的取值为 离散随机变量 表示类别,可能的取值为 互信息最大化准则 互信息损失最小化准则. 互信息最大化的实现. 特征选择
E N D
文本分类的信息论模型 段建国 2006-01-05
内容安排 • 基于互信息最大化的特征压缩算法 • 特征聚类 • 特征选择 • 文本分类的信息论模型 • 贝叶斯分类模型 • 基于KL距离的中心向量分类模型 • 文本分类的广义信息论模型 • 意义信息和加权熵
第一部分 基于互信息最大化的特征压缩算法
互信息最大化准则 • 离散随机变量 表示原始特征,可能的取值为 • 离散随机变量 表示新的特征,可能的取值为 • 离散随机变量 表示类别,可能的取值为 • 互信息最大化准则 • 互信息损失最小化准则
互信息最大化的实现 • 特征选择 • 从一组特征中挑选出一些最有用的特征 • 特征聚类 • 将多个特征合并成一个新的抽象的特征 • 聚类的算法 • 凝聚式聚类方法 • 迭代式聚类方法 • 分解式聚类算法
参考文献 • 凝聚式聚类算法 • N. Slonim, N. Tishby, The power of word clusters for text classification. In 23rd European Colloquium on Information Retrieval Research (ECIR), 2001. • 迭代式聚类算法 • Inderjit S. Dhillon, Subramanyam Mallela, and Rahul Kumar, A Divisive Information-Theoretic Feature Clustering Algorithm for Text Classification, Journal of Machine Learning Research, 3(2003).
凝聚式聚类算法 • 首先,假定每个特征为一个类 • 然后循环选择两个类进行合并,选择的依据就是互信息损失最小化,互信息损失定义为 • 通过推导,得出互信息损失的具体表达式
迭代式聚类算法 • 采用硬聚类方法 • 特征聚类质量的衡量 • 聚类中心的分布
分解式聚类算法 • 再次分析特征聚类的质量 • 每个聚类的互信息损失 • 分解式聚类算法的基本思想。 • 每次选择互信息损失最大的特征类进行分解。
互信最大化的特征选择算法 • 特征 与类别 之间的互信息为 • 特征 提供的关于类别的信息为 • 互信息最大化的特征选择的基本思想 • 以提供类别信息的多少作为特征选择的依据
与传统互信息方法对比 • 互信息最大化的特征选择 • 传统互信息 • “互信息的缺点是受临界特征的概率影响较大,从公式中可以看出,当特征的P(t|c)值相等时,稀有词比普通词的分值要高,因此,它造成了互信息评估函数经常倾向于选择稀有单词。然而对于文本分类而言,出现次数较多的单词比出现次数较少的单词具有更大的作用。” ——谭松波
与信息增益的相似性 • 信息增益也是一种互信息 • 不同点:离散随机变量的定义不同 • 互信息最大化:离散随机变量 表示原始特征,可能的取值为 • 信息增益:离散随机变量 表示原始特征,可能的取值为
与信息增益的相似性-2 互信息最大化 信息增益 对于每个特征t
实验结果 Tan-12语料库 贝叶斯法 中心向量法
实验结果-2 Reuters-36语料库 贝叶斯法 中心向量法
实验结果-3 NewsGroup20语料库 贝叶斯法 中心向量法
实验结果-4 Sector-48语料库 贝叶斯法 中心向量法
第二部分 文本分类的信息论模型
信息论基础 • 什么是信息? • 信息是事物运动状态或存在方式的不确定性的描述 • 自信息:完全消除不确定性,所需的信息 • 信息熵:信源的总体信息测度。
信息论基础-2 • 互信息:随机变量X和Y之间的平均互信息 • 接收到输出符号Y后获得的关于X的信息量的平均值 • 接收到输出符号Y后,随机变量X不确定性消除的量 • 互信息的计算
概率分布的距离 • Kullback-Leibler (KL)距离 • Jensen-Shannon (JS)距离 • 其中, , , ,
(信宿) (信源) 分类器(信道) 文本分类的信息论模型 • 信源:文本类别 • 信道:分类器 • 信宿:特征 • 分类的依据:特征提供的关于各个类的信息
分类器构建 • 文本d中所有特征提供的关于各个类的信息 • 各类别的自信息 • 综合,得出分类依据
分类器构建-2 • 基于信息论的文本分类模型 其中, 称为类别修正因子 • 注意:p(t)的定义与传统意义不同
信息论模型的性质(一) • 定理1 当 =0时,基于信息论的分类模型与基于KL距离的中心向量分类模型等价,即: 证明:信息论模型可以转换为 上式右边第二项与类别无关,对于类别来说为常数。所以
信息论模型的性质(一)-2 若记 ,其中|d|为文本 中所有特征的频数之和,则 于是,得 证毕
信息论模型的性质(二) • 定理2 当 =1时,基于信息论的分类模型与朴素贝叶斯分类模型等价,即:
信息论模型的性质(二)-2 证明:因为 为单调递增函数,所以可以在朴素贝叶斯分类模型前取函数,即 证毕
Reuters-36语料库上信息论模型与中心向量两种分类算法的性能比较Reuters-36语料库上信息论模型与中心向量两种分类算法的性能比较 Tan-12语料库上信息论模型与中心向量两种分类算法的性能比较 实验结果
第三部分 文本分类的广义信息论模型
意义信息 • 意义信息 • 对消息的主观价值和主观意义的度量 • 对每一个事件a指定一个非负实数w,这组实数称为事件的权重。 • 意义信息的度量
加权熵和意义互信息 • 加权熵:对整个信源不确定性的度量 • 意义互信息
广义信息论分类模型 • 广义信息论的分类模型为 • 与信息论模型比较 • 在广义信息论模型中,每个特征都有一个权重w • 当所有特征的权重都为1时,广义信息论分类模型与信息论分类模型等价
特征权重的学习算法的特点 • 基于错误驱动的学习算法 • 通过训练集得到概率分布p(t|c), p(t)和p(c)等 • 通过错误样本学习权重w • 权重学习的过程是一个迭代的过程 • 权重变化函数 • IncWeight(), DecWeight() • 可以定义不同形式的权重变化函数
权重变化函数 • 常数函数 • 倒数函数 • 冷却函数
三种权重变化函数的比较 • 参数设定 • 运用互信息最大化特征选择算法,选择10000特征 • 常数函数中, • 倒数函数中, • 冷却函数中, • 实验过程 • 每一步迭代结束中,检查训练集和测试集上错分的文本数