1 / 42

文本分类的信息论模型

文本分类的信息论模型. 段建国 2006-01-05. 内容安排. 基于互信息最大化的特征压缩算法 特征聚类 特征选择 文本分类的信息论模型 贝叶斯分类模型 基于 KL 距离的中心向量分类模型 文本分类的广义信息论模型 意义信息和加权熵. 第一部分. 基于互信息最大化的特征压缩算法. 互信息最大化准则. 离散随机变量 表示原始特征,可能的取值为 离散随机变量 表示新的特征,可能的取值为 离散随机变量 表示类别,可能的取值为 互信息最大化准则 互信息损失最小化准则. 互信息最大化的实现. 特征选择

ehren
Download Presentation

文本分类的信息论模型

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 文本分类的信息论模型 段建国 2006-01-05

  2. 内容安排 • 基于互信息最大化的特征压缩算法 • 特征聚类 • 特征选择 • 文本分类的信息论模型 • 贝叶斯分类模型 • 基于KL距离的中心向量分类模型 • 文本分类的广义信息论模型 • 意义信息和加权熵

  3. 第一部分 基于互信息最大化的特征压缩算法

  4. 互信息最大化准则 • 离散随机变量 表示原始特征,可能的取值为 • 离散随机变量 表示新的特征,可能的取值为 • 离散随机变量 表示类别,可能的取值为 • 互信息最大化准则 • 互信息损失最小化准则

  5. 互信息最大化的实现 • 特征选择 • 从一组特征中挑选出一些最有用的特征 • 特征聚类 • 将多个特征合并成一个新的抽象的特征 • 聚类的算法 • 凝聚式聚类方法 • 迭代式聚类方法 • 分解式聚类算法

  6. 参考文献 • 凝聚式聚类算法 • N. Slonim, N. Tishby, The power of word clusters for text classification. In 23rd European Colloquium on Information Retrieval Research (ECIR), 2001. • 迭代式聚类算法 • Inderjit S. Dhillon, Subramanyam Mallela, and Rahul Kumar, A Divisive Information-Theoretic Feature Clustering Algorithm for Text Classification, Journal of Machine Learning Research, 3(2003).

  7. 凝聚式聚类算法 • 首先,假定每个特征为一个类 • 然后循环选择两个类进行合并,选择的依据就是互信息损失最小化,互信息损失定义为 • 通过推导,得出互信息损失的具体表达式

  8. 迭代式聚类算法 • 采用硬聚类方法 • 特征聚类质量的衡量 • 聚类中心的分布

  9. 分解式聚类算法 • 再次分析特征聚类的质量 • 每个聚类的互信息损失 • 分解式聚类算法的基本思想。 • 每次选择互信息损失最大的特征类进行分解。

  10. 它山之石

  11. 互信最大化的特征选择算法 • 特征 与类别 之间的互信息为 • 特征 提供的关于类别的信息为 • 互信息最大化的特征选择的基本思想 • 以提供类别信息的多少作为特征选择的依据

  12. 与传统互信息方法对比 • 互信息最大化的特征选择 • 传统互信息 • “互信息的缺点是受临界特征的概率影响较大,从公式中可以看出,当特征的P(t|c)值相等时,稀有词比普通词的分值要高,因此,它造成了互信息评估函数经常倾向于选择稀有单词。然而对于文本分类而言,出现次数较多的单词比出现次数较少的单词具有更大的作用。” ——谭松波

  13. 与信息增益的相似性 • 信息增益也是一种互信息 • 不同点:离散随机变量的定义不同 • 互信息最大化:离散随机变量 表示原始特征,可能的取值为 • 信息增益:离散随机变量 表示原始特征,可能的取值为

  14. 与信息增益的相似性-2 互信息最大化 信息增益 对于每个特征t

  15. 实验结果 Tan-12语料库 贝叶斯法 中心向量法

  16. 实验结果-2 Reuters-36语料库 贝叶斯法 中心向量法

  17. 实验结果-3 NewsGroup20语料库 贝叶斯法 中心向量法

  18. 实验结果-4 Sector-48语料库 贝叶斯法 中心向量法

  19. 第二部分 文本分类的信息论模型

  20. 信息论基础 • 什么是信息? • 信息是事物运动状态或存在方式的不确定性的描述 • 自信息:完全消除不确定性,所需的信息 • 信息熵:信源的总体信息测度。

  21. 信息论基础-2 • 互信息:随机变量X和Y之间的平均互信息 • 接收到输出符号Y后获得的关于X的信息量的平均值 • 接收到输出符号Y后,随机变量X不确定性消除的量 • 互信息的计算

  22. 概率分布的距离 • Kullback-Leibler (KL)距离 • Jensen-Shannon (JS)距离 • 其中, , , ,

  23. (信宿) (信源) 分类器(信道) 文本分类的信息论模型 • 信源:文本类别 • 信道:分类器 • 信宿:特征 • 分类的依据:特征提供的关于各个类的信息

  24. 分类器构建 • 文本d中所有特征提供的关于各个类的信息 • 各类别的自信息 • 综合,得出分类依据

  25. 分类器构建-2 • 基于信息论的文本分类模型 其中, 称为类别修正因子 • 注意:p(t)的定义与传统意义不同

  26. 信息论模型的性质(一) • 定理1 当 =0时,基于信息论的分类模型与基于KL距离的中心向量分类模型等价,即: 证明:信息论模型可以转换为 上式右边第二项与类别无关,对于类别来说为常数。所以

  27. 信息论模型的性质(一)-2 若记 ,其中|d|为文本 中所有特征的频数之和,则 于是,得 证毕

  28. 信息论模型的性质(二) • 定理2 当 =1时,基于信息论的分类模型与朴素贝叶斯分类模型等价,即:

  29. 信息论模型的性质(二)-2 证明:因为 为单调递增函数,所以可以在朴素贝叶斯分类模型前取函数,即 证毕

  30. Reuters-36语料库上信息论模型与中心向量两种分类算法的性能比较Reuters-36语料库上信息论模型与中心向量两种分类算法的性能比较 Tan-12语料库上信息论模型与中心向量两种分类算法的性能比较 实验结果

  31. 第三部分 文本分类的广义信息论模型

  32. 意义信息 • 意义信息 • 对消息的主观价值和主观意义的度量 • 对每一个事件a指定一个非负实数w,这组实数称为事件的权重。 • 意义信息的度量

  33. 加权熵和意义互信息 • 加权熵:对整个信源不确定性的度量 • 意义互信息

  34. 广义信息论分类模型 • 广义信息论的分类模型为 • 与信息论模型比较 • 在广义信息论模型中,每个特征都有一个权重w • 当所有特征的权重都为1时,广义信息论分类模型与信息论分类模型等价

  35. 特征权重的学习算法

  36. 特征权重的学习算法的特点 • 基于错误驱动的学习算法 • 通过训练集得到概率分布p(t|c), p(t)和p(c)等 • 通过错误样本学习权重w • 权重学习的过程是一个迭代的过程 • 权重变化函数 • IncWeight(), DecWeight() • 可以定义不同形式的权重变化函数

  37. 权重变化函数 • 常数函数 • 倒数函数 • 冷却函数

  38. 三种权重变化函数的比较 • 参数设定 • 运用互信息最大化特征选择算法,选择10000特征 • 常数函数中, • 倒数函数中, • 冷却函数中, • 实验过程 • 每一步迭代结束中,检查训练集和测试集上错分的文本数

  39. 实验结果(Tan-12)

  40. 实验结果(Sector-48)

  41. 宏平均和微平均

  42. 谢谢!

More Related