210 likes | 409 Views
The Comprehensive Introduction to Maximum Entropy Model and Some Improvement Strategies of ME. Zhao Jian( 赵健) 2004-12-4 Zhaojian@insun.hit.edu.cn. Introduction to ME. What is ME Why is ME How to ME Some Discussion. What is Maximum Entropy.
E N D
The Comprehensive Introduction to Maximum Entropy Model and Some Improvement Strategies of ME Zhao Jian(赵健) 2004-12-4 Zhaojian@insun.hit.edu.cn
Introduction to ME • What is ME • Why is ME • How to ME • Some Discussion
What is Maximum Entropy • 最大熵模型是一种常用的分类方法,第一次由jaynes于1957年提出。正确认识最大熵模型需要注意以下几点 • 最大熵模型是一个有约束最优化问题 目标函数: s.t 1. 2. k=1,…,N i=1,…,m
What is ME • 最大熵模型是一种指数线性模型(exponential linear model)。通过对上述约束最优化问题采用lagrange求解,得到 • Thought in maximum entropy model:without any constraint, a system tends to be in uniform distribution. (知之为知之,不知为不知) • 最大熵模型是一种典型的统计与规则相结合的模型 特征模板的选择——人类专家的知识(规则) 特征权值的计算——统计
What is ME • 最大熵模型本身可以看作一种分类模型,同时它是一种可以融合多种其他分类方法的模型。 • 最大熵模型的实质是最大似然估计,可以从模型的约束条件可以看出 • 最大熵模型可以用于自然语言处理中的各种问题:Language Model、text classification、pos-tagging、NE tagging、parsing、sentence boundary detection、chunking、Prepositional Phrase Disambiguity • 最大熵模型中需要平滑,这个观点最近有人赞成,包括我 返回
Why is Maximum Entropy(only personal view) • Comparing ME with HMM 1. HMM 是一种产生式模型,产生式模型定义了一个标记和观测序列之间的联合概率P(c,s),,对于词性标注,名实体识别等而言,感兴趣的是条件概率p(c|s)。对联合概率分布而言:(1).需要列举出所有可能的观察序列S;(2).独立性假设; (3)适合产生观察序列的应用 2. 最大熵模型不是产生式模型 • Comparing ME with neural-network 以BP网络为例,(some simple description of BP ) 1.神经网络不适合做符号计算
Why is ME 2.当输入样本的维数太大,神经网络的隐藏层过多,无法计算; 3.BP网络需要调节的参数过多(隐层单元数,学习率,动量常数等),要确定这些参数往往需要大量的试验; 4.通常的BP网络中的连接权值是对样本空间的不同的维加权,粒度大
Why is ME • 对decision tree DT是常用的归纳学习方法,它是一种非度量方法(没有测量样本之间的距离度量,和NN不一样),适用于涉及语义数据(nominal data)(名义数据)的分类。一种典型的规则方法,通过学习最终形成合取范式形式的一系列规则表达式。常用的训练方法是ID3 1.DT 不适于大数据量的计算 2.对训练数据要求很高,噪声数据的影响大 3.树的剪枝策略,影响到泛化性能。 返回
How to ME • 和其它机器学习方法一样所共有的部分 (common part) • ME所特有的概念( special part for ME) • 应该注意的要点(important outline and further application)
Common part for all machine learning method • 特征采集(以名实体识别为例) 大多数情况下,我们需要处理的问题并不是已经形式化过的,即并没有把待处理数据表示为:x=(x1,…,xm),其中xi为x的第i个属性。因此,首先需要把一系列没有任何属性的样本转化为标准形式。在NE和POS-tagging中具体体现,这一步往往会涉及人类的先验知识 • 特征选择:对描述一个样本的特征进行选择,找出哪些特征最能具有描述力,也叫降维技术,通常有基于信息增益的、线性代数的(svd)、fish判别准则等等
Special part for maximum entropy 先给出用于ME的样例:这是来源于UCI上machine learning repository中的一个数据集Mushroom,每个样本有22个属性(不用进行特征采集)第一列是期望输出类别(P,E) ,部分样本如下: 例1: p,x,s,n,t,p,f,c,n,k,e,e,s,s,w,w,p,w,o,p,k,s,u e,x,s,y,t,a,f,c,b,k,e,c,s,s,w,w,p,w,o,p,n,n,g e,b,s,w,t,l,f,c,b,n,e,c,s,s,w,w,p,w,o,p,n,n,m p,x,y,w,t,p,f,c,n,n,e,e,s,s,w,w,p,w,o,p,k,s,u e,x,s,g,f,n,f,w,b,k,t,e,s,s,w,w,p,w,o,e,n,a,g e,x,y,y,t,a,f,c,b,n,e,c,s,s,w,w,p,w,o,p,k,n,g 注意:这是相互独立同分布的样本,不是sequence
Special part for maximum entropy 针对上面的例子,我们采用ME来学习和分类,为了下面的方面描述,先给出最大熵模型中用到的几个概念定义: 1.特征:常用最大熵模型采用二值特征,即 h是谓词。在实际的使用中,只存储那些值等于1也就是那些只在训练中出现的特征。从上面的公式可以看出,一个特征由两部分组成:1)输出类别;2)谓词
Special part for maximum entropy 2.谓词:正如上述公式中的h,被称为谓词(其值为真假)。一个样本的谓词由属性的类型和属性的值组成: 例1中,第一个样本可以有这样的谓词: 谓词1:h1(type=1, value=x)=ture; h2(type=1,value=b)=false; h3(type=2,value=s)=ture; h2(type=2,value=y)=false; 和特征一样,在实际使用时,只存储“真”的谓词。
有了谓词的定义,不难得出,一个特征有三个关键词来决定:属性的类型、属性的值和输出的类别,例如:有了谓词的定义,不难得出,一个特征有三个关键词来决定:属性的类型、属性的值和输出的类别,例如: f1: (type=1, value=x, output=p) f2: (type=1, value=x, output=e) f3: (type=1, value=b, output=e) f4: (type=1, value=s, output=p) 3.事件的定义:一个事件是由样本转换而来,由两部分构成:样本的标记(输出类别)和样本包含的谓词。注意两个事件相等的定义和样本相等的定义,特别是在NER中的区别
两个事件相等,是指事件的输出类别和事件中所有的谓词都相等。两个事件相等,是指事件的输出类别和事件中所有的谓词都相等。 • 在进行GIS迭代计算模型参数之前,必须遍历所有的样本,以形成整个样本空间、谓词空间、事件空间 • 参数计算方法(GIS)
迭代公式为 为方便计算,两边自然对数,得到 记 为 为 注意这里的C是一个常数,它是一个样本特征数的限制
设 i=1,…..,K,其中K为特征的总数。Pre0=0 GIS算法 1.循环(t=1—〉100) 2.计算t时刻模型的精度,Pret 1)循环所有的事件 2)用 计算事件的分类结果 3)根据模型输出与期望输出的差别计算该时刻模型精度 4)更新t时刻的各特征的模型期望(因为条件概率P(c|s) 改变了) 5)根据迭代公式,更新该时刻的特征权值
3.计算前后两个时刻的精度差delta=pre(t)-pre(t-1),如果delta=0,则退出循环,否则继续3.计算前后两个时刻的精度差delta=pre(t)-pre(t-1),如果delta=0,则退出循环,否则继续 需要注意的是: 1.为了满足前面提到的C常数的要求,我们需要添加一种称之为补偿特征的特殊特征,其经验期望的总共缺少的特征数的总和与事件总量的比值。 2.为了体现训练样本中标记的分布信息,往往还添加一种称之为却省特征的特殊特征,他们的经验期望是各类别中包含事件数与总事件数的比值
important outline and further application • GIS算法是一定收敛的,已经被证明 • 可以增加任意的特征,因为最大熵模型没有特征独立性的前提假设 • 模型的结果的好坏很大程度上在于特征选择的时候恰当,即是否抓住了真正能区分不同类别样本的本质; • 针对序列标记的问题可以演变为最大熵马尔科夫模型(MEMM),稍候介绍; • 重采样技术在最大熵模型中的使用;
最大熵模型和其他方法的stacking 技术; • 基于最大熵模型的模型融合方法和输出组合方法; 返回
THE END Thanks a storm of applause