The Comprehensive Introduction to Maximum Entropy Model and Some Improvement Strategies of ME

The Comprehensive Introduction to Maximum Entropy Model and Some Improvement Strategies of ME Zhao Jian(赵健） 2004-12-4 Zhaojian@insun.hit.edu.cn

Introduction to ME • What is ME • Why is ME • How to ME • Some Discussion

What is Maximum Entropy • 最大熵模型是一种常用的分类方法，第一次由jaynes于1957年提出。正确认识最大熵模型需要注意以下几点 • 最大熵模型是一个有约束最优化问题目标函数： s.t 1. 2. k=1,…,N i=1,…,m

What is ME • 最大熵模型是一种指数线性模型（exponential linear model）。通过对上述约束最优化问题采用lagrange求解,得到 • Thought in maximum entropy model：without any constraint, a system tends to be in uniform distribution. （知之为知之，不知为不知） • 最大熵模型是一种典型的统计与规则相结合的模型特征模板的选择——人类专家的知识（规则）特征权值的计算——统计

What is ME • 最大熵模型本身可以看作一种分类模型，同时它是一种可以融合多种其他分类方法的模型。 • 最大熵模型的实质是最大似然估计，可以从模型的约束条件可以看出 • 最大熵模型可以用于自然语言处理中的各种问题：Language Model、text classification、pos-tagging、NE tagging、parsing、sentence boundary detection、chunking、Prepositional Phrase Disambiguity • 最大熵模型中需要平滑，这个观点最近有人赞成，包括我 返回

Why is Maximum Entropy（only personal view) • Comparing ME with HMM 1. HMM 是一种产生式模型，产生式模型定义了一个标记和观测序列之间的联合概率P(c,s),，对于词性标注，名实体识别等而言，感兴趣的是条件概率p(c|s)。对联合概率分布而言：(1).需要列举出所有可能的观察序列S；（2）.独立性假设；（3）适合产生观察序列的应用 2. 最大熵模型不是产生式模型 • Comparing ME with neural-network 以BP网络为例，（some simple description of BP ) 1.神经网络不适合做符号计算

Why is ME 2.当输入样本的维数太大，神经网络的隐藏层过多，无法计算； 3.BP网络需要调节的参数过多（隐层单元数，学习率，动量常数等），要确定这些参数往往需要大量的试验； 4.通常的BP网络中的连接权值是对样本空间的不同的维加权，粒度大

Why is ME • 对decision tree DT是常用的归纳学习方法，它是一种非度量方法（没有测量样本之间的距离度量，和NN不一样），适用于涉及语义数据（nominal data）（名义数据）的分类。一种典型的规则方法，通过学习最终形成合取范式形式的一系列规则表达式。常用的训练方法是ID3 1.DT 不适于大数据量的计算 2.对训练数据要求很高，噪声数据的影响大 3.树的剪枝策略，影响到泛化性能。返回

How to ME • 和其它机器学习方法一样所共有的部分（common part） • ME所特有的概念( special part for ME) • 应该注意的要点（important outline and further application）

Common part for all machine learning method • 特征采集（以名实体识别为例）大多数情况下，我们需要处理的问题并不是已经形式化过的，即并没有把待处理数据表示为：x=(x1,…,xm），其中xi为x的第i个属性。因此，首先需要把一系列没有任何属性的样本转化为标准形式。在NE和POS-tagging中具体体现，这一步往往会涉及人类的先验知识 • 特征选择：对描述一个样本的特征进行选择，找出哪些特征最能具有描述力，也叫降维技术，通常有基于信息增益的、线性代数的(svd)、fish判别准则等等

Special part for maximum entropy 先给出用于ME的样例：这是来源于UCI上machine learning repository中的一个数据集Mushroom，每个样本有22个属性（不用进行特征采集）第一列是期望输出类别（P,E) ，部分样本如下：例1： p,x,s,n,t,p,f,c,n,k,e,e,s,s,w,w,p,w,o,p,k,s,u e,x,s,y,t,a,f,c,b,k,e,c,s,s,w,w,p,w,o,p,n,n,g e,b,s,w,t,l,f,c,b,n,e,c,s,s,w,w,p,w,o,p,n,n,m p,x,y,w,t,p,f,c,n,n,e,e,s,s,w,w,p,w,o,p,k,s,u e,x,s,g,f,n,f,w,b,k,t,e,s,s,w,w,p,w,o,e,n,a,g e,x,y,y,t,a,f,c,b,n,e,c,s,s,w,w,p,w,o,p,k,n,g 注意：这是相互独立同分布的样本，不是sequence

Special part for maximum entropy 针对上面的例子，我们采用ME来学习和分类，为了下面的方面描述，先给出最大熵模型中用到的几个概念定义： 1.特征：常用最大熵模型采用二值特征，即 h是谓词。在实际的使用中，只存储那些值等于1也就是那些只在训练中出现的特征。从上面的公式可以看出，一个特征由两部分组成：1）输出类别；2）谓词

Special part for maximum entropy 2.谓词：正如上述公式中的h，被称为谓词（其值为真假）。一个样本的谓词由属性的类型和属性的值组成：例1中，第一个样本可以有这样的谓词：谓词1：h1(type=1, value=x)=ture; h2(type=1,value=b)=false; h3(type=2,value=s)=ture; h2(type=2,value=y)=false; 和特征一样，在实际使用时，只存储“真”的谓词。

有了谓词的定义，不难得出，一个特征有三个关键词来决定：属性的类型、属性的值和输出的类别，例如：有了谓词的定义，不难得出，一个特征有三个关键词来决定：属性的类型、属性的值和输出的类别，例如： f1: (type=1, value=x, output=p) f2: (type=1, value=x, output=e) f3: (type=1, value=b, output=e) f4: (type=1, value=s, output=p) 3.事件的定义：一个事件是由样本转换而来，由两部分构成：样本的标记（输出类别）和样本包含的谓词。注意两个事件相等的定义和样本相等的定义，特别是在NER中的区别

两个事件相等，是指事件的输出类别和事件中所有的谓词都相等。两个事件相等，是指事件的输出类别和事件中所有的谓词都相等。 • 在进行GIS迭代计算模型参数之前，必须遍历所有的样本，以形成整个样本空间、谓词空间、事件空间 • 参数计算方法（GIS）

迭代公式为 为方便计算，两边自然对数，得到记为为注意这里的C是一个常数，它是一个样本特征数的限制

设 i=1,…..,K,其中K为特征的总数。Pre0=0 GIS算法 1.循环（t=1—〉100） 2.计算t时刻模型的精度，Pret 1)循环所有的事件 2）用计算事件的分类结果 3）根据模型输出与期望输出的差别计算该时刻模型精度 4）更新t时刻的各特征的模型期望（因为条件概率P(c|s) 改变了） 5）根据迭代公式，更新该时刻的特征权值

3.计算前后两个时刻的精度差delta=pre(t)-pre(t-1)，如果delta=0,则退出循环，否则继续3.计算前后两个时刻的精度差delta=pre(t)-pre(t-1)，如果delta=0,则退出循环，否则继续需要注意的是： 1.为了满足前面提到的C常数的要求，我们需要添加一种称之为补偿特征的特殊特征，其经验期望的总共缺少的特征数的总和与事件总量的比值。 2.为了体现训练样本中标记的分布信息，往往还添加一种称之为却省特征的特殊特征，他们的经验期望是各类别中包含事件数与总事件数的比值

important outline and further application • GIS算法是一定收敛的，已经被证明 • 可以增加任意的特征，因为最大熵模型没有特征独立性的前提假设 • 模型的结果的好坏很大程度上在于特征选择的时候恰当，即是否抓住了真正能区分不同类别样本的本质； • 针对序列标记的问题可以演变为最大熵马尔科夫模型（MEMM），稍候介绍； • 重采样技术在最大熵模型中的使用；

最大熵模型和其他方法的stacking 技术； • 基于最大熵模型的模型融合方法和输出组合方法；返回

THE END Thanks a storm of applause

The Comprehensive Introduction to Maximum Entropy Model and Some Improvement Strategies of ME

The Comprehensive Introduction to Maximum Entropy Model and Some Improvement Strategies of ME

Presentation Transcript

Maximum Entropy (ME) Maximum Entropy Markov Model (MEMM) Conditional Random Field (CRF )

Part-of-Speech Tagging and Chunking with Maximum Entropy Model

Maximum Entropy Model (I)

Maximum Entropy

MaxImum entropy

Maximum Entropy

Maximum Entropy Model (I)

Maximum Entropy Model (II)

*Introduction to Natural Language Processing (600.465) Maximum Entropy

Introduction to Entropy

Maximum Entropy Model

Segmentation via Maximum Entropy Model

The Maximum-Entropy Stewpot

Maximum Entropy Discrimination

Maximum Entropy, Maximum Entropy Production and their Application to Physics and Biology

Chapter 6. Hidden Markov and Maximum Entropy Model

Maximum Entropy Model

MAXIMUM ENTROPY MARKOV MODEL

Field evaluation of the Maximum Entropy Production model

Maximum Entropy

Maximum Entropy, Maximum Entropy Production and their Application to Physics and Biology

Maximum Entropy Model (II)