信息论专题

信息论专题 主讲：张龙凯

概率论基础 信息论基础应用提纲

随机事件: 在一定条件下,可能发生也可能不发生的试验结果称为随机事件，简称事件，一般用大写字母A,B,C,…表示。随机事件是否有规律性？随机事件有两个特殊情况，必然事件不可能事件随机事件

事件A和B同时发生的事件，称为A与B的积，记作AB。事件A和B同时发生的事件，称为A与B的积，记作AB。事件A或事件B发生的事件，称为A与B的和，记作A+B。互斥：事件A与B不可能同时发生，即AB是不可能事件，则称A与B是互斥的。对立：事件A与B互斥，并且每次试验中不是出现A 就是出现B，则称B为A的对立事件。随机事件的关系

概率:事件A 发生的可能性大小称为事件的概率，记作P(A) 回忆刚才所讲的频率例：扔5次硬币，3次正面朝上扔100次硬币，49次正面朝上扔1000次硬币，505次正面朝上概率

0 ≤P(A)≤1。 P(必然事件)=1。 P(不可能事件)=0。若A1,A2,…,An 两两互斥，则P(A1+A2+…+An)=P(A1)+P(A2)+…+P(An)。若 A⊃B，则P(A)≥P(B)。对任意事件 A，P(A) =1− P( )。概率的性质

条件概率在事件 B 发生的条件下，事件A 发生的概率称为事件A 在事件B 已发生的条件下的条件概率，记作P(A|B)。一般而言，条件概率P(A|B)与概率P(A)是不等的。但在某些情况下，它们是相等的。根据条件概率的定义和乘法公式有P(AB)=P(A)P(B),这时，称事件A 与B 相互独立的。条件概率

贝叶斯公式

信源：信息来源。 离散信源连续信源通常用随机变量X来表示一个离散信源思考：当信源发出某个信号x时，它提供了多少信息？进一步思考：什么样的事件信息更多？信源

事件的不确定性决定了信息的多少 我们用自信息I(x)来表示事件x所具有的信息，那么I(x)应该是p(x)的一个函数。思考：I(x)应该有哪些性质？非负性：I(x) ≥ 0 P(x)=0,I(x)=+∞;P(x)=1,I(x)=0 单调性：若p(x) > p(y) ，那么I(x) < I(y) 若p(x,y) = p(x)p(y)，那么I(xy) = I(x) + I(y) 自信息

实例：假定有一个房间中有时没有人，有时甲在房间中，有时乙在房间中，有时甲乙都在房间中，房间状态服从下面的概率分布实例：假定有一个房间中有时没有人，有时甲在房间中，有时乙在房间中，有时甲乙都在房间中，房间状态服从下面的概率分布某人受命监视房间，每五分钟记录一次房间状态，并经一个通讯设备将房间状态发送出去。问题：状态如何编码？最优编码

一种可行的定长编码方案：用00 表示没有人在房间中，01 表示甲在房间中，10 表示乙在房间中，11 表示甲乙两人均在在房间中。按照这样的编码，发送一个消息所需要的码的长度为2，平均发送一个消息需要2个二进制位。思考：有没有一种更短的编码方式？最优编码

如果消息x 的概率为p(x)，则给其分配一个长度为⌈−log2p(x)⌉个二进制位的编码平均发送一个消息所需要的编码的长度（以二进制位衡量）：最优编码

熵 • 假定一种语言P有6个字母p、t、k、a、i、u，每个字母的概率为：

联合熵与条件熵

H(X)和H(X|Y) 的差称为互信息，一般记作I(X;Y)。I(X;Y)描述了包含在X 中的有关Y 的信息量，或包含在Y 中的有关X 的信息量。

如何量化互信息？ 互信息

点间互信息 • 更为常用的是两个具体事件之间的 • 我们常说的“互信息”，一般称之为点间互信息。 • 点间互信息：事件x, y之间的互信息定义为: • 点间互信息度量两个具体事件之间的相关程度 • 当时I(x,y)>>0，x和y高度相关。 • 当时I(x,y)=0，x和y高度相互独立。 • 当时I(x,y)<<0，x和y呈互补分布

思考，假设有两个因素I：吸烟因素、II：呼吸道病因素。思考，假设有两个因素I：吸烟因素、II：呼吸道病因素。因素I分两个水平。A：吸烟；Ā：不吸烟因素II分两个水平。B：患呼吸道疾病；：患呼吸道疾病。

反证法：假设两个因素是无关的。我们求出在此假设下a、b、c、d理论上的值，用a’、b’、c’、d’表示反证法：假设两个因素是无关的。我们求出在此假设下a、b、c、d理论上的值，用a’、b’、c’、d’表示如果假设成立，那么a’、b’、c’、d’应该和我们的实验值（即表中真实a、b、c、d ）相差不大思考：如何鉴别差异“很大”还是“不大”？

化简后得到卡方统计量的计算公式 卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度。实际观测值与理论推断值之间的偏离程度就决定卡方值的大小卡方值越大，越不符合，偏差越小卡方值就越小，越趋于符合卡方统计量

应用1：词表建立 • 为什么需要自动建立词表？ • 不自动建立，难 • 自动建立，诱惑力大 • 葡萄、忏悔 • 共现频率 • 互信息 • 卡方

应用2：中文人名识别 在汉语的未登录词中，中国人名是规律性最强，也是最容易识别的一类；中国人名一般由以下部分组合而成： –姓：张、王、李、刘、诸葛、西门 –名：李素丽，王杰、诸葛亮例句：张三说的确实在理歧义 “张三说的确实在理” “李四买了一张三角桌子”

命名实体 • 命名实体：人名、机构名、地名以及其他所有以名称为标识的实体。 • 更广泛的实体还包括数字、日期、货币、地址等。 • 思考，如何识别地名？ • 命名实体识别（NER）是最近比较热门的问题

应用3：中文分词

中文分词的意义 信息检索切分有助于提高信息检索的准确率，如：和服务于三日后裁制完毕，并呈送将军府中。王府饭店的设施和服务是一流的。词语的计量分析词频统计(汉语中最常用的词是哪个词？) 汉语切词也是深层汉语分析的基础句法分析、语义分析等

中文分词的基本方法 最大匹配法(MM) 正向最大匹配法(MM) 逆向最大匹配法(RMM) 例子：提高人民生水平例子输入:企业要真正具有用工的自主权 MM:企业/要/真正/具有/用工/的/自主/权 RMM:企业/要/真正/具有/用工/的/自/主权

中文分词主要问题 切分歧义（消解）一个字串有不止一种切分结果未登录词识别专有名词新词

双向最大匹配 双向最大匹配(MM+RMM) 同时采用MM法和RMM法若果MM法和RMM法给出同样的结果，则认为没有歧义，若不同，则认为发生了歧义。输入:企业要真正具有用工的自主权 MM:企业/要/真正/具有/用工/的/自主/权 RMM:企业/要/真正/具有/用工/的/自/主权思考：上面所列的分词方法有什么缺陷？

基于统计的分词方法 • “葡萄”，为什么是“葡萄”？ • 无词典分词法（也叫统计分词方法） • 例：企业要真正具有用工的自主权 • 第一步：将句子打散成单字 • 企业要真正具有用工的自主权 • 第二步：计算相邻两语言单位互信息，将互信息值超过一定阈值的相邻语言单位合并 • 重复第二步知道没有两个语言单位的互信息超过阈值。 • 贪心策略，自下而上

“我在读一本______” 给定一个句子中前面n-1个字，预测下面的字是哪个字。由于语言的规律性，句子中前面出现的字/词对后面可能出现的字/词有很强的预示作用。这种预示作用同样可以应用在汉语分词中。例：我爱北京天安门另一种贪心方法

n 较大时 提供了更多的语境信息，语境更具区别性但是，参数个数多、计算代价大、训练语料需要多、参数估计不可靠。例：我爱吃葡萄 n 较小时语境信息少，不具区别性但是，参数个数少、计算代价小、训练语料无需太多、参数估计可靠。例：李四买了一张三角桌子 N-gram

unigram (n=1) p(wi) 若语言中有20000个字，则需要估计20000个参数 bigram (n=2) p(wi|wi-1) 若语言中有20000个字，则需要估计200002个参数 trigram (n=3) p(wi|wi-2wi-1) 若语言中有20000个字，则需要估计200003个参数 four-gram(n=4) 很少使用、不太现实(有时也称为digram或quadrigram) N-gram

数据准备: 确定训练语料对语料进行tokenization 或切分按照切分给每个字对应标记参数估计利用训练语料，估计模型参数建立n-gram

选择一组参数，使得训练样本的概率最大。 选择能使训练样本取得最大概率值得分布作为总体分布。令c(w1,..,wn) 表示n-gram w1,..,wn在训练语料中出现的次数。则最大似然估计

假定训练语料如下 B B B N B N N 我爱北京天安门 B N B N B N B N 今天北京天气晴朗 B B N B N 我热爱祖国最大似然估计

MLE给训练样本中未观察到的事件赋以0概率。 若某n-gram在训练语料中没有出现,则该n-gram的概率必定是0。解决的办法是扩大训练语料的规模。但是无论怎样扩大训练语料，都不可能保证所有的词在训练语料中均出现。由于训练样本不足而导致所估计的分布不可靠的问题，称为数据稀疏问题。在自然语言处理领域中，数据稀疏问题永远存在，不太可能有一个足够大的训练语料，因为语言中的大部分词都属于低频词。数据稀疏

Zipf 定律 针对某个语料库，若某个词w的词频是f，并且该词在词频表中的序号为r(即w是所统计的语料中第r常用词)，则 f × r = k (k是一个常数) 例：马克吐温的小说Tom Sawyer 共71,370 词(word tokens) 出现了8,018 个不同的词(word types) Zipf 定律

Zipf 定律

Balh 等人的工作 用150 万词的训练语料训练trigram模型测试语料（同样来源）中23%的trigram没有在训练语料中出现过。解决办法: 平滑技术把在训练样本中出现过的事件的概率适当减小把减小得到的概率密度分配给训练语料中没有出现过的事件这个过程有时也称为discounting(减值) 数据稀疏

Add-one平滑

训练语料中未出现的n-gram的概率不再为0，而是一个大于0的较小的概率值。训练语料中未出现的n-gram的概率不再为0，而是一个大于0的较小的概率值。但由于训练语料中未出现n-gram数量太多，平滑后，所有未出现的n-gram占据了整个概率分布中的一个很大的比例。因此，在NLP中，Add-one给训练语料中没有出现过的n-gram分配了太多的概率空间。认为所有未出现的n-gram概率相等，这是否合理？出现在训练语料中的那些n-gram，都增加同样的频度值，这是否公平？(低频、高频) Add-one平滑

Add-delta平滑

信息论专题

信息论专题

Presentation Transcript