530 likes | 685 Views
信息论专题. 主讲:张龙凯. 概率论基础 信息论基础 应用. 提纲. 概率论基础 信息论基础 应用. 提纲. 随机事件 : 在一定条件下 , 可能发生也可能不发生的试验结果称为随机事件,简称事件,一般用大写字母 A,B,C,… 表示。 随机事件是否有规律性? 随机事件有两个特殊情况, 必然事件 不可能事件. 随机事件. 事件 A 和 B 同时发生的事件,称为 A 与 B 的积,记作 AB 。 事件 A 或事件 B 发生的事件,称为 A 与 B 的和,记作 A+B 。
E N D
信息论专题 主讲:张龙凯
概率论基础 信息论基础 应用 提纲
概率论基础 信息论基础 应用 提纲
随机事件: 在一定条件下,可能发生也可能不发生的试验结果称为随机事件,简称事件,一般用大写字母A,B,C,…表示。 随机事件是否有规律性? 随机事件有两个特殊情况, 必然事件 不可能事件 随机事件
事件A和B同时发生的事件,称为A与B的积,记作AB。事件A和B同时发生的事件,称为A与B的积,记作AB。 事件A或事件B发生的事件,称为A与B的和,记作A+B。 互斥:事件A与B不可能同时发生,即AB是不可能事件,则称A与B是互斥的。 对立:事件A与B互斥,并且每次试验中不是出现A 就是出现B,则称B为A的对立事件。 随机事件的关系
概率:事件A 发生的可能性大小称为事件的概率,记作P(A) 回忆刚才所讲的频率 例: 扔5次硬币,3次正面朝上 扔100次硬币,49次正面朝上 扔1000次硬币,505次正面朝上 概率
0 ≤P(A)≤1。 P(必然事件)=1。 P(不可能事件)=0。 若A1,A2,…,An 两两互斥,则P(A1+A2+…+An)=P(A1)+P(A2)+…+P(An)。 若 A⊃B,则P(A)≥P(B)。 对任意事件 A,P(A) =1− P( )。 概率的性质
条件概率在事件 B 发生的条件下,事件A 发生的概率称为事件A 在事件B 已发生的条件下的条件概率,记作P(A|B)。 一般而言,条件概率P(A|B)与概率P(A)是不等的。但在某些情况下,它们是相等的。根据条件概率的定义和乘法公式有P(AB)=P(A)P(B),这时,称事件A 与B 相互独立的。 条件概率
概率论基础 信息论基础 应用 提纲
信源:信息来源。 离散信源 连续信源 通常用随机变量X来表示一个离散信源 思考:当信源发出某个信号x时,它提供了多少信息? 进一步思考:什么样的事件信息更多? 信源
事件的不确定性决定了信息的多少 我们用自信息I(x)来表示事件x所具有的信息,那么I(x)应该是p(x)的一个函数。 思考:I(x)应该有哪些性质? 非负性:I(x) ≥ 0 P(x)=0,I(x)=+∞;P(x)=1,I(x)=0 单调性:若p(x) > p(y) ,那么I(x) < I(y) 若p(x,y) = p(x)p(y),那么I(xy) = I(x) + I(y) 自信息
实例:假定有一个房间中有时没有人,有时甲在房间中,有时乙在房间中,有时甲乙都在房间中,房间状态服从下面的概率分布实例:假定有一个房间中有时没有人,有时甲在房间中,有时乙在房间中,有时甲乙都在房间中,房间状态服从下面的概率分布 某人受命监视房间,每五分钟记录一次房间状态,并经一个通讯设备将房间状态发送出去。 问题:状态如何编码? 最优编码
一种可行的定长编码方案:用00 表示没有人在房间中,01 表示甲在房间中,10 表示乙在房间中,11 表示甲乙两人均在在房间中。 按照这样的编码,发送一个消息所需要的码的长度为2,平均发送一个消息需要2个二进制位。 思考:有没有一种更短的编码方式? 最优编码
如果消息x 的概率为p(x),则给其分配一个长度为⌈−log2p(x)⌉个二进制位的编码 平均发送一个消息所需要的编码的长度(以二进制位衡量): 最优编码
熵 • 假定一种语言P有6个字母p、t、k、a、i、u,每个字母的概率为:
H(X)和H(X|Y) 的差称为互信息,一般记作I(X;Y)。I(X;Y)描述了包含在X 中的有关Y 的信息量,或包含在Y 中的有关X 的信息量。
如何量化互信息? 互信息
点间互信息 • 更为常用的是两个具体事件之间的 • 我们常说的“互信息”,一般称之为点间互信息。 • 点间互信息:事件x, y之间的互信息定义为: • 点间互信息度量两个具体事件之间的相关程度 • 当时I(x,y)>>0,x和y高度相关。 • 当时I(x,y)=0,x和y高度相互独立。 • 当时I(x,y)<<0,x和y呈互补分布
思考,假设有两个因素I:吸烟因素、II:呼吸道病因素。思考,假设有两个因素I:吸烟因素、II:呼吸道病因素。 因素I分两个水平。A:吸烟;Ā:不吸烟 因素II分两个水平。B:患呼吸道疾病; :患呼吸道疾病。
反证法:假设两个因素是无关的。我们求出在此假设下a、b、c、d理论上的值,用a’、b’、c’、d’表示反证法:假设两个因素是无关的。我们求出在此假设下a、b、c、d理论上的值,用a’、b’、c’、d’表示 如果假设成立,那么a’、b’、c’、d’应该和我们的实验值(即表中真实a、b、c、d )相差不大 思考:如何鉴别差异“很大”还是“不大”?
化简后得到卡方统计量的计算公式 卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度。 实际观测值与理论推断值之间的偏离程度就决定卡方值的大小 卡方值越大,越不符合,偏差越小 卡方值就越小,越趋于符合 卡方统计量
概率论基础 信息论基础 应用 提纲
应用1:词表建立 • 为什么需要自动建立词表? • 不自动建立,难 • 自动建立,诱惑力大 • 葡萄、忏悔 • 共现频率 • 互信息 • 卡方
应用2:中文人名识别 在汉语的未登录词中,中国人名是规律性最强,也是最容易识别的一类; 中国人名一般由以下部分组合而成: –姓:张、王、李、刘、诸葛、西门 –名:李素丽,王杰、诸葛亮 例句:张三说的确实在理 歧义 “张三说的确实在理” “李四买了一张三角桌子”
命名实体 • 命名实体:人名、机构名、地名以及其他所有以名称为标识的实体。 • 更广泛的实体还包括数字、日期、货币、地址等。 • 思考,如何识别地名? • 命名实体识别(NER)是最近比较热门的问题
中文分词的意义 信息检索 切分有助于提高信息检索的准确率,如: 和服务于三日后裁制完毕,并呈送将军府中。 王府饭店的设施和服务是一流的。 词语的计量分析 词频统计(汉语中最常用的词是哪个词?) 汉语切词也是深层汉语分析的基础 句法分析、语义分析等
中文分词的基本方法 最大匹配法(MM) 正向最大匹配法(MM) 逆向最大匹配法(RMM) 例子:提高人民生水平 例子 输入:企业要真正具有用工的自主权 MM:企业/要/真正/具有/用工/的/自主/权 RMM:企业/要/真正/具有/用工/的/自/主权
中文分词主要问题 切分歧义(消解) 一个字串有不止一种切分结果 未登录词识别 专有名词 新词
双向最大匹配 双向最大匹配(MM+RMM) 同时采用MM法和RMM法 若果MM法和RMM法给出同样的结果,则认为没有歧义,若不同,则认为发生了歧义。 输入:企业要真正具有用工的自主权 MM:企业/要/真正/具有/用工/的/自主/权 RMM:企业/要/真正/具有/用工/的/自/主权 思考:上面所列的分词方法有什么缺陷?
基于统计的分词方法 • “葡萄”,为什么是“葡萄”? • 无词典分词法(也叫统计分词方法) • 例:企业要真正具有用工的自主权 • 第一步:将句子打散成单字 • 企 业 要 真 正 具 有 用 工 的 自 主 权 • 第二步:计算相邻两语言单位互信息,将互信息值超过一定阈值的相邻语言单位合并 • 重复第二步知道没有两个语言单位的互信息超过阈值。 • 贪心策略,自下而上
“我在读一本______” 给定一个句子中前面n-1个字,预测下面的字是哪个字。 由于语言的规律性,句子中前面出现的字/词对后面可能出现的字/词有很强的预示作用。 这种预示作用同样可以应用在汉语分词中。 例: 我爱北京天安门 另一种贪心方法
n 较大时 提供了更多的语境信息,语境更具区别性 但是,参数个数多、计算代价大、训练语料需要多、参数估计不可靠。 例:我爱吃葡萄 n 较小时 语境信息少,不具区别性 但是,参数个数少、计算代价小、训练语料无需太多、参数估计可靠。 例:李四买了一张三角桌子 N-gram
unigram (n=1) p(wi) 若语言中有20000个字,则需要估计20000个参数 bigram (n=2) p(wi|wi-1) 若语言中有20000个字,则需要估计200002个参数 trigram (n=3) p(wi|wi-2wi-1) 若语言中有20000个字,则需要估计200003个参数 four-gram(n=4) 很少使用、不太现实(有时也称为digram或quadrigram) N-gram
数据准备: 确定训练语料 对语料进行tokenization 或切分 按照切分给每个字对应标记 参数估计 利用训练语料,估计模型参数 建立n-gram
选择一组参数,使得训练样本的概率最大。 选择能使训练样本取得最大概率值得分布作为总体分布。 令c(w1,..,wn) 表示n-gram w1,..,wn在训练语料中出现的次数。则 最大似然估计
假定训练语料如下 B B B N B N N 我 爱 北 京 天 安 门 B N B N B N B N 今 天 北 京 天 气 晴 朗 B B N B N 我 热 爱 祖 国 最大似然估计
MLE给训练样本中未观察到的事件赋以0概率。 若某n-gram在训练语料中没有出现,则该n-gram的概率必定是0。 解决的办法是扩大训练语料的规模。但是无论怎样扩大训练语料,都不可能保证所有的词在训练语料中均出现。 由于训练样本不足而导致所估计的分布不可靠的问题,称为数据稀疏问题。 在自然语言处理领域中,数据稀疏问题永远存在,不太可能有一个足够大的训练语料,因为语言中的大部分词都属于低频词。 数据稀疏
Zipf 定律 针对某个语料库,若某个词w的词频是f,并且该词在词频表中的序号为r(即w是所统计的语料中第r常用词),则 f × r = k (k是一个常数) 例:马克吐温的小说Tom Sawyer 共71,370 词(word tokens) 出现了8,018 个不同的词(word types) Zipf 定律
Balh 等人的工作 用150 万词的训练语料训练trigram模型 测试语料(同样来源)中23%的trigram没有在训练语料中出现过。 解决办法: 平滑技术 把在训练样本中出现过的事件的概率适当减小 把减小得到的概率密度分配给训练语料中没有出现过的事件 这个过程有时也称为discounting(减值) 数据稀疏
训练语料中未出现的n-gram的概率不再为0,而是一个大于0的较小的概率值。训练语料中未出现的n-gram的概率不再为0,而是一个大于0的较小的概率值。 但由于训练语料中未出现n-gram数量太多,平滑后,所有未出现的n-gram占据了整个概率分布中的一个很大的比例。 因此,在NLP中,Add-one给训练语料中没有出现过的n-gram分配了太多的概率空间。 认为所有未出现的n-gram概率相等,这是否合理? 出现在训练语料中的那些n-gram,都增加同样的频度值,这是否公平?(低频、高频) Add-one平滑