1.16k likes | 1.42k Views
信息论课件. 信息论 Information Theory. 蒋青 jiangq@cqupt.edu.cn TEL : 62460517. 2 离散信源及其信息测度. 2.1 信源的数字模型及分类 2.2 离散信源的信息量和信息熵 2.3 信息熵的基本性质 2.4 信息熵的唯一性定理 2.5 离散无记忆的扩展信源 2.6 离散平稳信源 2.7 马尔可夫信源 2.8 信源剩余度与自然语言的熵. 2.1 信源分类. 按照消息取值集合以及取值时刻集合的离散性和连续性分类(表 2.1 )
E N D
信息论课件 信息论Information Theory 蒋青 jiangq@cqupt.edu.cn TEL:62460517
2 离散信源及其信息测度 • 2.1 信源的数字模型及分类 • 2.2 离散信源的信息量和信息熵 • 2.3 信息熵的基本性质 • 2.4信息熵的唯一性定理 • 2.5 离散无记忆的扩展信源 • 2.6 离散平稳信源 • 2.7马尔可夫信源 • 2.8信源剩余度与自然语言的熵
2.1信源分类 • 按照消息取值集合以及取值时刻集合的离散性和连续性分类(表2.1) • 按照信源输出消息所对应的随机序列的平稳性,信源可分为平稳信源和非平稳信源; • 按照信源输出的信息所对应的随机序列中随机变量前后之间有无统计依赖关系,信源可分为无记忆信源和有记忆信源。
可用随机变量、随机矢量或随机过程来描述信源输出的消息。或者说,用一个样本空间及概率测度——概率空间来描述信源。可用随机变量、随机矢量或随机过程来描述信源输出的消息。或者说,用一个样本空间及概率测度——概率空间来描述信源。 • 不同的信源输出的消息不同,可以根据消息的不同的随机性质来对信源进行分类。
信源输出的消息由随机变量描述 • 离散信源的数学模型 并满足
信源输出的消息由随机变量描述 • 连续信源的数学模型 并满足
信源输出的消息由随机矢量描述 • 多维离散信源: 很多实际信源输出的消息往往是由一系列符号序列所组成。 一般情况下,信源输出的随机序列的统计特性比较复杂,分析起来也比较困难。为了便于分析,假设信源输出的是平稳的随机序列,即序列的统计特性与时间的推移无关。
多维离散信源的数学模型 • 信源的N重概率空间为 这个空间共有元素 个
离散无记忆信源 • 离散有记忆信源及其描述 • 连续平稳信源 总结:信源的分类图
自信息量定义 • 某事件发生所含有的信息量应该是事件发生的先验概率的函数。 • 函数f [P(ai)]应满足以下条件: • f (Pi)应是先验概率P(ai)的单调递减函数,即当P1(a1)> P2 (a2)时f (P1) < f (P2) • 当P(ai)=1时, f (Pi) =0 • 当P(ai)=0时, f (Pi) =∞ • 两个独立事件的联合信息量应等于它们各自的信息量之和。即统计独立信源的信息量等于它们各自的信息量之和。
自信息量定义 • 自信息量 • I(ai)代表两种含义:当事件ai发生以前,表示事件ai发生的不确定性;当事件ai发生以后,表示事件ai所含有(或所提供)的信息量。 • 在无噪信道中,事件ai发生后,能正确无误地传输到收信者,所以I(ai)可代表接收到消息ai后所获得的信息量。
自信息量定义 • 自信息量的单位: • 以2为底的对数时单位是“比特”(bit — binary unit的缩写) • 以e为底时单位是“奈特”(nat — nature unit的缩写) • 以10为底时单位是“哈特”(Hart — Hartley的缩写)
自信息量与确定度的关系 • 收到某消息获得的信息量 = 不确定性减少量 =(收到此消息前关于某事件发生的不确定性)-(收到此消息后关于某事件发生的不确定性) • 无噪声传输时: 收到某消息获得的信息量 = 收到此消息前关于某事件发生的不确定性 = 信源输出的某消息中所含有的信息量 自信息量和该事件的不确定度的含义有本质的区别
联合自信息量 • 定义:若有两个消息xi,xj同时出现,可用联合概率P(xi,xj)来表示,这时的自信息量定义为
当xi和xj相互独立时,有P(xi,xj)= P(xi)P(xj),那么就有I(xi,xj)= I(xi)+ I(xj)
条件自信息量 • 定义:设在yj条件下,随机事件发生xi的条件概率为P(xi/yj),则xi的出现所带来的信息量被称为它的条件自信息量,表示为 P(xi/yj)的含义:收端收到yj后,推测信源发xi的概率。
自信息量、条件自信息量和联合自信息量之间的关系:自信息量、条件自信息量和联合自信息量之间的关系: I(xi,xj)= -logP(xi) P(yj /xi)= I(xi)+ I(yj /xi) = -logP(yj) P xi / yj)= I(yj)+ I(xi /yj)
互信息量 • 定义:对两个离散随机事件集合X和Y,事件yj的出现给出关于事件xi的信息量,定义为事件xi、yj的互信息量,用I(xi ; yj)表示。 互信息量的性质:
例:设有两个离散信源集合 其中 求: 自信息量 条件自信息量 互信息量
条件互信息量 • 定义:条件互信息量是在给定zk条件下,事件yj的出现所提供的有关xi的信息量,用I(xi;yj|zk)表示或用I[(xi;yj)|zk]表示。
条件互信息量 • 假设XYZ空间的事件xi、yj、zk,那么事件yjzk出现后,从yjzk中获取关于xi的信息量是多少呢? 如果把yjzk看作一个事件,有
条件互信息量 • 条件互信息量和条件信息量的关系 即:条件互信息量可用条件信息量表示
离散信源的信息熵 • Entropy • 离散随机变量 X的信息熵就是其概率空间中每个事件所含有的自信息量的数学期望
例:二进制通信系统的信源空间为 求该信源的熵 解:设P(1)=p,则P(0)=1-p。 H(X) = - p logp - (1-p) log(1-p) 上式又称为二进制熵函数,也常用H(p)表示 当p = 0或p =1时,H(X) = 0;p = 1/2时,H(X) =1
信息熵的物理含义: • 信息熵 H(X) 表示了信源输出前,信源的平均不确定性; • 信息熵 H(X) 表示了信源输出后,每个消息或符号所提供的平均信息量; • 信息熵 H(X) 反映了随机变量 X 的随机性。
条件熵 上面讨论的是单个离散随机变量的概率空间的不确定性的度量问题。然而,在实际应用中,常常需要考虑两个或两个以上的概率空间之间的相互关系,此时就要引入条件熵的概念。
条件熵 • 定义:在联合集XY中,把条件自信息量的概率加权平均值定义为条件熵。其定义式为:
条件熵 • 物理含义: • 称:H(X/Y)为信道疑义度。 • 称:H(Y/X)为信道噪声熵或散步度。
举例:已知信源 ,XY构成的联合概率为 计算条件熵H(X/Y)
联合熵 • 定义:在联合集XY中,把每对元素aibj的自信息量的概率加权平均值定义为联合熵。其定义式为: 联合熵的性质:
平均互信息量 • 定义:两个离散随机事件集合X和Y,若其任意两事件间的互信息量为I(xi;yj),则其联合概率加权的统计平均值,称为两集合的平均互信息量,用I(X;Y)表示。 物理含义
平均互信息量的几点讨论 • I(X; Y) = H(X) –H(X/Y) • I (Y; X) = H (Y) –H (Y/X) • I (X; Y) = H(X) + H(Y) –H(XY) • 平均互信息量的性质
多变量之间的平均互信息 • 两组多元随机变量之间的平均互信息 条件平均互信息
例:已知信源空间 信道特性如图所示: 求:在该信道上传输的平均互信息量I (X; Y),疑义度H(X|Y),噪声熵H(Y|X)和共熵H(XY)。
熵函数性质 • 离散信源的数学模型
信息熵的基本性质 • 用一个概率矢量 P 表示离散信源 X 的概率分布,即令 • 则信息熵可表示为P 的函数: • 又称H(P)为熵函数。
熵函数性质 • (1)对称性:变量的顺序任意交换,不改变熵函数的值。 • (2)确定性:信源为一个确知信源,则信息熵等于零。为一确知信源
熵函数性质 • (3)非负性 • (4)扩展性:若信源符号集中增加了若干符号,当这些符号出现的概率很小时,信源的熵不变。
熵函数性质 • (5)可加性:统计独立的两个信源 X 和Y,有 H( X Y )=H( X )+H( Y ) 证明:
(6)强可加性:任意两个相互关联的信源 X 和 Y,其联合熵等于 H( X Y )=H( X )+H( Y /X ) 或 H( X Y )=H( Y )+H( X / Y ) 证明:
熵函数性质 • (7) • (8)条件熵小于信源熵即 H(Y|X)< H(Y) 当且仅当Y 和X相互独立时,等号成立
熵函数性质 • (9)递增性:若原信源中某一个符号划分成m个符号,这m个符号概率之和等于原某一符号的概率,新信源的熵增加了。 其中 推广分析:
推广结论:具有n个概率分量的熵函数,最终可分解为(n-1)个只二员信源的熵函数的加权和。推广结论:具有n个概率分量的熵函数,最终可分解为(n-1)个只二员信源的熵函数的加权和。
熵函数性质 • (10)极值性(最大离散熵定理) 离散信源的各符号为等概率分布时,信息熵有最大值。
熵函数性质 • (11)上凸性: 对任意概率矢量 和 ,及 有 由于H(P)是概率矢量 P上的严格上凸函数,所以熵函数存在极大值。
多维随机变量的熵 • 二维随机变量的熵 H(X1,X2) = H(X1)+H(X2|X1) • 多维随机变量的熵 P(X1,X2,…,Xn)=P(X1)P(X2|X1)···P(Xn |Xn–1,Xn–2,…,X2,X1) 根据熵和共熵的定义可推得 H(X1,X2,X3)=H(X1)+H[(X2,X3)|X1] = H(X1)+H(X2|X1)+H(X3|X1X2)