平均信息熵及其应用
This presentation is the property of its rightful owner.
Sponsored Links
1 / 39

平均信息熵及其应用 PowerPoint PPT Presentation


  • 78 Views
  • Uploaded on
  • Presentation posted in: General

平均信息熵及其应用. 信息能否度量 ?. 物质、能量和信息是构成客观世界的三大要素。 信息( information )是什么 ? 至今信息还没有一个公认的定义 一般定义:常常把消息中有意义的内容称为信息。. 认识问题的过程: 当我们对一问题毫无了解时,对它的认识是不确定的,在对问题的了解过程中,通过各种途径获得信息,逐渐消除了不确定性,获得的信息越多,消除的不确定性也越多。我们可以用 消除不确定性的多少 来度量信息量的大小。. 例:会堂有 20 排、每排 20 个座位。找一个人。 甲告诉消息:此人在第 10 排;

Download Presentation

平均信息熵及其应用

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


5582199

平均信息熵及其应用


5582199

信息能否度量 ?

物质、能量和信息是构成客观世界的三大要素。

信息(information)是什么?

至今信息还没有一个公认的定义

一般定义:常常把消息中有意义的内容称为信息。


5582199

认识问题的过程:

当我们对一问题毫无了解时,对它的认识是不确定的,在对问题的了解过程中,通过各种途径获得信息,逐渐消除了不确定性,获得的信息越多,消除的不确定性也越多。我们可以用消除不确定性的多少来度量信息量的大小。

例:会堂有20排、每排20个座位。找一个人。

甲告诉消息:此人在第10排;

乙告诉消息:此人在第10排、第10座。


5582199

是否存在信息量的度量公式 ?

Claude Elwood Shannon (April 30, 1916 - February 24, 2001) has been called "the father of information theory".

1948年,美国数学家、信息论的创始人Shannon在题为“通讯的数学理论”的论文中指出:“信息是用来消除随机不定性的东西”。并应用概率论知识和逻辑方法推导出了信息量的计算公式


5582199

公理1:信息量是事件发生概率的连续函数;

公理2:信息量是有限值;

公理3:如果事件A和事件B的发生是相互独立的,则获知事件A和事件B将同时发生的信息量是单独获知两事件发生的信息量之和。

设事件发生的概率为P,

则满足上述公理的信息量函数为

为应用方便,可取c=1,a=e,单位为奈特(nat)


5582199

信息量函数 I= -lnp 如何体现不确定性的消除?


5582199

例:会堂有20排、每排20个座位。找一个人。

甲告诉消息(A):此人在第10排;

乙告诉消息(B):此人在第10排、第10座。

由信息量公式 I= -lnp 可知 I 是 p 的单调下降函数


Entropy

信息熵(entropy)的概念

  • 设离散型随机变量X的概率分布为

  • X的信息熵定义为“加权平均信息量”


5582199

信息熵的直观意义

X 甲赢 乙赢

P 0.9 0.1

H 0.325

X 甲赢 乙赢

P 0.5 0.5

H 0.693

变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。   一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。所以,信息熵也可以说是系统有序化程度的一个度量。


5582199

熵的性质

  • 连续非负性

  • 对称性

  • 扩展性

  • 可加性

  • 极值性:


5582199

  • 1948年,Shannon提出了熵的概念,并以此作为信息的度量,宣告了信息论作为一门科学学科的诞生。

  • 近年来,随着计算机应用的发展和信息时代的来临,信息论理论和应用的研究更显示出其重要意义。


5582199

应用1:识别假币

有12枚外形相同的硬币,其中一枚是假币(重量略有不同),如何用没有砝码的天平用最少次数找出假币?

每个硬币可能是真,也可能是假,

且假币可能重一些,也可能轻一些,故共有24种可能,不确定性为ln24。


5582199

将硬币分成3份,其中2部分在天平的两边。实验结果有3种可能性:假币在天平左边、右边、不在天平上。

当3种可能性概率相同时,熵最大,因此每次实验提供的最大信息熵为ln3。设至少秤k次, k次实验提供的信息熵最多为kln3,

有ln24=kln3可得k至少为3。


5582199

应用2:熵与参数估计的似然函数


5582199

应用3:群体遗传学

A

a

A

a


5582199

由此可见,无论第一代基因型概率分布为何值,第二代基因型熵即达到最大

A

a

B

b

A

a

B

b

多对等位基因

也有相同的结论


Hardy weinberg h w

Hardy–Weinberg 平衡(H–W平衡)定律

一个随机交配的群体中,等位基因频率保持不变,基因型频率至多经过一个世代也将保持不变。


5582199

问题的提出

  • 在信息论中,如何评价信源提供信息量的多少,是一个值得探讨的问题。

  • 现在用的是相对率的概念,是以信息熵与最大信息熵之比 作为依据的。

  • 问题:该值多大才算提供较多的信息量?


5582199

问题的设想

  • 提出平均信息熵作为评价依据。

  • 以学习成绩比较为例,众所周知,成绩好坏,除了与最高分比较,更多的是与平均成绩比较,当某个学生的成绩超过平均成绩时,说明该生的成绩较好,否则说明应该发奋努力了。

  • 在信息论中也是如此,当信源提供的信息量达到或超过平均信息熵时,可认为已提供了较多的信息。


5582199

问题的解决

  • 提出了平均信息熵的概念

  • 推导了计算公式、性质

  • 给出了应用:作为信源提供信息量多少的评价依据。


5582199

平均值概念的推广


5582199

平均信息熵的定义


5582199

平均信息熵公式

  • 公式:

    与调和级数有关


5582199

平均信息熵的性质

  • 平均信息量至少

    占最大值72%


5582199

平均信息熵的性质

C为欧拉常数,近似值约0.5772,已计算到了108,000,000位,目前还不知道它是有理数还是无理数。


5582199

平均信息熵的性质


5582199

平均信息熵的性质

  • 随机变量X的函数f(X)的平均信息熵:

    当f为单调函数时,


5582199

平均信息熵的性质

  • 等值面

等值面位于如下的多面体中:

其中p*为下式的解


5582199

平均信息熵的性质

等值面外的点组成一个凸集


5582199

应用1:食物营养价值的评价

  • 食物中蛋白质的氨基酸种类多、组成复杂,营养丰富,对机体的生长发育有利,我们可根据蛋白质的氨基酸组成比率计算信息熵,并与平均信息熵比较,作为评价营养价值的一个依据


5582199

  • 稻米中8种氨基酸营养当量X分布表

    苏氨酸 0.049 缬氨酸 0.120 蛋氨酸 0.113

    异亮氨酸 0.113 亮氨酸 0.115 苯丙氨酸 0.134

    赖氨酸 0.08 色氨酸 0.231

  • 稻米中大部分氨基酸可在人体内合成,但这8种氨基酸需从食物中摄取,可知稻米的营养价值是非常丰富的 。

王德仁,等.施氮对稻米蛋白质、氨基酸含量的影响[J].植物营养与肥料学报.2001,7(3):353-6


5582199

应用:基因信息熵

  • 根据四个碱基出现的概率,7个物种细胞色素C基因的信息熵如下表,由表可知,无论是高等生物还是低等生物,其信息熵都远大于平均信息熵

    Human 1.9966 Chicken 1.9886

    Yeast 1.9817 Rat 1.9699

    Mouse 1.9599 Bovine 1.9582

    D.melangaster 1.9529 


5582199

LIMBACH,K.J. & WU, R. Isolation and characterization of two alleles of the chicken cytochrome c gene [J]. Nucl. Acid Res. 1983(11):8931-8941

NISHIKIMI,M.,SUZUKI,H.,SHGOOHTA,Y.,SAKURAI,T.,SHMOONNURA,Y.,TANAKA,M. et al. Isolation of a cDNA clonefor human cytochrome c:from a gt11 expression library [J]. Biochemical and Biophysical Research communications,

1987(145):34-44


5582199

应用:英文字母信息熵

计算机键盘设计参考了英文字母在文章中出现的频率,根据英文26个字母及空格出现的频率,可求出其信息熵(bit)为

由此可知,大自然基因的“天书”信息量更丰富,比人类用英文字母写的文章更复杂,读懂它任重而道远。


5582199

抛砖引玉

  • 如何将本问题推广到连续性随机变量?


  • Login