信息论与编码理论基础王育民(第二章).ppt
《信息论与编码理论基础王育民(第二章).ppt》由会员分享,可在线阅读,更多相关《信息论与编码理论基础王育民(第二章).ppt(100页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、2022/11/221第二章:第二章:信息量和熵2.1 离散型随机变量的非平均信息量(事件的信息量)离散型随机变量的非平均信息量(事件的信息量)2.2 离散型随机变量的平均自信息量(熵)离散型随机变量的平均自信息量(熵)2.4 离散型随机变量的平均互信息量离散型随机变量的平均互信息量2.5 连续型随机变量的平均互信息量和微分熵连续型随机变量的平均互信息量和微分熵2.6 凸函数与凸函数与(离散型随机变量的离散型随机变量的)平均互信息量凸性平均互信息量凸性2022/11/2222.1 离散型随机变量的非平均信息量离散型随机变量的非平均信息量 (事件的信息量)(事件的信息量)2022/11/223非
2、平均互信息量输入输入输入输入消息消息消息消息码字码字码字码字(输出)(输出)(输出)(输出)p(xp(xk k)收到收到收到收到0 0收到收到收到收到0101收到收到收到收到011011X1X2X3X4X5X6X7x80000010100111001011101111/81/81/81/81/81/81/81/81/41/41/41/40000001/21/2000000010000例例2022/11/224非平均互信息量输入消息输入消息码字码字p(xk)收到收到0收到收到01收到收到011X1X2X3X4X5X6X7x80000010100111001011101111/81/41/81/4
3、1/161/161/161/161/61/31/61/30000001/32/30000000100002022/11/225直观认识n对观察者来说,同样观察事件011,但输入消息等概情况下“收获”要大些,即得到的“信息”要多些。n越是不太可能发生的事件竟然发生了,越是令人震惊令人震惊。获得的“信息”要多些。2022/11/226非平均互信息量n 例输入消息码字p(xk)收到0收到01收到010X1X20001111/21/21-pp1/21/21-pp1-p1-p0011pp2022/11/227直观认识n在接收010的过程中,消息出现的可能性,即后验概率也在不断变化,但变化趋势不再像例2.
4、1.1 那样单调地变化,而是有起伏的,且最后并未达到1或0.n观察到010之后不能断定是哪个消息出现了。但是由观察结果计算出来的某个消息出现的后验概率大于1/2或小于1/2,使我们可比未观察前较有把握地推断消息出现的可能性,因而多少得到了一些有关出现的“信息”。n若p1/2,也即010是消息x1的输出可能性大。2022/11/228直观认识n从上述两个系统可以看出,在一个系统中我们所关心的输入是哪个消息的问题,只与事件出现的先验概率先验概率和经过观察后事件出现的后验概后验概率率有关。n信息信息应当是先验概率先验概率和后验概率后验概率的函数,即 I(xk;yj)=f Q(xk),P(xk|yj)
5、2022/11/229n研究表明信息量信息量就表示成为事件的就表示成为事件的后验概率后验概率与事件的与事件的先先验概率验概率之比之比的的对数函数对数函数!2022/11/2210非平均互信息量(本章将给出各种信息量的定义和它们的性质。)定义定义(非平均互信息量)给定一个二维离散型随机变量因此就给定了两个离散型随机变量事件xkX与事件yjY的互信息量定义为2022/11/2211非平均互信息量直观认识n若信源发某符号xi,由于信道中噪声的随机干扰,收信者收到的是xi的某种变形yj,收信者收到yj后,从yj中获取xi的信息量用I(xi;yj)表示,则有nI(xi;yj)=收到yj 前,收信者对信源
6、发xi 的不确定性 -收到yj 后,收信者对信源发xi仍然存在 的 不确定性 =收信者收到yj 前后,收信者对信源发xi 的 不确定性的消除不确定性的消除2022/11/2212非平均互信息量性质非平均互信息量性质其中底数a是大于1的常数。常用a=2或a=e,当a=2时互信息量的单位为“比特”。互信息量的性质:互信息量的性质:(1)I(xk;yj)=loga(rkj/(qkwj)。因此有对称性:。因此有对称性:I(xk;yj)=I(yj;xk)。(2)当)当rkj=qkwj时时,I(xk;yj)=0。即当。即当(rkj/qk)=wj时,时,I(xk;yj)=0。又即当又即当(rkj/wj)=q
7、k时,时,I(xk;yj)=0。换句话说,当换句话说,当“X=xk”与与“Y=yj”这两个事件相互独立时,互信这两个事件相互独立时,互信息量为息量为0)。)。2022/11/2213非平均互信息量性质非平均互信息量性质(3)当)当rkjqkwj时时 I(xk;yj)0,当,当rkjqkwj时时 I(xk;yj)wj时,时,I(xk;yj)0;当当(rkj/qk)wj时,时,I(xk;yj)0。换句话说,换句话说,当当“X=xk”与与“Y=yj”这两个事件相互肯定时,互信息量为正这两个事件相互肯定时,互信息量为正值;值;当当“X=xk”与与“Y=yj”这两个事件相互否定时,互信息量为负这两个事件
8、相互否定时,互信息量为负值。值。2022/11/2214条件互信息和联合事件互信息n三个事件集的条件互信息定义(定义定义)为n可以推广到任意有限多个空间情况2022/11/2215互信息的可加性互信息的可加性系统u1u2u3系统u1u2u3意味着意味着:(u2,u3)联联合合给给出的关于出的关于u1的信息量等于的信息量等于u2给给出的关出的关于于u1的信息量与的信息量与u2已知条件下已知条件下u3给给出的关于出的关于u1的信息量之和的信息量之和。2022/11/2216非平均自信息量非平均自信息量定义定义(非平均自信息量)给定一个离散型随机变量X,xk,qk,k=1K。事件xkX的自信息量定义
9、为I(xk)=loga(1/qk),其中底数a是大于1的常数。2022/11/2217自信息量的性质:自信息量的性质:(1)非负性)非负性.I(xk)0(2)单调性)单调性.qk越小,越小,I(xk)越大越大(3)I(xk;yj)minI(xk),I(yj)即互信息量不超过各自的自信息量。即互信息量不超过各自的自信息量。证明 注意到总有rkjminqk,j。(why?什么情况下相等?)因此根据定义,I(xk;yj)I(xk),I(xk;yj)I(yj)。非平均自信息量非平均自信息量2022/11/2218非平均自信息量的直观认识n若信源发某符号xi,没有信道中噪声的随机干扰,收信者收到的yj就
10、是xi本身。收信者收到yj=xi后,当然就完全消除了对信源发符号xi的不确定性,即 收到yj=xi 后,收信者对信源发xi仍然存在的不确定性=0nI(xi;xi)=收到xi前,收信者对信源发xi 的不确定性 =I(xi)2022/11/22192022/11/22202022/11/22212022/11/2222条件的非平均自信息量条件的非平均自信息量定义定义(条件的非平均自信息量)给定一个二维离散型随机变量 (X,Y),(xk,yj),rkj,k=1K;j=1J在事件yj发生的条件下事件xk的条件自信息量条件自信息量定义为 I(xk|yj)=loga(1/P(X=xk|Y=yj)=loga
11、(wj/rkj)条件的非平均自信息量条件的非平均自信息量n条件的非平均自信息量实际上是非平均自信息量的简单推广,只不过将概率换成了条件概率条件概率。n条件的非平均自信息量的特殊性质:条件的非平均自信息量的特殊性质:I(xk|yj)=I(xk)-I(xk;yj)2022/11/22232022/11/2224联合的非平均自信息量联合的非平均自信息量定义定义(联合联合的非平均自信息量)给定一个二维离散型随机变量 (X,Y),(xk,yj),rkj,k=1K;j=1J事件(xk,yj)(X,Y)的自信息量自信息量定义为I(xk,yj)=loga(1/rkj)联合的非平均自信息量联合的非平均自信息量n
12、联合的非平均自信息量实际上是非平均自信息量的简单推广。即可以将(X,Y)直接看成是一维的随机变量。n 联合的非平均自信息量的特殊性质:联合的非平均自信息量的特殊性质:I(xk,yj)=I(yj)+I(xk|yj)=I(xk)+I(yj|xk)I(xk,yj)=I(xk)+I(yj)-I(xk;yj)。2022/11/22252022/11/2226非平均信息量(事件的信息量)非平均信息量(事件的信息量)小结小结非平均互互信息量I(xk;yj)非平均自自信息量I(xk),I(yj)条件条件的非平均自自信息量I(xk|yj),I(yj|xk)联合联合的非平均自自信息量I(xk,yj)非平均信息量(
13、事件的信息量)非平均信息量(事件的信息量)相互关系:I(xk;yj)min I(xk),I(yj)I(xk;yj)=I(xk)-I(xk|yj)I(xk,yj)=I(yj)+I(xk|yj)=I(xk)+I(yj|xk)I(xk,yj)=I(xk)+I(yj)-I(xk;yj)2022/11/22272022/11/2228联合自信息、条件自信息和互信息I(xk)I(yj)I(xk;yj)2022/11/22292.2 离散型随机变量的平均自信息量离散型随机变量的平均自信息量熵熵2022/11/2230自信息量的不足n信息函数 I(xk)破天荒地使信息度量成为可能,是信息度量的有力工具,n但在
14、信息度量方面仍然存在某些不足.自信息量的不足n信源发符号xk不是确定事件,是以p(xk)为概率的随机事件,相应的自信息量I(xk)也是一个以p(xk)为概率的随机性的量,显然,用一个随机性的量来度量信息是不方便的.n信息函数I(xk)只能表示信源发某一特定的具体符号xk所提供的信息量.不同的符号由不同的自信息量.所以它不足以作为整个信源的总体信息测度.n据此,在信息函数I(xk)的基础上,构架一个确定的量,作为信源的总体信息测度,就成为我们面临的一个重要课题.2022/11/22312022/11/2232统计平均值n能作为信源总体信息测度的确定的量,应是信源X可能发出的各种不同符号xk(k=
15、1,2,K)含有的自信息量I(xk)(k=1,2,K),在信源的概率空间 p(x1),p(x2),p(xK)中的统计平均值H(X).2022/11/2233平均自信息量平均自信息量熵熵定义定义(平均自信息量平均自信息量熵熵)离散型随机变量X,xk,qk,k=1K的平均自信息量(又称为熵)定义为 其中底数a是大于1的常数。平均自信息量平均自信息量(信息)熵 集X的平均自信息量表示集X中事件出现的平平均不确定性均不确定性,即为了确定n集X中出现一个事件平均所需的信息量(观测之前),或n集X中每出现一事件平均给出的信息量(观测之后)。2022/11/2234信息熵与热熵n信息熵和统计热力学中定义的热
16、熵在形式上完全相同。n在热力学中,X表示系统所有可能的状态,p(x)表示某一个特定状态x出现的概率。热熵热熵H(X)描述了系系统统的的“无无规则规则”的程度的程度,即在某一给定时刻一个系统可能出现的有关状态的“不确定”的程度。2022/11/22352022/11/2236例子2022/11/22372022/11/22382022/11/2239平均自信息量平均自信息量熵熵注意:(1)事件xk的自信息量值为I(xk)=loga(1/qk),因此H(X)是随机变量X的各事件自信息量值的“数学期望”。(2)定义H(X)时,允许某个qk=0。(此时将qkloga(1/qk)通盘考虑)此时补充定义q
17、kloga(1/qk)=0。这个定义是合理的,因为2022/11/2240平均自信息量平均自信息量熵熵例例 离散型随机变量X有两个事件x1和x2,P(X=x1)=p,P(X=x2)=1-p则X 的平均自信息量(熵)为H(X)=ploga(1/p)+(1-p)loga(1/(1-p)观察H(X),它是p的函数,图给出了函数图象.2022/11/2241图图2.2.1 H(X)1.00.5 0 0.5 1 P 平均自信息量平均自信息量熵熵该图象具有某种对称性:n当p=0或p=1时,H(X)=0。(随机变量X退化为常数时,熵为0)n当0p0。p越靠近1/2,H(X)越大。(X是真正的随机变量时,总有
18、正的熵。随机性越大,熵越大)n当p=1/2时,H(X)达到最大。(随机变量X的随机性最大时,熵最大。特别如果底数a=2,则H(X)=1比特)2022/11/22422022/11/2243平均自信息量平均自信息量熵熵2022/11/2244平均自信息量平均自信息量熵熵2022/11/2245平均自信息量平均自信息量熵熵2022/11/2246平均自信息量平均自信息量熵熵2022/11/2247平均自信息量平均自信息量熵熵2022/11/2248平均自信息量平均自信息量熵熵2022/11/2249平均自信息量平均自信息量熵熵条件平均自信息量(条件熵)条件平均自信息量(条件熵)n条件非平均自信息量
19、是集 上的随机变量n由此可类似给出条件平均自信息量称做是给定 条件下,集 的条件熵n同时,又可以看作是集 上的随机变量,继续求统计平均/期望2022/11/22502022/11/2251条件平均自信息量条件平均自信息量条件熵条件熵定义定义(条件熵)给定一个二维离散型随机变量(X,Y),(xk,yj),rkj,=p(xk,yj)k=1K;j=1J,称如下定义的H(X|Y)为X相对于Y的条件熵联合的非平均自信息量联合的非平均自信息量2022/11/2252给定一个二维离散型随机变量 (X,Y),(xk,yj),rkj=p(xk,yj),k=1K;j=1J事件(xk,yj)(X,Y)的自信息量自信
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息论 编码 理论基础 王育民 第二
限制150内