信息论与编码理论基础第二章幻灯片.ppt
《信息论与编码理论基础第二章幻灯片.ppt》由会员分享,可在线阅读,更多相关《信息论与编码理论基础第二章幻灯片.ppt(143页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、信息论与编码理论基础第二章2022/9/191第1页,共143页,编辑于2022年,星期四2.1 离散型随机变量的离散型随机变量的 非平均信息量非平均信息量 (事件的信息量)(事件的信息量)2022/9/192第2页,共143页,编辑于2022年,星期四非平均互信息量输入输入输入输入消息消息消息消息码字码字码字码字(输出)(输出)(输出)(输出)p(xp(xk k)收到收到收到收到0 0收到收到收到收到0101收到收到收到收到011011X1X2X3X4X5X6X7x80000010100111001011101111/81/81/81/81/81/81/81/81/41/41/41/4000
2、0001/21/2000000010000例例2.1.12022/9/193第3页,共143页,编辑于2022年,星期四非平均互信息量输入消息输入消息码字码字p(xk)收到收到0收到收到01收到收到011X1X2X3X4X5X6X7x80000010100111001011101111/81/41/81/41/161/161/161/161/61/31/61/30000001/32/30000000100002022/9/194第4页,共143页,编辑于2022年,星期四直观认识n对观察者来说,同样观察事件011,但输入消息等概情况下“收获”要大些,即得到的“信息”要多些。n越是不太可能发生的
3、事件竟然发生了,越是令人震惊令人震惊。获得的“信息”要多些。2022/9/195第5页,共143页,编辑于2022年,星期四非平均互信息量n 例2.1.2输入消息码字p(xk)收到0收到01收到010X1X20001111/21/21-pp1/21/21-pp1-p1-p0011pp2022/9/196第6页,共143页,编辑于2022年,星期四直观认识n在接收010的过程中,消息出现的可能性,即后验概率也在不断变化,但变化趋势不再像例2.1.1 那样单调地变化,而是有起伏的,且最后并未达到1或0.n观察到010之后不能断定是哪个消息出现了。但是由观察结果计算出来的某个消息出现的后验概率大于1
4、/2或小于1/2,使我们可比未观察前较有把握地推断消息出现的可能性,因而多少得到了一些有关出现的“信息”。n若p1/2,也即010是消息x1的输出可能性大。2022/9/197第7页,共143页,编辑于2022年,星期四直观认识n从上述两个系统可以看出,在一个系统中我们所关心的输入是哪个消息的问题,只与事件出现的先验概率和经过观察后事件出现的后验概率有关。n信息应当是先验概率和后验概率的函数,即 I(xk;yj)=f Q(x),P(xk|yj)2022/9/198第8页,共143页,编辑于2022年,星期四n研究表明:信息量就表示成为事件的后验概率与事件的先验概率之比的对数函数!2022/9/
5、199第9页,共143页,编辑于2022年,星期四非平均互信息量(本章将给出各种信息量的定义和它们的性质。)定义定义2.1.1(非平均互信息量)给定一个二维离散型随机变量(因此就给定了两个离散型随机变量。事件xkX与事件yjY的互信息量定义为2022/9/1910第10页,共143页,编辑于2022年,星期四非平均互信息量直观认识n若信源发某符号xi,由于信道中噪声的随机干扰,收信者收到的是xi的某种变形yj,收信者收到yj后,从yj中获取xi的信息量用I(xi;yj)表示,则有nI(xi;yj)=收到yj 前,收信者对信源发xi 的不确定性 -收到yj 后,收信者对信源发xi仍然存在 的 不
6、确定性 =收信者收到yj 前后,收信者对信源发xi 的不 确定性的消除2022/9/1911第11页,共143页,编辑于2022年,星期四非平均互信息量性质非平均互信息量性质其中底数a是大于1的常数。常用a=2或a=e,当a=2时互信息量的单位为“比特”。互信息量的性质:互信息量的性质:(1)I(xk;yj)=loga(rkj/(qkwj)。因此有对称性:。因此有对称性:I(xk;yj)=I(yj;xk)。(2)当)当rkj=qkwj时时I(xk;yj)=0。(即当(即当(rkj/qk)=wj时,时,I(xk;yj)=0。又即当又即当(rkj/wj)=qk时,时,I(xk;yj)=0。换句话说
7、,当换句话说,当“X=xk”与与“Y=yj”这两个事件相互独立时,互信息量为这两个事件相互独立时,互信息量为0)。)。2022/9/1912第12页,共143页,编辑于2022年,星期四非平均互信息量性质非平均互信息量性质(3)当)当rkjqkwj时时I(xk;yj)0,当,当rkjqkwj时时I(xk;yj)wj时,时,I(xk;yj)0;当当(rkj/qk)wj时,时,I(xk;yj)0。换句话说,换句话说,当当“X=xk”与与“Y=yj”这两个事件相互肯定时,互信息量为正值;这两个事件相互肯定时,互信息量为正值;当当“X=xk”与与“Y=yj”这两个事件相互否定时,互信息量为负值。这两个
8、事件相互否定时,互信息量为负值。)2022/9/1913第13页,共143页,编辑于2022年,星期四条件互信息和联合事件互信息n三个事件集的条件互信息定义(定义定义2.1.2)为n可以推广到任意有限多个空间情况2022/9/1914第14页,共143页,编辑于2022年,星期四互信息的可加性系统u1u2u3系统u1u2u3意味着意味着:(:(u2,u3)联合给出的关于)联合给出的关于u1的信息量等于的信息量等于u2给出的关于给出的关于u1的信息量与的信息量与u2已知条件下已知条件下u3给出的关于给出的关于u1的信息量之和。的信息量之和。2022/9/1915第15页,共143页,编辑于202
9、2年,星期四非平均自信息量非平均自信息量定义定义2.1.3(非平均自信息量)给定一个离散型随机变量X,xk,qk,k=1K。事件xkX的自信息量定义为I(xk)=loga(1/qk),其中底数a是大于1的常数。自信息量的性质:自信息量的性质:(1)I(xk)0。(2)qk越小,越小,I(xk)越大。越大。(3)I(xk;yj)minI(xk),I(yj),即互信息量不超过各自的自信息,即互信息量不超过各自的自信息量。量。证明 注意到总有rkjminqk,j。(为什么?什么情况下相等?)。因此根据定义,I(xk;yj)I(xk),I(xk;yj)I(yj)。得证。2022/9/1916第16页,
10、共143页,编辑于2022年,星期四非平均自信息量的直观认识n若信源发某符号xi,没有信道中噪声的随机干扰,收信者收到的yj就是xi本身。收信者收到yj=xi后,当然就完全消除了对信源发符号xi的不确定性,即 收到yj=xi 后,收信者对信源发xi仍然存在 的不确定性=0nI(xi;xi)=收到xi前,收信者对信源发xi 的不确定性 =I(xi)2022/9/1917第17页,共143页,编辑于2022年,星期四2022/9/1918第18页,共143页,编辑于2022年,星期四2022/9/1919第19页,共143页,编辑于2022年,星期四2022/9/1920第20页,共143页,编辑
11、于2022年,星期四条件的非平均自信息量条件的非平均自信息量定义定义2.1.4(条件的非平均自信息量)给定一个二维离散型随机变量(X,Y),(xk,yj),rkj,k=1K;j=1J。在事件yj发生的条件下事件xk的条件自信息量定义为I(xk|yj)=loga(1/P(X=xk|Y=yj)=loga(wj/rkj)。(条件的非平均自信息量实际上是非平均自信息量的简单推广,只不过将概率换成了条件概率)。条件的非平均自信息量的特殊性质:条件的非平均自信息量的特殊性质:I(xk|yj)=I(xk)-I(xk;yj)。2022/9/1921第21页,共143页,编辑于2022年,星期四联合的非平均自信
12、息量联合的非平均自信息量定义定义2.1.5(联合的非平均自信息量)给定一个二维离散型随机变量(X,Y),(xk,yj),rkj,k=1K;j=1J。事件(xk,yj)(X,Y)的自信息量定义为I(xk,yj)=loga(1/rkj)。(联合的非平均自信息量实际上是非平均自信息量的简单推广。即可以将(X,Y)直接看成是一维的随机变量)。联合的非平均自信息量的特殊性质:联合的非平均自信息量的特殊性质:I(xk,yj)=I(yj)+I(xk|yj)=I(xk)+I(yj|xk)。I(xk,yj)=I(xk)+I(yj)-I(xk;yj)。2022/9/1922第22页,共143页,编辑于2022年,
13、星期四非平均信息量(事件的信息量)非平均信息量(事件的信息量)小结小结非平均互信息量I(xk;yj)。非平均自信息量I(xk),I(yj)。条件的非平均自信息量I(xk|yj),I(yj|xk)。联合的非平均自信息量I(xk,yj)。相互关系:I(xk;yj)minI(xk),I(yj)。I(xk|yj)=I(xk)-I(xk;yj)。I(xk,yj)=I(yj)+I(xk|yj)=I(xk)+I(yj|xk)。I(xk,yj)=I(xk)+I(yj)-I(xk;yj)。2022/9/1923第23页,共143页,编辑于2022年,星期四联合自信息、条件自信息和互信息I(xk)I(yj)I(x
14、k;yj)2022/9/1924第24页,共143页,编辑于2022年,星期四2.2 离散型随机变量的平均自信息量离散型随机变量的平均自信息量熵熵2022/9/1925第25页,共143页,编辑于2022年,星期四2022/9/1926第26页,共143页,编辑于2022年,星期四2022/9/1927第27页,共143页,编辑于2022年,星期四2022/9/1928第28页,共143页,编辑于2022年,星期四平均自信息量平均自信息量熵熵定义定义2.2.1(平均自信息量熵)离散型随机变量X,xk,qk,k=1K的平均自信息量(又称为熵)定义为如下的H(X),其中底数a是大于1的常数。202
15、2/9/1929第29页,共143页,编辑于2022年,星期四2022/9/1930第30页,共143页,编辑于2022年,星期四2022/9/1931第31页,共143页,编辑于2022年,星期四2022/9/1932第32页,共143页,编辑于2022年,星期四平均自信息量平均自信息量熵熵注意:(1)事件xk的自信息量值为I(xk)=loga(1/qk),因此H(X)是随机变量X的各事件自信息量值的“数学期望”。(2)定义H(X)时,允许某个qk=0。(此时将qkloga(1/qk)通盘考虑)此时补充定义qkloga(1/qk)=0。这个定义是合理的,因为2022/9/1933第33页,共
16、143页,编辑于2022年,星期四平均自信息量平均自信息量熵熵例例2.2.1 离散型随机变量X有两个事件x1和x2,P(X=x1)=p,P(X=x2)=1-p。则X的平均自信息量(熵)为H(X)=ploga(1/p)+(1-p)loga(1/(1-p)。观察H(X)(它是p的函数,图2.2.1给出了函数图象,该图象具有某种对称性),有当p=0或p=1时,H(X)=0。(随机变量X退化为常数时,熵为0)当0p0。p越靠近1/2,H(X)越大。(X是真正的随机变量时,总有正的熵。随机性越大,熵越大)当p=1/2时,H(X)达到最大。(随机变量X的随机性最大时,熵最大。特别如果底数a=2,则H(X)
17、=1比特)2022/9/1934第34页,共143页,编辑于2022年,星期四图图2.2.1 H(X)1.00.5 0 0.5 1 P 2022/9/1935第35页,共143页,编辑于2022年,星期四2022/9/1936第36页,共143页,编辑于2022年,星期四2022/9/1937第37页,共143页,编辑于2022年,星期四2022/9/1938第38页,共143页,编辑于2022年,星期四2022/9/1939第39页,共143页,编辑于2022年,星期四2022/9/1940第40页,共143页,编辑于2022年,星期四2022/9/1941第41页,共143页,编辑于202
18、2年,星期四2022/9/1942第42页,共143页,编辑于2022年,星期四条件平均自信息量(条件熵)条件平均自信息量(条件熵)定义定义2.2.2(条件熵)给定一个二维离散型随机变量(X,Y),(xk,yj),rkj,k=1K;j=1J。称如下定义的H(X|Y)为X相对于Y的条件熵。2022/9/1943第43页,共143页,编辑于2022年,星期四2.2 离散型随机变量的平均自离散型随机变量的平均自信息量(熵)信息量(熵)定义定义2.2.3(联合熵)二维离散型随机变量(X,Y),(xk,yj),rkj,k=1K;j=1J的联合熵定义为2022/9/1944第44页,共143页,编辑于20
19、22年,星期四2.2 离散型随机变量的平均自离散型随机变量的平均自信息量(熵)信息量(熵)熵、条件熵、联合熵之间的关系:(1)H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)。(由定义容易证明)(2)当X与Y相互独立时,H(Y|X)=H(Y),因此此时H(X,Y)=H(X)+H(Y)。证明 此时2022/9/1945第45页,共143页,编辑于2022年,星期四2.2 离散型随机变量的平均自离散型随机变量的平均自信息量(熵)信息量(熵)熵的性质熵的性质 对于随机变量X,xk,qk,k=1K的熵H(X)=kqkloga(1/qk),有以下的性质。1、H(X)与事件xk,k=1K的具体
20、形式无关,仅仅依赖于概率向量qk,k=1K。而且H(X)与概率向量qk,k=1K的分量排列顺序无关。2、H(X)0。完全同理,H(X|Y)0;H(Y|X)0;H(X,Y)0。3、确定性:当概率向量qk,k=1K的一个分量为1时(此时其它分量均为0),H(X)=0。(这就是说,当随机变量X实际上是个常量时,不含有任何信息量)。2022/9/1946第46页,共143页,编辑于2022年,星期四2.2 离散型随机变量的平均自离散型随机变量的平均自信息量(熵)信息量(熵)4、可忽略性:当随机变量X的某个事件的概率很小时,该事件对熵的贡献可以忽略不计。(虽然小概率事件的自信息量很大。这是因为当qk0时
21、,qkloga(1/qk)0)。5、可加性:H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)。因此,H(X,Y)H(X);H(X,Y)H(Y)。(性质5有一个隐含的结论:设X的概率向量为q1,q2,qK,Y的概率向量为q1,q2,qK-2,qK-1+qK,其中qK-1qK0,则H(X)H(Y)。)2022/9/1947第47页,共143页,编辑于2022年,星期四2.2 离散型随机变量的平均自离散型随机变量的平均自信息量(熵)信息量(熵)6、极值性:H(X)logaK。当q1=q2=qK=1/K时,才有H(X)=logaK。(以下是极值性的证明过程)引理引理1 对任何x0总有lnx
22、x-1。证明 令f(x)=lnx-(x-1),则f(x)=1/x-1。因此当0 x0;当x1时f(x)0。换句话说,当0 x1时,f(x)的值严格单调减。注意到f(1)=0。所以对任何x0总有f(x)f(1)=0。得证。2022/9/1948第48页,共143页,编辑于2022年,星期四2.2 离散型随机变量的平均自离散型随机变量的平均自信息量(熵)信息量(熵)引理引理2 设有两个K维概率向量(什么叫概率向量?每个分量都是非负的,且各分量之和等于1)qk,k=1K和pk,k=1K。则总满足 2022/9/1949第49页,共143页,编辑于2022年,星期四2.2 离散型随机变量的平均自离散型
23、随机变量的平均自信息量(熵)信息量(熵)证明 注意到引理1,2022/9/1950第50页,共143页,编辑于2022年,星期四2.2 离散型随机变量的平均自离散型随机变量的平均自信息量(熵)信息量(熵)引理2得证。(注意:此证明过程省略了若干细节,比如当概率向量的某个分量为0时,情况比较复杂)极值性的证明极值性的证明 qk,k=1K是一个K维概率向量。令pk=1/K,k=1K。则pk,k=1K也是一个K维概率向量。由引理2,H(X)=kqkloga(1/qk)kqkloga(1/(1/K)=logaK。得证。2022/9/1951第51页,共143页,编辑于2022年,星期四2.4 离散型随
24、机变量的平均互离散型随机变量的平均互信息量信息量2022/9/1952第52页,共143页,编辑于2022年,星期四2.4 离散型随机变量的平均互离散型随机变量的平均互信息量信息量2022/9/1953第53页,共143页,编辑于2022年,星期四2.4 离散型随机变量的平均互离散型随机变量的平均互信息量信息量定义定义2.4.1(平均互信息量)给定一个二维离散型随机变量(X,Y),(xk,yj),rkj,k=1K;j=1J(因此就给定了两个离散型随机变量X,xk,qk,k=1K和Y,yj,wj,j=1J)。X与Y的平均互信息量定义为如下的I(X;Y):2022/9/1954第54页,共143页
25、,编辑于2022年,星期四注意:事件对(xk,yj)的“非平均互信息量”值为I(xk;yj)。此外,可以定义“半平均互信息量”I(xk;Y)和I(X;yj)。I(xk;Y)表示事件“X=xk”与随机变量Y之间的半平均互信息量;I(X;yj)表示事件“Y=yj”与随机变量X之间的半平均互信息量。2022/9/1955第55页,共143页,编辑于2022年,星期四2.4 离散型随机变量的平均互离散型随机变量的平均互信息量信息量平均互信息量的性质平均互信息量的性质 1、I(X;Y)0。(虽然每个“非平均互信息量”I(xk;yj)未必非负,但平均互信息量I(X;Y)非负)证明2022/9/1956第5
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息论 编码 理论基础 第二 幻灯片
限制150内