信息论与编码理论基础第二章幻灯片.ppt

资源ID：43984462 资源大小：5.15MB 全文页数：143页
资源格式： PPT 下载积分：18金币

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要18金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

信息论与编码理论基础第二章幻灯片.ppt

信息论与编码理论基础第二章2022/9/191第1页，共143页，编辑于2022年，星期四2.1 离散型随机变量的离散型随机变量的非平均信息量非平均信息量（事件的信息量）（事件的信息量）2022/9/192第2页，共143页，编辑于2022年，星期四非平均互信息量输入输入输入输入消息消息消息消息码字码字码字码字（输出）（输出）（输出）（输出）p(xp(xk k)收到收到收到收到0 0收到收到收到收到0101收到收到收到收到011011X1X2X3X4X5X6X7x80000010100111001011101111/81/81/81/81/81/81/81/81/41/41/41/40000001/21/2000000010000例例2.1.12022/9/193第3页，共143页，编辑于2022年，星期四非平均互信息量输入消息输入消息码字码字p(xk)收到收到0收到收到01收到收到011X1X2X3X4X5X6X7x80000010100111001011101111/81/41/81/41/161/161/161/161/61/31/61/30000001/32/30000000100002022/9/194第4页，共143页，编辑于2022年，星期四直观认识n对观察者来说，同样观察事件011，但输入消息等概情况下“收获”要大些，即得到的“信息”要多些。n越是不太可能发生的事件竟然发生了，越是令人震惊令人震惊。获得的“信息”要多些。2022/9/195第5页，共143页，编辑于2022年，星期四非平均互信息量n 例2.1.2输入消息码字p(xk)收到0收到01收到010X1X20001111/21/21-pp1/21/21-pp1-p1-p0011pp2022/9/196第6页，共143页，编辑于2022年，星期四直观认识n在接收010的过程中，消息出现的可能性，即后验概率也在不断变化，但变化趋势不再像例2.1.1 那样单调地变化，而是有起伏的，且最后并未达到1或0.n观察到010之后不能断定是哪个消息出现了。但是由观察结果计算出来的某个消息出现的后验概率大于1/2或小于1/2,使我们可比未观察前较有把握地推断消息出现的可能性，因而多少得到了一些有关出现的“信息”。n若p1/2，也即010是消息x1的输出可能性大。2022/9/197第7页，共143页，编辑于2022年，星期四直观认识n从上述两个系统可以看出，在一个系统中我们所关心的输入是哪个消息的问题，只与事件出现的先验概率和经过观察后事件出现的后验概率有关。n信息应当是先验概率和后验概率的函数，即 I(xk;yj)=f Q(x),P(xk|yj)2022/9/198第8页，共143页，编辑于2022年，星期四n研究表明：信息量就表示成为事件的后验概率与事件的先验概率之比的对数函数!2022/9/199第9页，共143页，编辑于2022年，星期四非平均互信息量（本章将给出各种信息量的定义和它们的性质。）定义定义2.1.1(非平均互信息量)给定一个二维离散型随机变量（因此就给定了两个离散型随机变量。事件xkX与事件yjY的互信息量定义为2022/9/1910第10页，共143页，编辑于2022年，星期四非平均互信息量直观认识n若信源发某符号xi,由于信道中噪声的随机干扰，收信者收到的是xi的某种变形yj，收信者收到yj后，从yj中获取xi的信息量用I(xi;yj)表示，则有nI(xi;yj)=收到yj 前，收信者对信源发xi 的不确定性 -收到yj 后，收信者对信源发xi仍然存在的不确定性 =收信者收到yj 前后，收信者对信源发xi 的不确定性的消除2022/9/1911第11页，共143页，编辑于2022年，星期四非平均互信息量性质非平均互信息量性质其中底数a是大于1的常数。常用a=2或a=e，当a=2时互信息量的单位为“比特”。互信息量的性质：互信息量的性质：（1）I(xk;yj)=loga(rkj/(qkwj)。因此有对称性：。因此有对称性：I(xk;yj)=I(yj;xk)。（2）当）当rkj=qkwj时时I(xk;yj)=0。（即当（即当(rkj/qk)=wj时，时，I(xk;yj)=0。又即当又即当(rkj/wj)=qk时，时，I(xk;yj)=0。换句话说，当换句话说，当“X=xk”与与“Y=yj”这两个事件相互独立时，互信息量为这两个事件相互独立时，互信息量为0）。）。2022/9/1912第12页，共143页，编辑于2022年，星期四非平均互信息量性质非平均互信息量性质（3）当）当rkjqkwj时时I(xk;yj)0，当，当rkjqkwj时时I(xk;yj)wj时，时，I(xk;yj)0；当当(rkj/qk)wj时，时，I(xk;yj)0。换句话说，换句话说，当当“X=xk”与与“Y=yj”这两个事件相互肯定时，互信息量为正值；这两个事件相互肯定时，互信息量为正值；当当“X=xk”与与“Y=yj”这两个事件相互否定时，互信息量为负值。这两个事件相互否定时，互信息量为负值。）2022/9/1913第13页，共143页，编辑于2022年，星期四条件互信息和联合事件互信息n三个事件集的条件互信息定义（定义定义2.1.2）为n可以推广到任意有限多个空间情况2022/9/1914第14页，共143页，编辑于2022年，星期四互信息的可加性系统u1u2u3系统u1u2u3意味着意味着：（：（u2,u3）联合给出的关于）联合给出的关于u1的信息量等于的信息量等于u2给出的关于给出的关于u1的信息量与的信息量与u2已知条件下已知条件下u3给出的关于给出的关于u1的信息量之和。的信息量之和。2022/9/1915第15页，共143页，编辑于2022年，星期四非平均自信息量非平均自信息量定义定义2.1.3(非平均自信息量)给定一个离散型随机变量X,xk,qk,k=1K。事件xkX的自信息量定义为I(xk)=loga(1/qk)，其中底数a是大于1的常数。自信息量的性质：自信息量的性质：（1）I(xk)0。（2）qk越小，越小，I(xk)越大。越大。（3）I(xk;yj)minI(xk)，I(yj)，即互信息量不超过各自的自信息，即互信息量不超过各自的自信息量。量。证明注意到总有rkjminqk,j。（为什么？什么情况下相等？）。因此根据定义，I(xk;yj)I(xk)，I(xk;yj)I(yj)。得证。2022/9/1916第16页，共143页，编辑于2022年，星期四非平均自信息量的直观认识n若信源发某符号xi,没有信道中噪声的随机干扰，收信者收到的yj就是xi本身。收信者收到yj=xi后，当然就完全消除了对信源发符号xi的不确定性，即收到yj=xi 后，收信者对信源发xi仍然存在的不确定性=0nI(xi;xi)=收到xi前，收信者对信源发xi 的不确定性 =I(xi)2022/9/1917第17页，共143页，编辑于2022年，星期四2022/9/1918第18页，共143页，编辑于2022年，星期四2022/9/1919第19页，共143页，编辑于2022年，星期四2022/9/1920第20页，共143页，编辑于2022年，星期四条件的非平均自信息量条件的非平均自信息量定义定义2.1.4(条件的非平均自信息量)给定一个二维离散型随机变量(X,Y),(xk,yj),rkj,k=1K;j=1J。在事件yj发生的条件下事件xk的条件自信息量定义为I(xk|yj)=loga(1/P(X=xk|Y=yj)=loga(wj/rkj)。（条件的非平均自信息量实际上是非平均自信息量的简单推广，只不过将概率换成了条件概率）。条件的非平均自信息量的特殊性质：条件的非平均自信息量的特殊性质：I(xk|yj)=I(xk)-I(xk;yj)。2022/9/1921第21页，共143页，编辑于2022年，星期四联合的非平均自信息量联合的非平均自信息量定义定义2.1.5(联合的非平均自信息量)给定一个二维离散型随机变量(X,Y),(xk,yj),rkj,k=1K;j=1J。事件(xk,yj)(X,Y)的自信息量定义为I(xk,yj)=loga(1/rkj)。（联合的非平均自信息量实际上是非平均自信息量的简单推广。即可以将(X,Y)直接看成是一维的随机变量）。联合的非平均自信息量的特殊性质：联合的非平均自信息量的特殊性质：I(xk,yj)=I(yj)+I(xk|yj)=I(xk)+I(yj|xk)。I(xk,yj)=I(xk)+I(yj)-I(xk;yj)。2022/9/1922第22页，共143页，编辑于2022年，星期四非平均信息量（事件的信息量）非平均信息量（事件的信息量）小结小结非平均互信息量I(xk;yj)。非平均自信息量I(xk)，I(yj)。条件的非平均自信息量I(xk|yj)，I(yj|xk)。联合的非平均自信息量I(xk,yj)。相互关系：I(xk;yj)minI(xk)，I(yj)。I(xk|yj)=I(xk)-I(xk;yj)。I(xk,yj)=I(yj)+I(xk|yj)=I(xk)+I(yj|xk)。I(xk,yj)=I(xk)+I(yj)-I(xk;yj)。2022/9/1923第23页，共143页，编辑于2022年，星期四联合自信息、条件自信息和互信息I(xk)I(yj)I(xk;yj)2022/9/1924第24页，共143页，编辑于2022年，星期四2.2 离散型随机变量的平均自信息量离散型随机变量的平均自信息量熵熵2022/9/1925第25页，共143页，编辑于2022年，星期四2022/9/1926第26页，共143页，编辑于2022年，星期四2022/9/1927第27页，共143页，编辑于2022年，星期四2022/9/1928第28页，共143页，编辑于2022年，星期四平均自信息量平均自信息量熵熵定义定义2.2.1(平均自信息量熵)离散型随机变量X,xk,qk,k=1K的平均自信息量（又称为熵）定义为如下的H(X)，其中底数a是大于1的常数。2022/9/1929第29页，共143页，编辑于2022年，星期四2022/9/1930第30页，共143页，编辑于2022年，星期四2022/9/1931第31页，共143页，编辑于2022年，星期四2022/9/1932第32页，共143页，编辑于2022年，星期四平均自信息量平均自信息量熵熵注意：（1）事件xk的自信息量值为I(xk)=loga(1/qk)，因此H(X)是随机变量X的各事件自信息量值的“数学期望”。（2）定义H(X)时，允许某个qk=0。（此时将qkloga(1/qk)通盘考虑）此时补充定义qkloga(1/qk)=0。这个定义是合理的，因为2022/9/1933第33页，共143页，编辑于2022年，星期四平均自信息量平均自信息量熵熵例例2.2.1 离散型随机变量X有两个事件x1和x2，P(X=x1)=p，P(X=x2)=1-p。则X的平均自信息量（熵）为H(X)=ploga(1/p)+(1-p)loga(1/(1-p)。观察H(X)（它是p的函数，图2.2.1给出了函数图象，该图象具有某种对称性），有当p=0或p=1时，H(X)=0。（随机变量X退化为常数时，熵为0）当0p0。p越靠近1/2，H(X)越大。（X是真正的随机变量时，总有正的熵。随机性越大，熵越大）当p=1/2时，H(X)达到最大。（随机变量X的随机性最大时，熵最大。特别如果底数a=2，则H(X)=1比特）2022/9/1934第34页，共143页，编辑于2022年，星期四图图2.2.1 H(X)1.00.5 0 0.5 1 P 2022/9/1935第35页，共143页，编辑于2022年，星期四2022/9/1936第36页，共143页，编辑于2022年，星期四2022/9/1937第37页，共143页，编辑于2022年，星期四2022/9/1938第38页，共143页，编辑于2022年，星期四2022/9/1939第39页，共143页，编辑于2022年，星期四2022/9/1940第40页，共143页，编辑于2022年，星期四2022/9/1941第41页，共143页，编辑于2022年，星期四2022/9/1942第42页，共143页，编辑于2022年，星期四条件平均自信息量（条件熵）条件平均自信息量（条件熵）定义定义2.2.2(条件熵)给定一个二维离散型随机变量(X,Y),(xk,yj),rkj,k=1K;j=1J。称如下定义的H(X|Y)为X相对于Y的条件熵。2022/9/1943第43页，共143页，编辑于2022年，星期四2.2 离散型随机变量的平均自离散型随机变量的平均自信息量（熵）信息量（熵）定义定义2.2.3(联合熵)二维离散型随机变量(X,Y),(xk,yj),rkj,k=1K;j=1J的联合熵定义为2022/9/1944第44页，共143页，编辑于2022年，星期四2.2 离散型随机变量的平均自离散型随机变量的平均自信息量（熵）信息量（熵）熵、条件熵、联合熵之间的关系：（1）H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)。（由定义容易证明）（2）当X与Y相互独立时，H(Y|X)=H(Y)，因此此时H(X,Y)=H(X)+H(Y)。证明此时2022/9/1945第45页，共143页，编辑于2022年，星期四2.2 离散型随机变量的平均自离散型随机变量的平均自信息量（熵）信息量（熵）熵的性质熵的性质对于随机变量X,xk,qk,k=1K的熵H(X)=kqkloga(1/qk)，有以下的性质。1、H(X)与事件xk,k=1K的具体形式无关，仅仅依赖于概率向量qk,k=1K。而且H(X)与概率向量qk,k=1K的分量排列顺序无关。2、H(X)0。完全同理，H(X|Y)0；H(Y|X)0；H(X,Y)0。3、确定性：当概率向量qk,k=1K的一个分量为1时（此时其它分量均为0），H(X)=0。（这就是说，当随机变量X实际上是个常量时，不含有任何信息量）。2022/9/1946第46页，共143页，编辑于2022年，星期四2.2 离散型随机变量的平均自离散型随机变量的平均自信息量（熵）信息量（熵）4、可忽略性：当随机变量X的某个事件的概率很小时，该事件对熵的贡献可以忽略不计。（虽然小概率事件的自信息量很大。这是因为当qk0时，qkloga(1/qk)0）。5、可加性：H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)。因此，H(X,Y)H(X)；H(X,Y)H(Y)。（性质5有一个隐含的结论：设X的概率向量为q1,q2,qK，Y的概率向量为q1,q2,qK-2,qK-1+qK，其中qK-1qK0，则H(X)H(Y)。）2022/9/1947第47页，共143页，编辑于2022年，星期四2.2 离散型随机变量的平均自离散型随机变量的平均自信息量（熵）信息量（熵）6、极值性：H(X)logaK。当q1=q2=qK=1/K时，才有H(X)=logaK。（以下是极值性的证明过程）引理引理1 对任何x0总有lnxx-1。证明令f(x)=lnx-(x-1)，则f(x)=1/x-1。因此当0 x0；当x1时f(x)0。换句话说，当0 x1时，f(x)的值严格单调减。注意到f(1)=0。所以对任何x0总有f(x)f(1)=0。得证。2022/9/1948第48页，共143页，编辑于2022年，星期四2.2 离散型随机变量的平均自离散型随机变量的平均自信息量（熵）信息量（熵）引理引理2 设有两个K维概率向量（什么叫概率向量？每个分量都是非负的，且各分量之和等于1）qk,k=1K和pk,k=1K。则总满足 2022/9/1949第49页，共143页，编辑于2022年，星期四2.2 离散型随机变量的平均自离散型随机变量的平均自信息量（熵）信息量（熵）证明注意到引理1，2022/9/1950第50页，共143页，编辑于2022年，星期四2.2 离散型随机变量的平均自离散型随机变量的平均自信息量（熵）信息量（熵）引理2得证。（注意：此证明过程省略了若干细节，比如当概率向量的某个分量为0时，情况比较复杂）极值性的证明极值性的证明 qk,k=1K是一个K维概率向量。令pk=1/K，k=1K。则pk,k=1K也是一个K维概率向量。由引理2，H(X)=kqkloga(1/qk)kqkloga(1/(1/K)=logaK。得证。2022/9/1951第51页，共143页，编辑于2022年，星期四2.4 离散型随机变量的平均互离散型随机变量的平均互信息量信息量2022/9/1952第52页，共143页，编辑于2022年，星期四2.4 离散型随机变量的平均互离散型随机变量的平均互信息量信息量2022/9/1953第53页，共143页，编辑于2022年，星期四2.4 离散型随机变量的平均互离散型随机变量的平均互信息量信息量定义定义2.4.1(平均互信息量)给定一个二维离散型随机变量(X,Y),(xk,yj),rkj,k=1K;j=1J（因此就给定了两个离散型随机变量X,xk,qk,k=1K和Y,yj,wj,j=1J）。X与Y的平均互信息量定义为如下的I(X;Y)：2022/9/1954第54页，共143页，编辑于2022年，星期四注意：事件对(xk,yj)的“非平均互信息量”值为I(xk;yj)。此外，可以定义“半平均互信息量”I(xk;Y)和I(X;yj)。I(xk;Y)表示事件“X=xk”与随机变量Y之间的半平均互信息量；I(X;yj)表示事件“Y=yj”与随机变量X之间的半平均互信息量。2022/9/1955第55页，共143页，编辑于2022年，星期四2.4 离散型随机变量的平均互离散型随机变量的平均互信息量信息量平均互信息量的性质平均互信息量的性质 1、I(X;Y)0。（虽然每个“非平均互信息量”I(xk;yj)未必非负，但平均互信息量I(X;Y)非负）证明2022/9/1956第56页，共143页，编辑于2022年，星期四2.4 离散型随机变量的平均互离散型随机变量的平均互信息量信息量rkj,k=1K;j=1J是一个概率向量：qkwj,k=1K;j=1J是另一个概率向量：故由引理2知，2022/9/1957第57页，共143页，编辑于2022年，星期四2.4 离散型随机变量的平均互离散型随机变量的平均互信息量信息量2、对称性：I(X;Y)=I(Y;X)。3、平均互信息量的熵表示：I(X;Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)=H(X)+H(Y)-H(XY)。证明2022/9/1958第58页，共143页，编辑于2022年，星期四2.4 离散型随机变量的平均互离散型随机变量的平均互信息量信息量2022/9/1959第59页，共143页，编辑于2022年，星期四2.4 离散型随机变量的平均互离散型随机变量的平均互信息量信息量3、若X与Y相互独立，则I(X;Y)=0，H(X|Y)=H(X)，H(Y|X)=H(Y)，H(XY)=H(X)+H(Y)。证明若X与Y相互独立，则rkj=qkwj,k=1K;j=1J。因此此时loga(rkj/(qkwj)=0，k=1K;j=1J。因此I(X;Y)=0。再由性质3，性质3得证。2022/9/1960第60页，共143页，编辑于2022年，星期四2.4 离散型随机变量的平均互离散型随机变量的平均互信息量信息量4、I(X;Y)H(X)，I(X;Y)H(Y)。（性质4有多种简单的证明方法。第一种证明方法：由I(X;Y)的定义，loga(rkj/(qkwj)loga(1/qk)。第二种证明方法：由性质3，I(X;Y)=H(X)-H(X|Y)H(X)。）4、若X是Y的确定的函数X=g(Y)，则I(X;Y)=H(X)H(Y)。若Y是X的确定的函数Y=g(X)，则I(X;Y)=H(Y)H(X)。（证略）2022/9/1961第61页，共143页，编辑于2022年，星期四2.4 离散型随机变量的平均互离散型随机变量的平均互信息量信息量一般印象一般印象（平均互信息量I(X;Y)的各种性质与我们对“平均互信息量”这个名词的直观理解非常吻合）。一般情形：总有0I(X;Y)minH(X),H(Y)。一种极端情形：若X与Y相互独立，则I(X;Y)=0。另一种极端情形：若X、Y中有一个完全是另一个的确定的函数，则I(X;Y)=minH(X),H(Y)。2022/9/1962第62页，共143页，编辑于2022年，星期四2.4 离散型随机变量的平均互离散型随机变量的平均互信息量信息量定理定理2.4.1(信息处理定理)对于以下给定的系统串联有：I(X;Y)I(X;Z)。信息处理定理的含义：串联的系统越多，两端的平均互信息量越小。信息处理定理的证明思想：注意到X、Z、Y构成了马尔可夫链。简单地说，在已知Z的条件下，X与Y条件独立。根据这种马尔可夫链结构，可以证明I(X;Y)I(X;Z)。（证略）2022/9/1963第63页，共143页，编辑于2022年，星期四2.1 2.4 诸概念直观理解诸概念直观理解两个事件的非平均互信息量：互相肯定的程度。一个事件的非平均自信息量：令人震惊的程度。一个随机变量的平均自信息量（熵）：不可预测的程度。一个随机变量X相对于另一个随机变量Y的条件熵：当Y的值确定时，X剩余的不可预测的程度。二维随机变量(XY)的联合熵：联合不可预测的程度。两个随机变量X与Y的平均互信息量：互相依赖的程度。（当Y的值确定时，X的可预测的程度；当Y的值确定时，所能够给出的X的信息量）（当X的值确定时，Y的可预测的程度；当X的值确定时，所能够给出的Y的信息量）事件X=x与随机变量Y的半平均互信息量：当X=x时，所能够给出的Y 的信息量。2022/9/1964第64页，共143页，编辑于2022年，星期四2.2 和和2.4 中的若干公式中的若干公式恒等式I(X;Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)=H(X)+H(Y)-H(XY)由定义容易看出第一类不等式H(X)logaK；I(X;Y)0；H(XY)H(X)+H(Y)；H(X|Y)H(X)；H(Y|X)H(Y)。根据引理1和引理2来证明第二类不等式I(X;Y)minH(X),H(Y)；H(XY)maxH(X),H(Y)。根据概率论的基本事实来证明独立情形下的等式I(X;Y)=0，H(X|Y)=H(X)，H(Y|X)=H(Y)，H(XY)=H(X)+H(Y)。第一类不等式的特殊情形2022/9/1965第65页，共143页，编辑于2022年，星期四2.5 连续型随机变量的连续型随机变量的平均互信息量平均互信息量和微分熵和微分熵2022/9/1966第66页，共143页，编辑于2022年，星期四事件互信息量定义定义2.5.1 给定二维连续型随机变量(X,Y),p(X,Y)(x,y)（因此就给定了两个连续型随机变量X,pX(x)和Y,pY(y)）。事件xX与事件yY的互信息量定义为2022/9/1967第67页，共143页，编辑于2022年，星期四平均互信息量平均互信息量定义定义2.5.2 给定二维连续型随机变量(X,Y),p(X,Y)(x,y)（因此就给定了两个连续型随机变量X,pX(x)和Y,pY(y)）。X与Y的平均互信息量定义为 2022/9/1968第68页，共143页，编辑于2022年，星期四平均互信息量性质平均互信息量性质平均互信息量的性质平均互信息量的性质 1、I(X;Y)0。2、对称性：I(X;Y)=I(Y;X),3、信息处理定理：对于如下的系统串联有I(X;Y)I(X;Z)。4、2022/9/1969第69页，共143页，编辑于2022年，星期四微分熵、相对熵微分熵、相对熵（连续型随机变量为什么不能类似地定义平均自信息量熵？这是因为，连续型随机变量的事件有无穷多个，每个事件发生的概率无穷小。如果类似地定义熵，则熵是无穷大。因此只能定义所谓“微分熵”，而“微分熵”的直观合理性大打折扣。比如“微分熵”可以是负的）微分熵的定义微分熵的定义给定连续型随机变量X,pX(x)。X的微分熵(又称为相对熵)定义为2022/9/1970第70页，共143页，编辑于2022年，星期四联合微分熵联合微分熵联合的微分熵的定义联合的微分熵的定义给定二维连续型随机变量(X,Y),p(X,Y)(x,y)。(X,Y)的联合的微分熵定义为2022/9/1971第71页，共143页，编辑于2022年，星期四例题例题例例2.5.1 设(XY)是连续型的二维随机变量，其联合分布密度函数pXY(xy)为二维高斯概率密度函数（二元正态密度函数）：2022/9/1972第72页，共143页，编辑于2022年，星期四例题例题2022/9/1973第73页，共143页，编辑于2022年，星期四例题例题例2.5.2 设XU(a,b)，求X的微分熵（相对熵）（我们将发现，X的相对熵未必非负）。2022/9/1974第74页，共143页，编辑于2022年，星期四例题例题例2.5.3 设XN(m,2)，求X的微分熵（相对熵）（我们将发现，X的相对熵未必非负）。2022/9/1975第75页，共143页，编辑于2022年，星期四例题例题熵功率2022/9/1976第76页，共143页，编辑于2022年，星期四微分熵的极大化微分熵的极大化（已知：当离散型随机变量X的事件有K个时，H(X)logaK；只有当X服从等概分布时才有H(X)=logaK）n1.峰值功率受限n均匀分布相对熵最大定理定理2.5.1 若连续型随机变量X的取值范围在区间(-M,M)之内（即当x不在区间(-M,M)时，fX(x)=0），则Hc(X)loga 2M；只有当X服从U(-M,M)分布时才有Hc(X)=loga 2M。2022/9/1977第77页，共143页，编辑于2022年，星期四微分熵的极大化微分熵的极大化n2.平均功率受限n高斯分布相对熵最大定理定理2.5.2 若连续型随机变量X的方差等于2，则Hc(X)(1/2)loga(2e2)；只有当X服从N(m,2)分布时才有Hc(X)=(1/2)loga(2e2)。n3.平均功率大于等于熵功率2022/9/1978第78页，共143页，编辑于2022年，星期四2.6 凸函数与凸函数与(离散型随机变量的离散型随机变量的)平均互平均互信息量的凸性信息量的凸性2022/9/1979第79页，共143页，编辑于2022年，星期四凸函数n凸集R：a，b属于R，qa+(1-q)b也属于R，其中0q1n概率矢量矢量a的所有分量和为1n上凸函数2022/9/1980第80页，共143页，编辑于2022年，星期四凸函数的性质1.f(a)是上凸的，f(a)是下凸的2.f1(a),fL(a)是R上的上凸函数，c1,cL是正数，c1f1(a)+cLfL(a)也是上凸函数3.f(a)是上凸函数，Ef(a)fE(a),E为求数学期望2022/9/1981第81页，共143页，编辑于2022年，星期四K-T条件f(a)是定义域R上的上凸函数，a是概率矢量。偏导数存在且连续，f(a)在R上为极大的充分必要条件2022/9/1982第82页，共143页，编辑于2022年，星期四互信息的凸性记离散型随机变量X的事件为1，2，K。记X的概率分布为P(X=k)=qk，k=1K。记离散型随机变量Y的事件为1，2，J。记条件概率P(Y=j|X=k)=p(j|k)。则rkj=P(X,Y)=(k,j)=qkp(j|k)，（概率论中的乘法公式）wj=P(Y=j)=k qkp(j|k)，（概率论中的全概率公式）2022/9/1983第83页，共143页，编辑于2022年，星期四互信息的凸性np(j|k)给定，I(X;Y)是q(x)的上凸函数nq=(q1,q2,qK)给定，I(X;Y)是p(j|k)的下凸函数2022/9/1984第84页，共143页，编辑于2022年，星期四互信息的凸性互信息的凸性设条件概率p(j|k)，k=1K，j=1J被确定。此时I(X,Y)是概率向量q=(q1,q2,qK)的函数。我们希望找到这样的概率向量，使得对应的I(X,Y)达到最大。这就是说，记我们希望找到这样的K维概率向量a=(a1,a2,aK)，使得2022/9/1985第85页，共143页，编辑于2022年，星期四互信息的凸性互信息的凸性（本节的核心内容是定理2.6.2，但它有太长的推导。）简述定理简述定理2.6.2的含义的含义 K维概率向量a=(a1,a2,aK)使得当且仅当：以a为X的概率向量的时候，I(X=k;Y)对所有ak0的k都取一个相同的值C；I(X=k;Y)对所有满足ak=0的k都取值不超过上述的相同值C。其中2022/9/1986第86页，共143页，编辑于2022年，星期四2.6 凸函数与凸函数与(离散型随机变离散型随机变量的量的)平均互信息量的凸性平均互信息量的凸性I(X=k;Y)表示什么？表示事件X=k与随机变量Y之间的“半平均互信息量”。2022/9/1987第87页，共143页，编辑于2022年，星期四2.6 凸函数与凸函数与(离散型随机变离散型随机变量的量的)平均互信息量的凸性平均互信息量的凸性例例设X的事件有0、1；Y的事件有0、1；已知p(0|0)=1-u；p(1|0)=u；p(0|1)=u；p(1|1)=1-u。当X服从等概分布（a0=P(X=0)=1/2；a1=P(X=1)=1/2）时，I(X;Y)达到最大。因为此时2022/9/1988第88页，共143页，编辑于2022年，星期四2.6 凸函数与凸函数与(离散型随机变离散型随机变量的量的)平均互信息量的凸性平均互信息量的凸性2022/9/1989第89页，共143页，编辑于2022年，星期四习题课习题课2.3 掷一对无偏的骰子，若告诉你得到的总的点数为：(a)7；(b)12。试问各得到了多少信息量?2.3的解答这是求事件的自信息量事件的自信息量。记随机变量X=“总的点数”，则所以，事件“X=7”的自信息量为log2(36/7)；事件“X=12”的自信息量为log2(36)。2022/9/1990第90页，共143页，编辑于2022年，星期四习题课习题课2.4 经过充分洗牌后的一付扑克(含52张牌)，试问：(a)任何一种特定排列所给出的信息量是多少?(b)若从中抽取13张牌，所给出的点数都不相同时得到多少信息量?2.4的解答这是求事件的自信息量事件的自信息量。(a)任一特定排列的概率都是(1/52!)，所以自信息量为log2(52!)；(b)从52张牌中抽取13张牌，共有种抽取方法。而使得所给出的点数都不相同的抽取方法有种。所以事件“点数都不相同”的概率为，自信息量为。2022/9/1991第91页，共143页，编辑于2022年，星期四习题课习题课2.6 园丁植树一行，若有3棵白杨、4棵白桦和5棵梧桐。设这12棵树可随机地排列，且每一种排列都是等可能的。若告诉你没有两棵梧桐树相邻时，你得到了多少关于树的排列的信息?2.6的解答共有12！种不同的排列。满足“没有两棵梧桐树相邻”的排列个数为81+72+63+54+45+36+27+18=120（为什么？）记X=“树的排列情况”，Y=“梧桐树有无相邻位置”。则本题要求半平均互信息量2022/9/1992第92页，共143页，编辑于2022年，星期四习题课习题课X有12！个不同的事件x，每个事件x的概率为1/(12！)。Y有2个不同的事件，“Y=无”的概率为120/(12！)，“Y=有”的概率为(12！-120)/(12！)。以下要计算：在“Y=无”的条件下，X=x（x为某个特定排列）的条件概率P(X=x|Y=无)。若在x这个特定排列中，梧桐树有相邻位置，则P(X=x|Y=无)=0；若在x这个特定排列中，梧桐树无相邻位置，则2022/9/1993第93页，共143页，编辑于2022年，星期四习题课习题课2022/9/1994第94页，共143页，编辑于2022年，星期四习题课习题课2.7 某校入学考试中有1/4考生被录取，3/4考生未被录取。被录取的考生中有50%来自本市，而落榜考生中有10来自本市。所有本市的考生都学过英语，而外地落榜考生中以及被录取的外地考生中都有40%学过英语。(a)当己知考生来自本市时，给出多少关于考生是否被录取的信息?(b)当已知考生学过英语时，给出多少有关考生是否被录取的信息?(c)以x表示是否被录取，y表示是否为本市学生，z表示是否学过英语，x、y和z取值为0或1。试求H(x)，H(y|x)，H(z|y)。2022/9/1995第95页，共143页，编辑于2022年，星期四2.7的解答 (a)是求事件事件“来自本市来自本市”与随机变量与随机变量“是否被录是否被录取取”的半平均互信息量的半平均互信息量。(b)是求事件事件“学过英语学过英语”与随机变量与随机变量“是否被录取是否被录取”的半平均互信息量的半平均互信息量。以x表示是否被录取（0表示被录取，1表示未被录取），y表示是否为本市学生（0表示本市学生，1表示非本市学生），z表示是否学过英语（0表示学过英语，1表示未学过英语），则P(xyz=000)=(1/4)(50%)1=12.5%；P(xyz=001)=(1/4)(50%)0=0；P(xyz=010)=(1/4)(50%)(40%)=5%；P(xyz=011)=(1/4)(50%)(60%)=7.5%；P(xyz=100)=(3/4)(10%)1=7.5%；P(xyz=101)=(3/4)(10%)0=0；P(xyz=110)=(3/4)(90%)(40%)=27%；P(xyz=111)=(3/4)(90%)(60%)=40.5%。2022/9/1996第96页，共143页，编辑于2022年，星期四各个边际分布各个边际分布(xy)联合分布P(xy=00)=12.5%；P(xy=01)=12.5%；P(xy=10)=7.5%；P(xy=11)=67.5%。(xz)联合分布P(xz=00)=17.5%；P(xz=01)=7.5%；P(xz=10)=34.5%；P(xz=11)=40.5%。x概率分布P(x=0)=25%；P(x=1)=75%。y概率分布P(y=0)=20%；P(y=1)=80%。z概率分布P(z=0)=52%；P(z=1)=48%。(yz)联合分布P(yz=00)=20%；P(yz=01)=0；P(yz=10)=32%；P(yz=11)=48%。2022/9/1997第97页，共143页，编辑于2022年，星期四习题课习题课2022/9/1998第98页，共143页，编辑于2022年，星期四习题课习题课2022/9/1999第99页，共143页，编辑于2022年，星期四习题课习题课2.8 在A、B两组人中进行民意测验，组A中的人有50%讲真话(T)，30%讲假话(F)，20%拒绝回答(R)。而组B中有30%讲真话，50%讲假话和20%拒绝回答。设选A组进行测验的概率为p，若以I(p)表示给定T、F或R条件下得到的有关消息来自组A或组B的平均信息量，试求I(p)的最大值。2.8的解答 I(p)是什么信息量？记X=“选择的组号”，X的事件有A和B；Y=“得到的回答”，Y的事件有T、F、R。则I(p)=I(X;Y)。2022/9/19100第100页，共143页，编辑于2022年，星期四习题课习题课计算X的概率分布：P(X=A)=p；P(X=B)=1-p。计算Y的概率分布：P(Y=T)=p50%+(1-p)30%=30%+p20%；P(Y=F)=p30%+(1-p)50%=50%-p20%；P(Y=R)=p20%+(1-p)20%=20%。计算联合概率分布：P(XY=AT)=50p/100；P(XY=BT)=30(1-p)/100；P(XY=AF)=30p/100；P(XY=BF)=50(1-p)/100；P(XY=AR)=20p/100；P(XY=BR)=20(1-p)/100。2022/9/191

注意事项

本文（信息论与编码理论基础第二章幻灯片.ppt）为本站会员（石***）主动上传，得力文库 - 分享文档赚钱的网站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知得力文库 - 分享文档赚钱的网站（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。