资源描述:
《第二章 信息量和熵 - Xidian.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第二章信息量和熵信息量和熵离散变量的非平均信息量离散集的平均自信息量-熵离散集的平均互信息量信息不等式凸函数和互信息的凸性连续随机变量的互信息和微分熵2.1离散变量的非平均信息量输入,输出空间定义输入空间X={xk,k=1,2,…,K},概率记为q(xk)输出空间Y={yj,j=1,2,…,J},概率记为ω(yj)联合空间XY={xkyj;k=1,2,…,K;j=1,2,…,J},概率为p(xkyj)p(xkyj)=p(xk
2、yj)ω(yj)=p(yj
3、xk)q(xk)非平均互信息量例2.1.1输入消息码字p(xk)收到0收到01收到011X1X2X3X4X5X6X7x80000
4、010100111001011101111/81/81/81/81/81/81/81/81/41/41/41/40000001/21/2000000010000非平均互信息量输入消息码字p(xk)收到0收到01收到011X1X2X3X4X5X6X7x80000010100111001011101111/81/41/81/41/161/161/161/161/61/31/61/30000001/32/3000000010000非平均互信息量例2.1.2输入消息码字p(xk)收到0收到01收到011X1X20001111/21/21-pp1/21/21-pp1-p1-p0011pp非
5、平均互信息量非平均互信息量定义2.1.1(非平均互信息量)给定一个二维离散型随机变量{(X,Y),(xk,yj),rkj,k=1~K;j=1~J}(因此就给定了两个离散型随机变量{X,xk,qk,k=1~K}和{Y,yj,wj,j=1~J})。事件xk∈X与事件yj∈Y的互信息量定义为非平均互信息量其中底数a是大于1的常数。常用a=2或a=e,当a=2时互信息量的单位为“比特”。几点说明:(1)I(xk;yj)=loga(rkj/(qkwj))。因此有对称性:I(xk;yj)=I(yj;xk)。(2)当rkj=qkwj时I(xk;yj)=0。(当两个事件相互独立时,互信息量为0)
6、。(3)当rkj>qkwj时I(xk;yj)>0,当rkj7、j)I(xk;yj)2.2离散集的平均自信息量-熵熵集X中事件出现的平均不确定性(平均自信息量——熵)离散型随机变量{X,xk,qk,k=1~K}的平均自信息量(又称为熵)定义为如下的H(X),其中底数a是大于1的常数。熵注意:(1)事件xk的自信息量值为I(xk)=loga(1/qk),因此H(X)是随机变量X的各事件自信息量值的“数学期望”。(2)定义H(X)时,允许某个qk=0。(此时将qkloga(1/qk)通盘考虑)此时补充定义qkloga(1/qk)=0。这个定义是合理的,因为熵例2.2.1离散型随机变量X有两个事件x1和x2,P(X=x1)=p,P(X=x2)=1-
8、p。则X的平均自信息量(熵)为H(X)=ploga(1/p)+(1-p)loga(1/(1-p))。观察H(X)(它是p的函数,图2.2.1给出了函数图象,该图象具有某种对称性),有当p=0或p=1时,H(X)=0。(随机变量X退化为常数时,熵为0)当0
0。p越靠近1/2,H(X)越大。(X是真正的随机变量时,总有正的熵。随机性越大,熵越大)当p=1/2时,H(X)达到最大。(随机变量X的随机性最大时,熵最大。特别如果底数a=2,则H(X)=1比特)条件熵(定义2.2.2)XY独立时有H(X
9、Y)=H(X)联合熵熵的性质对称性非负性确定性扩展性可加性极值性是
10、H(P)上凸函数熵是概率矢量的函数P=(p1,p2,…,pk)可以看作是K维矢量,当,常称作是概率矢量;故HK(P)=HK(p1,p2,…,pk)是概率矢量P的函数熵的性质-对称性矢量的各分量p1,p2,…pk的次序任意改变时,熵值不变熵函数的值只与概率分布或将1分割成的K个实数的取值有关,而与这K个实数和K个事件采取何种一一对应方式无关熵的性质-非负性HK(P)=HK(p1,p2,…,pK)≥0可由单个事件自信息量的非负性得到熵的性质-确定性若事件集X中有一个事件为必然事件,其