资源描述:
《《信息量和熵》ppt课件2》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第二章信息量和熵信息量和熵2.1离散变量的非平均信息量2.2离散集的平均自信息量-熵2.3离散集的平均互信息量2.4连续随机变量的互信息和熵2.5凸函数和互信息的凸性2.1离散变量的非平均信息量输入,输出空间定义输入空间X={xk,k=1,2,…,K},概率记为q(xk)输出空间Y={yj,j=1,2,…,J},概率记为ω(yj)联合空间XY={xkyj;k=1,2,…,K;j=1,2,…,J},概率为p(xkyj)p(xkyj)=p(xk
2、yj)ω(yj)=p(yj
3、xk)q(xk)非平均互信息量例2.1.1输入消息码字p(xk)收到0收到
4、01收到011X1X2X3X4X5X6X7x80000010100111001011101111/81/81/81/81/81/81/81/81/41/41/41/40000001/21/2000000010000非平均互信息量输入消息码字p(xk)收到0收到01收到011X1X2X3X4X5X6X7x80000010100111001011101111/81/41/81/41/161/161/161/161/61/31/61/30000001/32/3000000010000非平均互信息量例2.1.2输入消息码字p(xk)收到0收到01收到
5、011X1X20001111/21/21-pp1/21/21-pp1-p1-p0011pp非平均互信息量非平均互信息量定义2.1.1(非平均互信息量)给定一个二维离散型随机变量{(X,Y),(xk,yj),rkj,k=1~K;j=1~J}(因此就给定了两个离散型随机变量{X,xk,qk,k=1~K}和{Y,yj,wj,j=1~J})。事件xk∈X与事件yj∈Y的互信息量定义为非平均互信息量其中底数a是大于1的常数。常用a=2或a=e,当a=2时互信息量的单位为“比特”。几点说明:(1)I(xk;yj)=loga(rkj/(qkwj))。因此有
6、对称性:I(xk;yj)=I(yj;xk)。(2)当rkj=qkwj时I(xk;yj)=0。(当两个事件相互独立时,互信息量为0)。(3)当rkj>qkwj时I(xk;yj)>0,当rkj7、:给定集合{X,q(xk)},事件xk∈X的自信息量定义为:非平均自信息的性质非负性体现先验不确定性大小条件自信息和联合自信息自信息、条件自信息和互信息I(xk)I(yj)I(xk;yj)2.2离散集的平均自信息量-熵熵集X中事件出现的平均不确定性(平均自信息量——熵)离散型随机变量{X,xk,qk,k=1~K}的平均自信息量(又称为熵)定义为如下的H(X),其中底数a是大于1的常数。熵注意:(1)事件xk的自信息量值为I(xk)=loga(1/qk),因此H(X)是随机变量X的各事件自信息量值的“数学期望”。(2)定义H(X)时,允许某个q
8、k=0。(此时将qkloga(1/qk)通盘考虑)此时补充定义qkloga(1/qk)=0。这个定义是合理的,因为熵例2.2.1离散型随机变量X有两个事件x1和x2,P(X=x1)=p,P(X=x2)=1-p。则X的平均自信息量(熵)为H(X)=ploga(1/p)+(1-p)loga(1/(1-p))。观察H(X)(它是p的函数,图2.2.1给出了函数图象,该图象具有某种对称性),有当p=0或p=1时,H(X)=0。(随机变量X退化为常数时,熵为0)当0
0。p越靠近1/2,H(X)越大。(X是真正的随机变量时,总有正的
9、熵。随机性越大,熵越大)当p=1/2时,H(X)达到最大。(随机变量X的随机性最大时,熵最大。特别如果底数a=2,则H(X)=1比特)条件熵(定义2.2.2)XY独立时有H(X
10、Y)=H(X)联合熵熵的性质对称性非负性确定性扩展性可加性极值性是H(P)上凸函数熵是概率矢量的函数P=(p1,p2,…,pk)可以看作是K维矢量,当,常称作是概率矢量;故HK(P)=HK(p1,p2,…,pk)是概率矢量P的函数熵的性质-对称性矢量的各分量p1,p2,…pk的次序任意改变时,熵值不变熵函数的值只与概率分布或将1分割成的K个实数的取值有关,而与这K个实
11、数和K个事件采取何种一一对应方式无关熵的性质-非负性HK(P)=HK(p1,p2,…,pK)≥0可由单个事件自信息量的非负性得到熵的性质-确定性若事件集X中有一个事