资源描述:
《第三讲西电通院考研复试资料(试题+课件)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第二章:信息量和熵§2.1离散型随机变量的非平均信息量(事件的信息量)§2.2离散型随机变量的平均自信息量(熵)§2.4离散型随机变量的平均互信息量§2.5连续型随机变量的平均互信息量和相对熵§2.6凸函数与(离散型随机变量的)平均互信息量的凸性2021/6/191§2.2离散型随机变量的平均自信息量(熵)定义2.2.1(平均自信息量——熵)离散型随机变量{X,xk,qk,k=1~K}的平均自信息量(又称为熵)定义为如下的H(X),其中底数a是大于1的常数。2021/6/192§2.2离散型随机变量的平均自信息量(熵)注意
2、:(1)事件xk的自信息量值为h(xk)=loga(1/qk),因此H(X)是随机变量X的各事件自信息量值的“数学期望”。(2)定义H(X)时,允许某个qk=0。(此时将qkloga(1/qk)通盘考虑)此时补充定义qkloga(1/qk)=0。这个定义是合理的,因为2021/6/193§2.2离散型随机变量的平均自信息量(熵)例2.2.1离散型随机变量X有两个事件x1和x2,P(X=x1)=p,P(X=x2)=1-p。则X的平均自信息量(熵)为H(X)=ploga(1/p)+(1-p)loga(1/(1-p))。观察H(
3、X)(它是p的函数,图2.2.1给出了函数图象,该图象具有某种对称性),有当p=0或p=1时,H(X)=0。(随机变量X退化为常数时,熵为0)当0
0。p越靠近1/2,H(X)越大。(X是真正的随机变量时,总有正的熵。随机性越大,熵越大)当p=1/2时,H(X)达到最大。(随机变量X的随机性最大时,熵最大。特别如果底数a=2,则H(X)=1比特)2021/6/194§2.2离散型随机变量的平均自信息量(熵)定义2.2.2(条件熵)给定一个二维离散型随机变量{(X,Y),(xk,yj),rkj,k=1~K
4、;j=1~J}。称如下定义的H(X
5、Y)为X相对于Y的条件熵。2021/6/195§2.2离散型随机变量的平均自信息量(熵)定义2.2.3(联合熵)二维离散型随机变量{(X,Y),(xk,yj),rkj,k=1~K;j=1~J}的联合熵定义为2021/6/196§2.2离散型随机变量的平均自信息量(熵)熵、条件熵、联合熵之间的关系:(1)H(XY)=H(X)+H(Y
6、X)=H(Y)+H(X
7、Y)。(由定义容易证明)(2)当X与Y相互独立时,H(Y
8、X)=H(Y),因此此时H(XY)=H(X)+H(Y)。证明此时2021/6
9、/197§2.2离散型随机变量的平均自信息量(熵)熵的性质对于随机变量{X,xk,qk,k=1~K}的熵H(X)=∑kqkloga(1/qk),有以下的性质。1、H(X)与事件{xk,k=1~K}的具体形式无关,仅仅依赖于概率向量{qk,k=1~K}。而且H(X)与概率向量{qk,k=1~K}的分量排列顺序无关。2、H(X)≥0。完全同理,H(X
10、Y)≥0;H(Y
11、X)≥0;H(XY)≥0。3、确定性:当概率向量{qk,k=1~K}的一个分量为1时(此时其它分量均为0),H(X)=0。(这就是说,当随机变量X实际上是个常量
12、时,不含有任何信息量)。2021/6/198§2.2离散型随机变量的平均自信息量(熵)4、可忽略性:当随机变量X的某个事件的概率很小时,该事件对熵的贡献可以忽略不计。(虽然小概率事件的自信息量很大。这是因为当qk→0时,qkloga(1/qk)→0)。5、可加性:H(XY)=H(X)+H(Y
13、X)=H(Y)+H(X
14、Y)。因此,H(XY)≥H(X);H(XY)≥H(Y)。(性质5有一个隐含的结论:设X的概率向量为{q1,q2,…,qK},Y的概率向量为{q1,q2,…,qK-2,qK-1+qK},其中qK-1qK>0,则H
15、(X)>H(Y)。)2021/6/199§2.2离散型随机变量的平均自信息量(熵)6、极值性:H(X)≤logaK。当q1=q2=…=qK=1/K时,才有H(X)=logaK。(以下是极值性的证明过程)引理1对任何x>0总有lnx≤x-1。证明令f(x)=lnx-(x-1),则f‘(x)=1/x-1。因此当00;当x>1时f‘(x)<0。换句话说,当01时,f(x)的值严格单调减。注意到f(1)=0。所以对任何x>0总有f(x)≤f(1)=0。得证。2021/
16、6/1910§2.2离散型随机变量的平均自信息量(熵)引理2设有两个K维概率向量(什么叫概率向量?){qk,k=1~K}和{pk,k=1~K}。则总满足2021/6/1911§2.2离散型随机变量的平均自信息量(熵)证明注意到引理1,2021/6/1912§2.2离散型随机变量的平均自信息量(熵)引理2