第6讲 联合熵与条件熵

第6讲 联合熵与条件熵

ID:39725846

大小:150.50 KB

页数:7页

时间:2019-07-10

第6讲 联合熵与条件熵_第1页
第6讲 联合熵与条件熵_第2页
第6讲 联合熵与条件熵_第3页
第6讲 联合熵与条件熵_第4页
第6讲 联合熵与条件熵_第5页
资源描述:

《第6讲 联合熵与条件熵》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第6讲联合熵与条件熵信息熵H(X)反映了随机变量X的取值不确定性。当X是常量时,其信息熵最小,等于0;当X有n个取值时,当且仅当这些取值的机会均等时,信息熵H(X)最大,等于logn比特。我们拓展信息熵H(X)的概念,考虑两个随机变量X和Y的联合熵H(XY)和条件熵H(Y

2、X)。1.联合熵设X,Y是两个随机变量,则(X,Y)是二维随机变量,简写为XY。二维随机变量XY的联合概率分布记为p(xy),即根据信息熵的定义可知,XY的信息熵为定义1.1二维随机变量XY的信息熵H(XY)称为X与Y的联合熵(jointentropy)。它反映了二维随机变量XY的取值不确定性

3、。我们把它理解为X和Y取值的总的不确定性。练习:假设有甲乙两只箱子,每个箱子里都存放着100个球。甲里面有红蓝色球各50个,乙里面红、蓝色的球分别为99个和1个。试计算H(XY)我们将联合熵概念推广到任意多离散型随机变量上。定义1.2一组随机变量的联合熵定义为7注:为了简化记号,我们有时把记为XN,把记为xN。物理意义:(1)是这一组随机变量平均每一批取值所传递的信息量。(2)若N-维随机变量表示某信源产生的任意一条长度为N的消息,则是平均每条长度为N的消息的信息量。因此,若该信源产生一个长度为N的消息,则在不知道其它条件的情况下,对该消息所含信息量的最优估计为

4、N-维信息熵。联合熵的性质:联合熵熵函数的一种特殊形式,所以熵函数的任何数学性质都适用于联合熵,包括:非负性、可加性、严格上凸性和最大离散熵原理,等等。当然,联合熵还有自己的特殊性质。定理1.4(联合熵的独立界)其中等号成立的充要条件是所有随机变量相互独立。证明:这里仅证明,一般情形可类似证明。设对于XY的联合分布为p(xy),X和Y的概率分布简记为p(x),p(y)。由于我们有注意,构成一个概率分布。应用信息不等式可得其中等号成立的充要条件是,即X与Y相互独立。证毕71.条件熵条件自信息:对于任何取值x,是一个带条件的随机变量,其信息熵为再对所有x求熵的平均值

5、可得如下条件熵:定义2.1设X,Y是两个离散型随机变量,联合分布为p(xy)。X相对于Y的条件熵H(X

6、Y)定义为条件自信息I(X

7、Y)的期望,即物理意义:H(X

8、Y)表示在已知Y取值的前提下,X取值的不确定性,亦即X的每个取值平均所提供的与Y无关的信息量。定理2.2(条件熵非负性)对于任何离散型随机变量X与Y,都有H(Y

9、X)≥0,其中等号成立当且仅当Y是X的函数,即X的取值可确定Y的取值。证明根据定义由于上述加式中各加项都≤0,所以该加式=0的充要条件是各加项=0,即对于任何x和y,p(y

10、x)=1或者p(y

11、x)=0,亦即对于任何x,P(Y

12、x)是退化分布

13、。这表明当X的取值确定时,Y的取值随即确定,即Y是X的函数。证毕定理2.3(熵的链法则)对于随机变量序列X1,X2,…和任何N≥1简记为其中H1=H(X1),H2=H(X2

14、X1),…,HN=H(XN

15、X1X2…XN-1)。7证明:首先根据定义直接可得H(XY)=H(X)+H(Y

16、X)应用上述等式,对N用归纳法可证明熵的链法则。细节略。证毕意义:将多个随机变量的联合熵转化为这些随机变量的条件熵之和,可简化计算。注:链法则与熵的可加性是等价的。思考:下列不等式是否成立,其中各等号成立的充要条件是什么?这个性质说明什么?请读者尝试命名该性质。定理2.4(条件熵递减性

17、)对于任何随机变量X和Y,有H(Y

18、X)≤H(Y)其中等号成立的充要条件是Y与X相互独立。证明一:根据链法则,H(XY)=H(X)+H(Y

19、X)再根据联合熵的独立界定理,立刻可得H(Y

20、X)≤H(Y)其中等号成立的充要条件是X与Y统计独立。证毕在条件熵中,条件越少,熵值越大。相反,条件越多,熵值越小。这可理解为,我们知道的越多,则事物的不确定性越小。证明二:应用Jessen不等式证明。证毕71.计算公式令X,Y为离散的随机变量。公式1.公式2.其中P(X)是X的概率分布,为行向量,P(Y

21、X)是X到Y的条件概率矩阵,是条件概率矩阵中各个行分布的熵所组成的列向量。

22、证明:证毕例3.1设且则记号:以后对于任何N,我们将N维随机向量X1,X2,…XN简记为XN。7注:上述条件熵概念可以推广到多个随机变量熵,例如H(Y

23、X1X2…XN)是在已知随机向量X1,X2,…XN取值的前提下,随机变量Y的不确定性,亦即Y的每个取值可以提供的与X1,X2,…XN取值无关的新信息量。练习3.2设p(xy)如下表所示。Y01011/301/31/3XXX试计算(1)H(XY)(2)H(X),H(Y)(3)H(X

24、Y),H(Y

25、X)练习3.3已知平均100人中有2人患有某种疾病,为了查明病情,必须进行某项指标的化验。这种化验的结果对于有病的人总是

26、阳性的,对于健康的人来说

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。