资源描述:
《信息论第5讲平均互信息的凸性(含习题)ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、平均互信息的凸性第5讲平均互信息定义及含义信息/数据处理定理Review凸性性质:对称性、非负性、极值性凸集若集合(n维欧氏空间),有且对任意实数有显然,n维欧氏空间为一凸集合。0≤λ≤1则称为C为凸集合。概率矢量构成集合为凸集定义若一个K维矢量=(1,2,…,K)的所有分量为非负的,且和为1,即就称为概率矢量。引理概率矢量全体所构成的区域R是凸的。证:若,β∈R,对0≤≤1构造矢量=+(1-)β因此是概率矢量,仍属于R,所以R是凸的。凸函数定义定义在凸集R上的一个实函数f,若它对所有α,β∈R和0≤≤1满足f()+(1-)f(β
2、)≤f(+(1-)β)就称函数f为R上的凸∩函数。若式中不等号的方向相反,就称f为凸∪函数。若等号仅当=0或1时成立,就称f为严格凸∩或严格凸∪的。在[a,b]上定义的上凸函数在[a,b]上定义的下凸函数凸函数性质1)若f()是凸∩的,则-f()是凸∪的,反过来也成立。2)若f1(),f2(),…,fL()是R上的凸∩函数,c1,c2,cL是正数,则为R上的凸∩函数,若其中任一个是严格凸的,则和式也是严格凸的。3)(Jensen不等式)若f()是R上的凸∩函数,则E[f()]≤f(E())Jensen不等式:若f()是R上的凸∩函数,则
3、E[f()]≤f(E())其中,E表示数学期望。证明:只对离散情况证明。对于离散变量,令,则E[f()]≤f(E())可写成可用归纳法进行证明。对两点分布,根据凸函数的定义有假设当分布点个数为n时不等式成立,考察分布点个数为n+1时的情况。对,令则有证毕定理:如果函数f(x)在某个区间上存在非负(正)的二阶导数,则f(x)为该区间上的凸∪函数(严格凸∪函数)。证明:利用函数f(x)在x0点的泰勒级数展开:其中x*位于x0和x之间。根据假设,因此,对任意的x,最后一项总是非负。设取,可得类似地,取,可得因此,得证毕同理可证:如果函数f(x)在某个区间上存在
4、的二阶导数≤0(<0),则f(x)为该区间上的上的凸∩函数(严格凸∩函数)。利用该定理,可以立即判定:都是严格凸∪函数,为严格凸∩函数。令是定义在R上的凸∩函数,其中=(1,2,…,K)存在且在R域上连续,在R上为极大的充分必要条件是凸函数性质Kuhn-Tucker条件为一概率矢量。假定偏导数对所有’k>0对所有’k=0其中为一常数。证:首先证明充分性。设函数f在点满足KT条件,今证明为极大值,即对任意,恒有。由于f是凸∩函数,所以f()+(1-)f()≤f[+(1-)]0<<1即f()-f()≤{f[+(1-)]-
5、f()}/0<<1因上式对任意(0<<1)成立,可令→0,得由KT条件有将其代入上式得从而证明为极大值。现在证明必要性。令使f达到极大值,并假定偏导数在处连续。则对任意,有式中0<<1。以θ除两边并令θ→0得即因为是概率矢量,所以至少有一个分量,例如i是严格正的,即i>0。选择另一概率矢量满足式中。于是有对于也可选负值和正数,有和即对,因为概率矢量的关系,只能选择,由此得证毕熵的凸性证明:令则由于当且仅当时等号成立平均互信息量凸性由互信息的定义式:可知,它是输入分布及转移概率分布的函数。可以记为:如果转移概率分布固定,I(X,Y)就是先验概率
6、Q(X)的函数;如果信源先验概率固定,I(X,Y)就是转移概率P(Y/X)的函数。[例]设二元对称信道(BSC)的信源空间为:X={0,1};[Q(X)]={ω,1-ω};01-p0pp11-p1因为已知转移概率,所以利用公式I(X,Y)=H(Y)-H(Y/X)。H(Y/X)=-∑∑q(xi)p(yj/xi)logp(yj/xi)=∑q(xi){-[plogp+(1-p)log(1-p)]}=H(p)其中:H(p)=-[plogp+(1-p)log(1-p)]另外:为了求H(Y),利用w(yj)=∑q(xi)p(yj/xi);可得:w(y=0)=ω(1-p)+(
7、1-ω)pw(y=1)=ωp+(1-ω)(1-p)所以:H(Y)=-{[ω(1-p)+(1-ω)p]log[ω(1-p)+(1-ω)p]+[ωp+(1-ω)(1-p)]log[ωp+(1-ω)(1-p)]}=H(ω(1-p)+(1-ω)p)可得平均互信息量为:I(X,Y)=H(ω(1-p)+(1-ω)p)-H(p)当固定信源先验概率分布ω时,I(X,Y)是信道转移概率p的下凸函数,如图所示。01/21p从图中可知,当信源固定后,存在一种BSC信道,p=(1-p)=1/2,使在信道输出端获得信息量最小,即等于0。也就是说,信源的信息全部损失在信道中了。这是最差的信
8、道,这个性质说明,每个信