信息论基础 (12)

信息论基础 (12)

ID:44329050

大小:834.50 KB

页数:111页

时间:2019-10-20

信息论基础 (12)_第1页
信息论基础 (12)_第2页
信息论基础 (12)_第3页
信息论基础 (12)_第4页
信息论基础 (12)_第5页
信息论基础 (12)_第6页
信息论基础 (12)_第7页
信息论基础 (12)_第8页
信息论基础 (12)_第9页
信息论基础 (12)_第10页
资源描述:

《信息论基础 (12)》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第12章信息理论方法 及其应用第12章信息理论方法及其应用本章主要内容:1.信源熵的估计2.最大熵原理3.最小交叉熵原理4.信息理论方法的应用5.小结和思考题本章主要介绍信源熵估计、最大熵原理和最小交叉熵原理及其部分应用。本节主要内容:1.离散信源序列熵的估计2.连续信源熵的估计§12.1信源熵的估计熵估计参数估计给定一个信源概率密度的参数模型,首先从可能的密度函数空间中搜索最可能的密度函数,其次计算最可能密度函数所对应的熵。熵估计(续)非参数估计(1)标准的最大似然或“插入”法,就是先估计信源符号的概率或

2、概率密度,然后再将估计的概率代入熵的计算公式中来计算熵;(2)对于离散信源,可以利用无损信源压缩编码算法进行熵估计,通常使用通用压缩编码;(3)利用其他熵估计算法。12.1.1离散信源序列熵的估计插入熵估计通用信源压缩编码熵估计模板匹配熵估计插入熵估计(一)——离散无记忆信源熵估计设一个离散无记忆信源具有未知的概率分布,其中,符号集,为信源的熵,现用给定信源序列作为训练序列,对信源熵进行插入法估计。首先利用训练序列估计信源符号的概率,表示为其中n为训练样本数,通常估计值依赖与样本数。符号的概率采用下式估计:

3、其中,成为经验分布插入熵估计(一)——离散无记忆信源熵估计可以证明是的最大似然估计,且是无偏的,即将概率的估计值代入信源熵的的公式,得信源熵的估计值:虽然概率的估计是无偏的,但熵的估计却不是无偏的。根据熵的上凸性有可见,用插入估计得到的熵值的平均要比实际熵值低,是实际熵的欠估计。所以在进行熵估计时,要做适当的修正,以保证熵的估计具有较小的偏差。插入熵估计(一)——离散无记忆信源熵估计Miller等(1954年)提出,修正后的熵按下式计算其中,为估计的信源符号集的大小,n为训练样本数,这里熵的单位是奈特。还有

4、一种偏差修正法,称为jackknife法,是统计学中对估计器的偏差和方差进行估计的有效方法,这种方法特别用于标准方法难于应用的场合。熵估计的公式为其中,表示用样本进行插入估计所得的熵。例12.1.1一个二元离散无记忆信源,符号0和1的概率分别为1/4和3/4,长度为32的训练序列为11100011111111101011111011101111;(1)求信源熵的最大似然插入估计;(2)利用Miller修正法估计信源熵;(3)利用jackknife修正法估计信源熵。解:信源熵比特(1)信源符号概率的ML估计为

5、:,;信源熵的最大似然插入估计为比特;插入熵估计(一)——离散无记忆信源熵估计(2)利用Miller修正估计信源熵为比特;(3)比特比特利用jackknife修正估计信源熵为比特插入熵估计(二)——一阶马氏链熵估计设信源是一个J状态的一阶马氏链,其中状态集合信源序列为训练序列,现对信源的熵进行插入估计。定义示性函数在训练序列中状态(i,j)同时发生次数的估计为状态i发生次数的估计为插入熵估计(二)——一阶马氏链熵估计状态转移概率的估计:平稳概率的估计:注意,如果训练样本数量不够,会出现某些状态的概率统计值为

6、零的情况。当,必有;当,必有。为避免出现有些状态观察不到的情况,应该进行多次独立的观察。插入熵估计(二)——一阶马氏链熵估计信源熵的估计:与独立信源熵的估计类似,熵的估计也不是无偏的,用插入估计得到的熵值的平均要比实际熵值低。这也可根据熵的上凸性推出。插入熵估计(三)——N次扩展源(Ngram)的熵估计(12.1.17)其中,为序列中状态的个数N次扩展源的熵估计为(12.1.18)修正后的熵为:(12.1.19)其中,为的个数。插入熵估计(四)——高阶有记忆马氏源熵估计根据,所以一个N-1阶马氏源熵的估计为

7、:(12.1.20)研究表明,插入法熵估计随L的增大,熵估计精度增加。对于低阶马氏源,该方法能得到较精确的熵估计,但对于记忆长度较大的信源序列,数据长度往往不够,不能得到精确的估计结果。通用信源压缩编码熵估计根据仙农第一定理,无损信源编码码率的下界是信源的熵,即通过理想的信源编码后,编码器码率可以压缩到信源的熵。因此可以计算无损编码后的压缩率(输出文件比特长度与输入文件比特长度的比)R,而,如果采用性能理想的无损信源编码算法,编码压缩率R可以作为信源熵的估计。(12.1.21)当然,压缩性能越好,估计值越接

8、近信源的熵。通用信源压缩编码熵估计(续)有很多通用信源压缩编码算法可用做熵估计,该方法相对于插入法的优点是,不依赖信源的模型,也不假设任何特殊的信源结构,主要考虑的是算法的收敛速度。有几种常用的信源压缩编码算法可用做熵估计,例如:LZ77系列(自适应模板匹配编码)、GZIP算法(LZ77+Huffman编码)、BZIP(基于Burrows-Wheeler变换+Huffman编码)CWT(上下文树加权+算术编码)等

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。