信息熵的表示和计算

信息熵的表示和计算

ID:8803952

大小:46.50 KB

页数:5页

时间:2018-04-08

信息熵的表示和计算_第1页
信息熵的表示和计算_第2页
信息熵的表示和计算_第3页
信息熵的表示和计算_第4页
信息熵的表示和计算_第5页
资源描述:

《信息熵的表示和计算》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、实验一  信息熵的表示和计算(实验估计时间:120分钟)1.1.1背景知识信息熵是美国贝尔实验室数学家仙侬(SHANNON)在1948年他的"通讯数学理论"那篇文章中首先提出的.仙侬也因此获得了现代信息通讯技术之父的美称.他对信息通讯的贡献可以说是对世纪进入信息时代奠定了最重要的基础理论.要简单说信息熵(ENTROPY)的概念很不容易,不过你只要把它看做是信息的一种数量化的衡量尺度就八九不离十了.就象世界原来并没有时间这个东西,但是处于测度生命和运动过程的需要,人们发明了时间的概念.同样,信息原本并没有测度标准,但是出于衡量信息传递量和速度的需要,仙侬先生

2、发明了对于信息的一个度量方法,这就是信息熵,它的单位是BIT.为什么用BIT?因为在二次大战结束后,世界通讯领域发展很快,电报,电话,电传等普及了,而这些以电脉冲为信号载体的设备的最基本的结构就是只具有两种状态的开关(继电器).所以二进制的通讯信号已经是最普及的信息通讯编码方式,以它作为信息的测度尺寸也是最自然的选择.以英文为例看如何计算信息熵.我们都知道英文使用26个字母,如果我们把字母在所传输信息中出现的频率看做是随机的,而且具有同样的概率.那么要传输26个字母中的任何一个就至少需要4个多BIT才够(4位最大是16个,5位最大是32个,26个字母介于两

3、者之间).当然,每个字母在传输信息中出现的概率不可能一样,比如A是1/16;B是1/13;...Z是1/126;(它们的和是1),那么通过计算可以得出英文的信息熵是4.03(根据参考文章介绍的数据).2n=X;其中X就是传输信息所需要的字符集的大小减去它的冗余度.公式:H(信息熵)=-∑Pilog2(Pi);Pi:为每个字母在信息中出现的概率;计算公式并不复杂.取以2为底的对数的道理也很简单,因为如果:2n=X的话,那么logX=n;所以可以看出所谓信息熵就二进制的字符集在去掉冗余度后的二进制编码位数.冗余度是通过统计每个字符出现概率获得的。小知识冯志伟先

4、生将仙侬的信息熵的计算用于非拼音的汉字字符集的信息熵的计算,这是一项工作量很大的任务.因为我们都知道,汉字的字符集很大,常用的有6-7000个,当然随着字符集的扩大,每个汉字出现的概率是不同的,有些罕用字的出现概率几乎是零.他们计算出的结果是9.3X.这个测度的结论说明汉字在去掉冗余后,最短的信息传输字位需要9.3个BIT.英文的信息熵是4.03,而计算机最初设计时的ASCII码是8位的,留有足够的空间.那末如果当初是为汉字设计计算机的话,就至少需要留有18位,二个字节多.这是一个什么成本概念?在计算机研制的初期,总线宽度,内存大小可都是可以和黄金比的价格

5、,更不要提设计的复杂程度的增加和早期集成度能否实现的问题了.单是这一点就可以推论出使用汉字的人是不可能发明或创造计算机的.现在再回到我们上面题目中的问题,信息熵的概念适用于汉字吗?仙侬计算公式中的第一个假设就是字符在信息中出现的概率是随机的,而汉字在信息中出现频率是否是随机的呢?这个问题就决定了汉字最后的计算结果.因为我们通过上面的计算公式可以知道,如果每个汉字出现的频率不是随机的,比如说是均等的(一个极端情况),那么汉字的信息熵就会出现最大值并随着汉字的字数的增加而增加.因为我们完全可以根据题目不同或作者的不同,而写出使用不同汉字字数的文章.汉字的信息出

6、现是随人的表达需求而变的,不是随机的,因为每一个汉字都它的意义.26个英文字母在平均出现时的信息熵是4.7BIT,而去掉冗余度后的英文字母的信息熵是4.03BIT.然而6000个汉字的平均出现时的信息熵是12.55BIT,当使用7000个平均出现的汉字是汉字的信息熵是12.77BIT,至于使用的汉字个数达到冯先生计算的12366个极限汉字时的信息熵是13.59,它们和使用概率计算的结果9.3相差太悬殊(和英文比起来).所以如何统计每个汉字的出现概率成了最后决定汉字信息熵的最大因素.而每个汉字的出现概率又是如此的主观(或因人而异).我对9.3的结果持某种怀疑

7、。1.1.2实验目的(1)掌握信息熵的基本概念。(2)以学生评教数据的分析为例,学会用信息熵的知识处理教育中的实际问题。1.1.3工具/准备工作1.学生评教数据分析思路。学生评教是教师教学评价的重要组成部分,很多学校为了使评价结果更科学、更能表现教师真实的教学水平,根据学校自身情况,选用更适合的测量参照标准,如目标参照标准(以某些具体目标作为评定标准);常模参照标准(以某一研究对象的集体平均水平作为评定的标准),自我参照标准(以研究对象自身在某一时期或状态的特征作为评定标准)。然而,无论教师教学评价采用哪种测量标准,反馈给教师的往往只是一个依据某个测量标准

8、的评定分数,该分数不能将评价结果所隐含的更详细、更明确的信息表现出

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。