信息熵的计算和实现

信息熵的计算和实现

ID:47026636

大小:1.16 MB

页数:9页

时间:2019-06-29

信息熵的计算和实现_第1页
信息熵的计算和实现_第2页
信息熵的计算和实现_第3页
信息熵的计算和实现_第4页
信息熵的计算和实现_第5页
资源描述:

《信息熵的计算和实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、Word格式认知实习报告题目__信息熵的计算及实现__________(院)系数理系___________专业_______信息与计算科学__________________班级__学号_20081001_学生姓名__导师姓名____________完成日期________2011年12月23日___________完美整理Word格式信息熵的计算及实现信息与计算科学专业:指导教师:摘要:信息的销毁是一个不可逆过程,一般而言,当一种信息出现概率更高的时候,表明它被传播得更广泛,或者说,被引用的程度更高。我们可以认为,从信息传播的角度来看,信息熵可以表示信息的价值。这样我们

2、就有一个衡量信息价值高低的标准,可以做出关于知识流通问题的更多推论。本文讨论了一维几种熵的计算方法:离散信源的熵、图像熵的一维熵和二维熵、基于信息熵的Web页面主题信息计算方法,并给出一定的理论分析和数值实验以及数值实验结果。关键字:离散信源的熵、图像熵、Web页面主题信息1引言信息论之父C.E.Shannon在1948年发表的论文“通信的数学理论(AMathematicalTheoryofCommunication)”中,Shannon指出,任何信息都存在冗余,冗余大小与信息中每个符号(数字、字母或单词)的出现概率或者说不确定性有关。Shannon借鉴了热力学的概念,把

3、信息中排除了冗余后的平均信息量称为“信息熵”,并给出了计算信息熵的数学表达式。2问题提出信源的平均不定度。在信息论中信源输出是随机量,因而其不定度可以用概率分布来度量。记H(X)=H(P1,P2,…,Pn)=P(xi)logP(xi),这里P(xi),i=1,2,…,n为信源取第i个符号的概率。P(xi)=1,H(X)称为信源的信息熵。2.1离散信源的熵利用信息论中信息熵概念,求出任意一个离散信源的熵(平均自信息量)。自信息是一个随机变量,它是指某一信源发出某一消息所含有的信息量。所发出的消息不同,它们所含有的信息量也就不同。任何一个消息的自信息量都代表不了信源所包含的平

4、均自信息量。不能作为整个信源的信息测度,因此定义自信息量的数学期望为信源的平均自信息量:完美整理Word格式信源的信息熵H是从整个信源的统计特性来考虑的。它是从平均意义上来表征信源的总体特性的。对于某特定的信源,其信息熵只有一个。不同的信源因统计特性不同,其熵也不同。2.2图像熵通过理解图像熵基本概念,能够求出图像一维熵和二维熵。图像熵是一种特征的统计形式,它反映了图像中平均信息量的多少。图像的一维熵表示图像中灰度分布的聚集特征所包含的信息量,令Pi表示图像中灰度值为i的像素所占的比例,则定义灰度图像的一元灰度熵为:图像的一维熵可以表示图像灰度分布的聚集特征,却不能反映图

5、像灰度分布的空间特征,为了表征这种空间特征,可以在一维熵的基础上引入能够反映灰度分布空间特征的特征量来组成图像的二维熵。选择图像的邻域灰度均值作为灰度分布的空间特征量,与图像的像素灰度组成特征二元组,记为(i,j),其中i表示像素的灰度值(0<=i<=255),j表示邻域灰度(0<=j<=255),上式能反应某像素位置上的度值与其周围像素灰度分布的综合特征,其中f(i,j)为特征二元组(i,j)出现的频数,N为图像的尺度,定义离散的图像二维熵为:构造的图像二维熵可以在图像所包含信息量的前提下,突出反映图像中像素位置的灰度信息和像素邻域内灰度分布的综合特征.2.3基于信息熵

6、的Web页面主题信息计算方法概述Web主题信息抽取系统主要由HTML解析器、过滤器、关键词抽取器、剪枝器四部分组成,下图是Web主题信息抽取系统的框图。完美整理Word格式HTML解析器负责将HTML文档转换为DOM树,使后续工作在此DOM树基础上进行。过滤器将不需要处理的元素从DOM树中删除,主要是一些图片、脚本代码等。本系统采用CyberNekoHTMLParser解析器,它可以同时完成HTML解析器和过滤器的工作,解析生成的DOM树可以用XML标准接口进行操作,通过在管道添加不同过滤器的方法实现过滤目的。关键词抽取器则对文本语义块进行处理.并对相关结点抽取出关键词向

7、量、关键词词频等信息,为对结点进行信息熵计算作好准备。本系统采用海星智能分词软件及其获取关键词接1:3来实现关键词抽取器。剪枝器则对DOM树从下向上计算有语义结点的信息熵,并根据剪枝规则剪枝结点。最后输出能够保持源Web页面结构的主题信息页面。在配置管理界面设置各有关参数,并进行相关文档的加载与输出,完成主题信息抽取任务。2.3.1剪枝规则与构造s1Ⅵ一DOM树剪枝的基本原则是贡献了较大信息熵的结点应该被剪枝。但一定要考虑结点的关键词数,如果仅以信息熵来剪枝,可能会把包含关键词多的结点剪枝,所以采用平均信息熵来判定结点信息熵的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。