基于游程熵的图文分割算法

基于游程熵的图文分割算法

ID:33496362

大小:463.83 KB

页数:6页

时间:2019-02-26

基于游程熵的图文分割算法_第1页
基于游程熵的图文分割算法_第2页
基于游程熵的图文分割算法_第3页
基于游程熵的图文分割算法_第4页
基于游程熵的图文分割算法_第5页
资源描述:

《基于游程熵的图文分割算法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、万方数据第36卷第2期2010年6月延边大学学报(自然科学版)JournalofYanbianUniversity(NaturalScience)V01.36No.2June2010文章编号:1004—4353(2010)02~0165—05基于游程熵的图文分割算法李化,崔荣一。(延边大学工学院计算机科学与技术学系智能信息处理研究室,吉林延吉133002)摘要:为解决版面分析中图片区域的提取问题,提出了一种基于游程熵的图文分割算法.首先,计算文档中每行不同灰度的灰度游程所代表信源的熵;其次,提取出灰度游程信源的熵值中的突出区域;最后,根据突

2、出区域分割出文档中的图片部分.实验结果表明:此方法能够准确、有效地提取文档中的图片区域,并且对不同语种的图文分割具有良好的鲁棒性.关键词:版面分析;图文分割;熵;游程信源熵中图分类号:TP391.41文献标识码:AText—ImageSegmentationAlgorithmBasedonRun。LengthEntropyLIHua,CUIRong—yi’(IntelligentIn如rmationProcessingLab.,DepartmentofComputerScience&Technology,CollegeofEngineeri

3、ng,YanbianUniversity,Yanji133002,China)Abstract:Analgorithmoflayoutanalysisbasedonrun-lengthentropywasproposedforsegmentingimageareaindocument.Firstly,theentropyofeachlineinadocumentwithdifferentgrayrun-lengthwascomputed.Then,theprominentareaswereextractedwhichhavesignific

4、antlylargeentropyvalue.Finally,theimageinthedocumentwasextractedbyfindingtheprominentareas.Theexperimentalresultsshowthattheimageareascanbeextractedpreciselyandeffectively,andtheproposedmethodisreasonablyrobustindifferentlanguagelayout.Keywords:layoutanalysis;photosegmenta

5、tion;entropy;run-lengthentropy0引言版面分析的主要工作是把文档中具有特殊含义的不同区域分开,而这些区域互不相交且每个区域都满足特定的一致性.图文分割是版面分析研究中的一个经典难题[1].文档包含文字、图片、表格等信息,其中文字信息是文档内容的语言表达,而图片和表格是文档语义的直观描述.随着社会的信息化发展,单一的文字信息已不能满足人们的信息需求,图片、视频等多媒体信息已被大量地使用在文档传递中[2].传统的图文分割方法有自顶向下和自底向上两类.其中自顶向下算法的优点是速度快,缺点是要对页面有一定先验知识,代表性

6、的算法是投影轮廓切割法(PPC)[3].普通的PPC算法是建立在印刷区域主要由矩形块组成的假设基础上的,其主要思路是:首先得到文档图像在X轴和y轴上的投影轮廓(projectionprofile);然后在这些投影轮廓上寻找较深的波谷点,并在这些波谷点的位置对相应文档中的图片进行切割;最后由切割得到一个图片块.但是,当文档图像较小时,迭代次数和计算量收稿日期:2010一02一04*通信作者:崔荣一(1962~),男(朝鲜族),博士,教授,研究方向为模式识别、智能计算.万方数据延边大学学报(自然科学版)第36卷将会大幅增加hs一.自底向上算法的

7、优点是不需要对页面有先验知识,缺点是耗时较多,其代表算法有行程平滑法、近邻线密度法、连通分量分析法等[6].尽管研究人员进行了许多版面分析方面的研究,并将其用于提取文档中的文字、图片、表格等工作中,但是到目前为止还不存在一种通用的方法,也不存在一个判断分割是否成功的客观标准,这使图文分割成为版面分析中的一个瓶颈.本文根据文档图像中的不同区域(文字、图片、图表等)在纹理上存在的显著性差别,在对文档的纹理特征进行分析的基础上,采用游程熵作为特征量对文档中的图文区域进行分割,取得了满意的效果,而且结果显示该方法与所处理图文区域形状无关.1游程信源

8、熵游程是相同灰度值在空间上的连续分布,在黑白二值图像的数据压缩中作为编码对象,典型的应用为传真机图像的解压缩.针对灰度图像,本文中把以不同灰度游程作为信源符号的信源称为灰度游程信

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。