基于膨胀算法的版面分析技术

基于膨胀算法的版面分析技术

ID:13302648

大小:38.00 KB

页数:10页

时间:2018-07-21

基于膨胀算法的版面分析技术_第1页
基于膨胀算法的版面分析技术_第2页
基于膨胀算法的版面分析技术_第3页
基于膨胀算法的版面分析技术_第4页
基于膨胀算法的版面分析技术_第5页
资源描述:

《基于膨胀算法的版面分析技术》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于膨胀算法的版面分析技术基于膨胀算法的版面分析技术郊延辉黄剑华唐降龙(哈尔滨工业大学计算机学院,哈尔滨150001)E-mail:gyh1978C163.com摘要论文提山了基于数学形态学的版面分析方法.该方法是以自底向上为主.同时结合了数学形态学的思想.论丈提出的方法.利用数学形态学的1"3胀运算和搜索算法,实现对复杂版面进行快速准确的分析.论文以名片版面图像作为A'试样本,进行版面分析,取得了预期的效果.关健词版面分析数学形态学搜索算法空童编县1002-8331-(2003)34-0223-03文献标识码A中圈分类号TP391DocumentLayoutAnalysisBasedonD

2、ilationAlgorithmGuoYanhuiHuangJianhtutTangXianglong(ComputerScienceDepartment,HarbinInstituteofTechnology,Harbin150001)Abstract:Thispaperpresentsamethodfordocumentlayoutanalysisbasedonmathematicalmorphology.Thismethodmostlyisbasedonabottom-upapproach,italsobenefitsfromtheconceptofmathematicalmorpho

3、logy.Bysomemor-phologicaloperationsandsearchalgorithm,theproposedmethodcananalyzeacomplexdocumentlayoutquicklyandaccurately.Theapproachhasbeentestedinarealapplicationforbusinesscardandgetsagoodresult.Keywords:DocumentLayoutAnalysis,Mathematicalmorphology,SearchAlgorithm1引言版面分析是印刷体汉字识别系统的重要组成部分,与字符识

4、别具有同等重要的地位.它是利用计算机自动地对印刷体文档图像进行分析,提取出文本,图像,图形,表格等区城,并确定其逻辑关系m.这就使系统用户避免了手工画框标识文本块的素琐操作,减少人机交互的时间,从而提高识别系统的自动化程度和愉入效率.作为汉字识别的预处理过程,正确合理的版面分析结果是后续版面识别工作的必要条件.因此,研究能够适应各种中文版面特点的通用版面分析方法,具有十分重要的意义.目前版面分析有三个主要方法:(1)自顶向下的方法〔"I(ToptoDownMethod)这种方法是采用某种算法将整篇文本进行递归分割,直至得到版面块的分布结果为止.(2)自底向上的方法t',',q(Bottomt

5、oUpMethod)这种方法则恰恰相反,它是一个合并的过程,先在文档图像中标示出全部小的组件,再把这些组件归并成字符,进而组成文本行,段落块等,在合并的过程中得到版面结构.由于计算机运算速度的飞速发展,自底向上法的处理时间可以减少到应用的程度.因此自底向上法成为目前流行的版面分析思想.而文中所采用的方案就是以自底向上分析为主,并引入数学形态学中的膨胀运算来进行版面分析.以前的自底向上分析方法,主要是针对版面图像中的黑象索点进行连接域搜索不可避免地使计算量大大增大,速度很慢,而文中提出的方法先对版面图像进行数学形态学中的膨胀运算,不是以点为单位进行连接区域搜素,而是以一个黑象素块(如nxn的区

6、域)为单位,再利用搜索算法进行连接域搜索,从而完成对版面图像的分析.该算法已应用到名片版面分析和银行票据版面分析上.比较明显地提高了搜索速度和分析正确率.2基于膨胀算法的版面分析方法在进行版面分析的时候,采用自底向上的方法比较准确,适合一些比较复杂的版面,而由于字符,文本行之间有间隙,从而使各个连通区域比较琐碎,这样就大大地增加了运算量.以前的版面分析技术采用"自底向上"的方法,是直接对版面图像上的黑点进行搜索,获得连通区域,这种方式容易受噪声的干扰,运算速度比较慢,并且给后面的连通区域合并带来很大的困难.论文借鉴图像处理中的方法,把数学形态学中的膨胀运算运用到版面分析中.为了使各个连通域"

7、变大",从而提高搜素速度,降低合并的工作量,这一点也是文中的版面分析算法与以前算法的不同之处.以前的版面分析方法是先搜索出较小的区域,然后进行合并合并的计算量比较大,这里提出的算法,先通过对版面图像进行膨胀运算,合并各个空隙比较小的黑色区域,然后再进行区域搜索,这样就大大降低了区域合并的计算量,提高了版面分析的速度.算法的具体过程为:步1:膨胀运算和膨胀模板的选取根据中文面的一些特点,如宇符之间有较小的空隙,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。