欢迎来到天天文库
浏览记录
ID:33745921
大小:2.86 MB
页数:66页
时间:2019-02-28
《文档图像的版面分析技术分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、摘要文档图像的版面分析是文档信息处理系统的重要组成部分,以及复杂文档OCR必不可少的环节,它是实现纸质文档数字化的重要环节。版面分析技术广泛应用于文档自动检索、办公自动化等领域,但由于文档版面类型多样,结构复杂,目前的版面分析技术仍具有较多局限性,因此版面分析具有重要的意义及应用前景。版面分析主要包括版面分割以及区域类型识别两大部分。,针对传统的自项向下方法难以适应复杂版面的问题,本文提出一种基于分割线提取的版面分割算法。该算法首先分别在水平和垂直方向上提取长度及宽度大于一定阈值的初始分割线,并针对固定阈值法适应性不强的问题,提出一种自适应阂值计算方法;然后将初始分割线聚类成线簇,为解决线簇形
2、状复杂、主轴方向难以确定的问题,采用分层聚类方法,使得线簇形状得以简化,并采用一定策略提取出线簇主轴线作为最终分割线;然后对各分割线所形成的交点构建关系模型,并基于该模型采用闭合框搜索算法分割出各版面区域;最后通过区域的筛选及合并处理增强分割结果的有效性。针对现有方法在同一层次考察各项目标属性识别效率不高的问题,本文提出一种基于特征属性的层次识别算法。该算法首先通过样本统计得到各类目标的各项属性概率分布,并引入属性区分力的概念,表达属性区分目标的能力,由此构建目标属性表,识别过程中每次提取当前区分力最大的属性,并计算目标概率,实现一种逐步提取属性并确定目标归属直至最终确定目标类型的层次识别过程
3、。本文针对版面分割所得到的文档区域构建了3木5大小的目标属性表,采用该算法较好地实现了版面区域的识别。经过综合实验分析,本文所提出的版面分析方法对于不同的版面类型以及拍摄条件均具有较好的适应性,并且具有较高的分割率与识别率。关键词文档图像,版面分析,版面分割,区域类型识别ABSTRACTDocumentimagelayoutanalysisisanimportantcomponentofdocumentinformationprocessingsystem,andanessentialpartofcomplexdocumentsOCR.Itisakeystepofthedigitalizati
4、onofp印erdocuments.DocumentlayoutanalysistecluliqueiswidelyusedinautomaticdocumentretrieVal,o佑ceautomationandotherflelds.ButduetodiVerse勺,peandcomplexstmctureofdocumentlayout,currenttechnologyoflayoutanalysisstiUhascertainlimitations.So1ayoutanalysisisofgreatsiglli丘canceand印plication.Layoutanalysisin
5、cludeslayoutsegmentationandregionrecognition.Accordingtomeinad印tabilitytocomplexlayoutoftraditionaltop-downmethods,t11emethodbasedonsegmentation1ineextractionisputfIonⅣardi11thisp印er.Firstly,thealgorithmextractsinitialsegmentationlines、ⅣhoselengthandwidtllgreaterthanacertainthresholdValue.Andanadapt
6、iVenlresh01dmethodisputfo刑ardtos01Vetheproblemofinflexibili够offixedmresholdmethod;Theninitialsegmentationlinesareclusteredmolineclusters.Ahier2urcmcalclusteralgorimmisusedtoac(1uiret11elmecluster’complexsh印eanddirectionofmainaxis.Thenthemainaxisofmelineclustersareextracte:dasfinalsegmentationlines丘o
7、msimplifiedlineclustersusmgacertaillstrategy;Basedonmerelationalmodelofcrossingpointsfomedbysegmentation1ines,aclosedp01ygonse2urchalgorithmisusedtosegmentthedocument1ayoutintoregions.Finally,theef.fe
此文档下载收益归作者所有