资源描述:
《基于最优坐标系的表格版面分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第24卷第04期计算机仿真2007年04月文章编号:1006-9348(2007)04-0211-05基于最优坐标系的表格版面分析吕亚军,陈继荣(中国科技大学电子工程与信息科学系,安徽合肥230027)摘要:表格文档在日常生活中运用十分广泛,对这类文档进行计算机自动处理能提高文档处理速度和准确度,具有重要的现实意义。表格文档版面结构提取是文档信息处理自动化的核心。由于表格文档图像包含印刷体和手写体字符、图像、污损、噪声和一定的倾斜,在其影响下,正确的提取文档的版面结构是比较困难的。在总结国内外表格文档版面结构提取方法的基础上,提出了一种基于
2、最优坐标系的版面结构提取方法,该方法与其它方法相比具有很强的抗干扰能力和文档版面定义灵活方便的特点。关键词:版面分析;表格文档处理;最优坐标系;表格识别中图分类号:TP391文献标识码:BTableLayoutAnalysisBasedonOptimalCoordinatesSystemLUYa-jun,CHENJi-rong(Dept.ofElectronicEng.&InformationScience,UniversityofScience&TechnologyofChina,HefeiAnhui230027,China)ABSTRA
3、CT:Tabledocumentsarefrequentlyusedindailylife.Automaticallyhandlingthiskindofdocumentsbycomputercannotonlysavetimebutalsoofferhighaccuracy.Thelayoutstructureextractionofthetabledocumentsisthekerneloftheautomaticprocessingoftableinformation.Becausetheimagesoftabledocumentsa
4、lwaysconsistofprintedandhandwrittencharacters,images,defiles,noisesandtilts,itisdifficulttoextractthelayoutstructurecorrectly.Aftersummarizingtheexistingmethodsoflayoutstructureextraction,thispaperpresentsanewmethodbasedonoptimalcoordinatessystemtogetthelayoutstructure.The
5、newmethodoutperformsthetraditionalonesinnoise-resistingandlayoutdefinition.KEYWORDS:Layoutanalysis;Tabledocumentprocessing;Optimalcoordinatessystem;Tablerecognition研究者的重视。目前,表格文档处理系统已经在一些领域得1引言到了应用。在不同的应用场合,表格的版面结构是不同的。由表格十分广泛的运用到了日常生活中。应用范围包括人于表格种类繁多、版面结构复杂,包含许多文字识别技术不口普查
6、、银行票据、申请表、定货单、各类报表等。如何利用计能处理的对象如线条、图形等。因此,如何将表格中填写的信算机高速自动地获取、存储、管理数量巨大的表格信息,减轻息从表格的背景信息中分离出来,即表格的版面理解问题,人们将表格信息输入到计算机的繁琐工作,这越来越成为人是表格自动化处理的关键。表格版面结构提取的不足已经成们关注的焦点,并成为计算机模式识别、图像处理领域的研为影响表格自动阅读推广应用的主要因素。随着表格自动处究热点。因此,对这类文档进行计算机自动处理具有重要的理范围的不断扩大,对信息处理系统提出了更高的要求。例现实意义。如对于复印的表
7、格、大量刊登在报纸上的调查问卷表、选票文档处理系统主要由两部分组成即表格文档的版面理等表格的处理,由于表格图像畸变严重、而且噪声较多,对这解和光学字符识别(OCR)。OCR研究起步较早,随着OCR识类表格的版面分析问题一直没有得到很好的解决。别技术的不断发展,小字符集的手写字符识别已经比较成熟。而对表格文档版面理解的研究直到90年代才得到各国2表格处理系统的组成2.1表格的版面结构表格图像由定域和变域两部分组成,其中定域为印刷在收稿日期:2006-03-15表格上的固定信息,如边框、线条、图形、条码、文字说明、栏)211)目名等等。变域是要
8、求用户填写数据的区域,通常这些区域上的畸变。而这种非线形畸变是难以消除的。根据图像质量可能填写字符、数字或者特殊符号,也可能是照片印章等图的差异,表格定位可以划分为刚性匹配和柔性