欢迎来到天天文库
浏览记录
ID:5263798
大小:211.92 KB
页数:5页
时间:2017-12-07
《不规则机票表格的高精确度多单元字符定位》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第16卷第4期计算机辅助设计与图形学学报Vo1.16.NO.42004年4月JOURNALOFCOMPUTER—AIDEDDESIGN&COMPUTERGRAPHICSApr.,2004不规则机票表格的高精确度多单元字符定位李谊王知衍(华南理工大学计算机科学与工程学院广州510640)摘要提出一个检测和定位机票图像中污损字符串的技术.不规则机票表格中的字符串是由计算机打印生成的,其对比度低且容易偏离表格,无法用常用的方法处理.基于几何先验知识和字符提取结果,应用扩展最大平均相关高度相关滤波器检测,进而准确地定位期望字符区域.实验结果表明:该方法准确率高,可以为OCR提供良好的输
2、人.关键词相关滤波器;统计模式识别;多区域表格;机票中图法分类号TP391.41HighAccuracyLocatingMulti-fieldsCharacterStringsinIrregularAirlineCouponImageLiYiWangZhiyan(SchoolofComputerScienceandEngineering,SouthChinaUnizJersityofTechnology,Guangzhou510640)AbstractAtechniquetodetectandlocatesmudgycharacterstringsincomplextabula
3、rcouponimagesispresented.Inourresearch,characterstringsintheirregularcouponimagesarecomputer—printedbutoflowcontrastandcouldbeshiftedoutofthetableSOthattheyareunabletObedetectedandlocatedusingconventionalalgorithms.Basedongeometricinformationandstringretrievalresultextendedmaximumaveragecorr
4、elationheight(EMACH)correlationfilterisappliedasanadaptiveshiftlocatortOdetectandlocateexpectedcharacterstrings.TheresultsdemonstratethatthealgorithmisofhighaccuracyandprovidesexcellentinputforOCR.Keywordscorrelationfilter;statisticalpatternrecognition;multi—fieldstable;coupon的,而且根据具体航程的不同,某
5、些字段会被置空.1引言通过观察发现,机票图像的版面分析有如下的难点⋯:(1)机票的内容信息是复印上去的,因此会被为了准确地把纸质机票数字化并且对关键内容污损,有较多的噪声以及较低的对比度;(2)由于复进行OCR识别,需要对机票表格相应区域中是否存印时不正确进纸等原因,非手写的计算机打印字符在字符串进行检测,若字符串存在则要进行准确的和对应的表格域之间存在偏移,甚至可能完全偏离定位.机票字符根据印制的时间先后可以分为:(1)表格.这是在打印阶段造成的,无法在扫描以及预空白机票;(2)具体的内容信息.空白机票包括表格处理中恢复,且无法采用一般的表格版面分析的方线和背景;具体内容信息
6、是购票的时候才复印上去法处理;(3)由于空间信息不足以分割版面,因此即原稿收到日期:2003—03—20;修改稿收到日期:2003—06—16.本课题得到科技部科技型中小型企业技术创新基金无偿资助项目(02C26214400224)和广东省科技计划项目(2002A1020104)资助.李谊,男,1979年生,硕士研究生,主要研究方向为图形图像处理与模式识别.王知衍,男,1949年生,教授,博士生导师,IEEE会员,主要研究方向为计算机图形图像处理.4期李谊等:不规则机票表格的高精确度多单元字符定位使表格线完全去掉,对字符的定位仍然存在问题.定的表格处理l7J.研究表明,通用的表
7、格算法效果由于字符的偏移,应用表格线去除算法则容易导致不佳l8,而且对于特殊应用方向的定位准确度不高.字符破损丢失.可以认为,我们的问题有着特殊的要求,采用常本文采用高速彩色扫描仪进行输入,图像经过用的算法解决存在困难.为了尽量提高准确度,可纠偏和字符提取,利用先验几何信息和频域上的统以将一些具体的先验几何知识添加到定位过程中,计模式识别方法,输出可以进行OCR处理的准确文而不是将这些规则作为最后的校验步骤进行;同时,字定位区域.将时域空间拓展到频域空间,利用统计模式方法进行协同处理.2相关
此文档下载收益归作者所有