基于Viterbi算法的粘连断裂印刷体数字行

基于Viterbi算法的粘连断裂印刷体数字行

ID:36644955

大小:753.03 KB

页数:8页

时间:2019-05-13

基于Viterbi算法的粘连断裂印刷体数字行_第1页
基于Viterbi算法的粘连断裂印刷体数字行_第2页
基于Viterbi算法的粘连断裂印刷体数字行_第3页
基于Viterbi算法的粘连断裂印刷体数字行_第4页
基于Viterbi算法的粘连断裂印刷体数字行_第5页
资源描述:

《基于Viterbi算法的粘连断裂印刷体数字行》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、第33卷第3期自动化学报Vol.33,No.32007年3月ACTAAUTOMATICASINICAMarch,2007基于Viterbi算法的粘连断裂印刷体数字行切分识别方法殷绪成1;2刘昌平1摘要粘连断裂字符行的切分识别,是很多OCR实际应用中存在的主要困难之一.本文针对粘连断裂的印刷体数字行,提出了一种基于Viterbi算法的切分识别方案,该方案采用两次切分识别的层次型结构.在第二次切分识别过程中,首先,在候选切分点区域,结合灰度图像与二值轮廓信息,采用基于Viterbi算法搜索的非直线路径进行切分,得到有效的切分路径;然后,结合分类器输出的可信度,采用Viterbi算法来合并前

2、面得到的候选切分图像块,进行动态切分与识别.实际的金融票据识别系统实验表明,本文提出的印刷体数字行切分识别方法能够较好的克服字符行的粘连与断裂情况,提高了识别系统的识别率和鲁棒性.关键词字符切分,OCR,粘连断裂字符,Viterbi算法,印刷体数字行中图分类号TP391.4ASegmentationandRecognitionSystemforTouchingandBrokenNumeralStringsBasedonViterbiAlgorithmsYINXu-Cheng1;2LIUChang-Ping2AbstractCurrently,inmanyOCRapplications,

3、itisdi±culttosegmentandrecognizetouchingandbrokencharacters.Inthispaper,asegmentationandrecognitionsystembasedonViterbialgorithmsisproposedtosolvesuchaproblemfortouchingandbrokenmachine-printednumeralstrings.Thissystemincludestwostepsofsegmentationandrecognition.Inthesecondstep,¯rst,asegmentatio

4、nmethodisadoptedto¯ndthecharacternonlinearsegmentationpathsbycombininggrayscaleandbinaryinformationbasedonaViterbialgorithm;then,arecognitionmethodofusingaViterbialgorithmisadoptedtodynamicallycombineandrecognizethecharactercandidateswiththeirreliabilitiesgeneratedfromtherecognizer.Someexperimen

5、tsona¯nancialdocumentanalysisandrecognitionsystemindicatethatthisViterbialgorithmsbasedmethodise±cientforsegmentationandrecognitionoftouchingandbrokennumeralstrings,andenhancestheaccuracyandrobustnessoftherecognitionsystem.KeywordsCharactersegmentation,OCR,touchingandbrokencharacters,theViterbia

6、lgorithm,machine-printednumeralstrings1引言法[1].一般的字符切分都是基于二值图像的;但是,在比较复杂的情况下,仅仅利用二值信息往往不能在实际应用中,OCR的瓶颈不再是分类器的设得到满意的切分效果.Lee等人利用灰度图像来进行计问题,而主要取决于字符切分,特别是粘连断裂字切分与识别[2];而在文献[3]中,研究者提出了结合符行的切分问题.对于干净的印刷体文本行,简单的灰度图像和字符二值轮廓信息的字符切分识别方法.基于字符特征的切分就能够达到实用效果;而对于对于印刷体数字行的切分,由于打印机的不同、有噪声的印刷体、限制型手写体、和无限制的手写打印字

7、体的不同、以及打印油墨的浓淡不同,容易体,则需要依次采用更加复杂的切分方法.一般来产生粘连字符和断裂字符;而且字符宽度和高度信说,对于复杂的切分问题,字符切分与识别是结合息在实际应用中也是变化不定的.未能准确分割粘在一起考虑的;也就是说,现行很多实用的字符切连与断裂字符是产生识别错误的主要原因之一,这分方法都是基于字符特征和分类器识别的混合型方已经成为实际应用中的主要瓶颈,而一些经典切分识别方法[4]很难较好的解决这些问题.收稿日期2005-4

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。