欢迎来到天天文库
浏览记录
ID:58225520
大小:266.05 KB
页数:6页
时间:2020-04-29
《手写金融汉字识别中的可信度估计.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第10期电子学报VoI.33No.102005年10月ACTAELECTRONICASINICAOct.2005手写金融汉字识别中的可信度估计徐蔚然,郭军(北京邮电大学信息工程学院,北京100876)摘要:由于实际票据中的手写金融汉字书写得并不规范,而且还会受到票据的背景底纹和印章等因素干扰,所以正确识别率很低.为了达到要求的识别精度,必须拒识大量样本,这样就限制了票据识别系统的自动处理率.本文提出一种基于支持向量机的可信度估计方法,其特点是针对每个文字类别,专门构造用于易混淆字判断与可信度估计的支持向量机.该方法充分利用了支持向量机在少量训练样本情况下对两类判断问题的学习能力,可以
2、准确地估计可信度,从而在拒识较少样本的情况下达到要求的识别精度.关键词:汉字识别;支持向量机;易混淆字;可信度;银行票据OCR中图分类号:TP391文献标识码:A文章编号:0372-2112(2005)10-1879-04ConfidenceEvaluationforHandwrittenChineseFinancialCharacterRecognitionXUWei-ran,GUOJun(BeijingUniuersityofPosts&Telecom,Beijing100876,China)Abstract:Becausehandwrittencharactersinpract
3、icaIbankcheckareaIwaysinterferedbybackgroundimageandseaIs,theaccuracyrateofOCRisveryIow.Toobtainreguiredprecision,mostsampIeshavetoberejected,bywhichtheauto-processingrateisconfined.Inthispaper,anewconfidenceevaIuationmethodbasedonsupportvectormachinesisproposed.Inthismethod,speciaISVMsareconst
4、ructedforeverycharactercIasstoevaIuateconfidenceandrecognizesimiIarcharacter.ThismethodmakesfuIIuseofSVM’sstudyingabiIityintheconditionoffewtrainingsampIes,andcanaccurateIyestimatetheconfidence.Bythismethodwecanre-jectfewersampIestoobtainreguiredprecision.Keywords:Chinesecharacterrecognition;su
5、pportvectormachine;simiIarcharacter;confidence;bankcheckOCR!引言(1)和式(2)中的经验公式估计可信度:实际银行票据中的手写金融汉字书写得并不工整规范,(x)=1/dI(1)CFC(I)M同时还会受到票据的背景底纹和!1/dii=1印章等因素干扰(见图1和图2),scoreI1所以OCR正确识别率很低.因此CFC(I()x)=M,scoreI=d-d+1(2)I1根据识别结果的可信度设置拒识!scoreMi=1阈值是达到要求识别精度的基本[9]则利用首选距离d及其与二选距离d的差建立识别系12方法.统的误识模型[.8]把这种
6、比较候选字距离测度的方法称为相识别结果可信度对尺度;并把相对尺度和绝对尺度结合起来,得到综合尺度可的研究一直受到人们信度.另外,LinX[7]通过可信度自适应变换(ACT,Adaptive的关注,并提出很多方ConfidenceTransom)把式(3)的广义可信度转换为可信度[.10]法.采用最小距离分类则是通过逻辑回归模型LRM把距离测度转换为候选字可信器时,依照距离的大小度.排序,识别器给出前IdI(eC(I)Ix)=1-(3)个候选字(c1c2⋯cI)以minI"idi及相应的I个距离值以上方法都是根据文字识别分类器提供的信息计算可信[3](d1d2⋯dI).XuL和度.本文
7、提出一种基于支持向量机的可信度估计方法.该方法[2]在文字识别分类器之后再构造一组支持向量机;每一个支持LeeY-S分别采用式收稿日期:2004-01-08;修回日期:2005-08-08基金项目:国家自然科学基金(No.60475007)1880电子学报2005年向量机负责识别一种文字类别的错识样本和正确样本;支持学习机器的容量使得支持向量分类器具有较好的推广能力.向量机输出的测度信息就是广义可信度.该方法充分利用了(2)SVM是测度级分类器,并且随着S
此文档下载收益归作者所有