手写文字识别字典的自动设计.pdf

手写文字识别字典的自动设计.pdf

ID:49264377

大小:519.95 KB

页数:7页

时间:2020-02-29

手写文字识别字典的自动设计.pdf_第1页
手写文字识别字典的自动设计.pdf_第2页
手写文字识别字典的自动设计.pdf_第3页
手写文字识别字典的自动设计.pdf_第4页
手写文字识别字典的自动设计.pdf_第5页
资源描述:

《手写文字识别字典的自动设计.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、手写文字识别字典的自动设计中国科学院计算所倪光南丁家福:,。摘要在手写文字识别机的研制中设计识别字典是一个涉及大量数据量的繁琐工作、。,本文提出了一种简单实用的自动设计方法每一文字经过特征抽取后以等长度的二。,、、值随机特征字表示计算机在学习过程中首先将大量学习样品的特征加以鉴别排队,,,。筛选等处理然后按合成三值模型的方法进行分集构成识别字典本文通过对特征,“”,。空间性质的分析导出了分集最近点原则并对分集起点作了探讨本文还对字符、、,。类别数子集数数据压缩比以及计算机的处理时间进行了讨论并给出了实验数据。该方法已用于实用的手写文字识别系统预处理特征鉴别,

2、本方案中每个手写文字识别时采用简单。,这种方法所需要的逻辑比较方法初看起来,,的字典容量很大但如后面要说明的那样借斟队含咎1妍阳欲协权姑“,,助分集方法可使字典数据大大压缩仍可得。,到紧凑的识别字典使用经验表明这种方法,所需处理的时间不太长修改字典和控制误识,,别都比较容易能满足识别精度的要求从而。使计算机能代替人的大量繁琐工作这种方法。图形类别的各主要环节如图1所示,各种方法抽取的随机特征字都要经过已。凡是标准模型库中图l手写文字识别字典自动设计框图建立的标准模型库的检查,。已包含这种随机特征字的则不进入排队站的书写者的字体不同以及处理过程中的变形造,,,

3、,计算机在重复学习过程中有了这种检查就成的正由于这种原因计算机重复学习文字,。a。可大大减少进入排队站的特征字数目提高排样品是必要的特征鉴别部分如图Z所示,队站的利用率从而提高计算机重复学习手写排队与筛选。,,文字样品的效率大量实验数据表明若某种在计算机自动形成识别字典过程中排队,只,方法能稳定地抽取文字的特征要形成了第站的作用是把机器学习的字符样品特征字按,,,一次标准模型库然后在此基础上用同种方法出现概率大小顺序排队出现概率大的特征字,,,。重复抽取文字特征经特征鉴别后第二次进排在站的前面反之排在后面所谓出现概率,,入排队站的特征字数目是很少的大约是总特

4、是指同一类字符在多次抽取特征时其中某种,,征字的1~5%第三次和以后各次则越来越特征字重复出现的次数它反映了某种字符的。,。少进人排队站的新特征字主要是由于不同特征字的集中程度如何如一页纸上有手写的38一一口,,必须从排队站中筛选掉否则要。,叫造成误识别识别时当出现被筛选的,,画特征字机器就按拒识处理即把拒识’T,蓟翩1宁1“冲介乙!别字符及其前后若干个字符同时显示在,,屏幕上供操作人员判别以便把正确。的字符实时输入机器排队与筛选分别。l无ZbC按命矛排队如图和图Z所示=l、L心拼拟站净集2(a;(b)第j图)特征鉴别示意图类文字排队站:ij,=图中T一第i

5、类文字的第j种特征字j1分集方法~LiTi:ii、、一第类文字的某一个特征字iG一经过鉴别排队筛选以后的特征第i类文字第j种特征字的个数iL一第i类。,C:字还不能直接构成识别字典为了压缩文字的特征字种类数()特征筛选图中iTiii二1~M,一第类文字第j种特征字字典的数据量以及减少所需学习样品=1、L::,ikTk类文字第乙种特征字,,一第数都要有一种分集方法即把一定数i,k“1~M,=l、Lk,釜牛k忍T一筛选标记。M一文字类别数量的特征字用一个集合表示如果每个,集合能包含大量的特征字识别字典就,,,某种字符四百个用某种方法反复对这页纸的可以很紧凑同时学

6、习过程所需的样品数也,,四百个字符抽取特征理想情况是每一遍只形只要足以确定每个集合的边界就够了不需要,。成一种特征字最不理想的情况是每遍形成四给出所有可能的特征字采用三值方法可以压。。,百个不同的特征字实际情况是几种到几百种缩数据量在这种情况下每个特征位用三种,,“”,“”1O之间这与抽取特征的方法和字符复杂程度有状态表示即表示该特征位必有。,”;关我们希望计算机在形成识别字典过程中表示该特征位必无’d,表示该特征位可有可,。,搜集尽可能多的不同书写者的字符样品以扩无每个三值特征相当于若干二值特征的一,。大样品的代表性这样形成的识别字典才有通个集合。,用性由

7、于上述要求同一种字符所形成的特设同一类文字(图形)的m个特征字为,x,,2,,iyi1…征字有时相当地多甚至超过排队站的长度{}王子老}上述三值状态分集方法。A,(该长度受到机器容量的限制)按字符特征归结为求出两个参考特征字{i}和{iB}使,字出现概率大小排队就保证了概率大的(也得,xiyi21·1即主要特征字)进人字典提高字典的有用Ai=…()。,xz率凡是超过队站长度而被丢弃的特征字可Bi=iVyiViV……(2)。n,n。i二1~在下次学习过程中收进来超过排队站长度的式中为特征字位数,,,、i`情况只是在初次形成字典时发生而且只是这样得到的{A}{B

8、}满足下列关系式、A,,`少数字符的笔划较复杂变形较

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。