资源描述:
《手写数字识别技术研究文献综述》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、文献综述手写数字识别技术研究一、前言部分手写数字识别(HandwrittenNumeralRecognition)是光学字符识别技术(OpticalCharacterRecognition,简称OCR)的一个分支,它研究的对象是:如何利用电子计算机自动辨认人手写在纸张上的阿拉伯数字。OCR是模式识别的一个分支,按字体分类主要分为印刷体识别和手写体识别两大类.而手写体识别又可分为受限手写体和不受限识别体,按识别方式有课分为在线识别和脱机识别。在整个OCR领域中,最为困难的就是脱机手写字符的识别。到目前为止,尽管人们在脱机手写英文,
2、汉字识别的研究中已取得很多可喜成就,但距实用还有一定距离。而在手写数字识别这个方向上,经过多年研究,研究工作者已经开始把它向各种实际应用推广,为手写数据的高速自动输入提供了一种解决方案。字符识别处理的信息可分为两大类:一类是文字信息,处理的主要是用各国家,各民族的文字(如:汉字,英文等)书写或印刷的文本信息,目前在印刷体和联机手写方面技术已趋向成熟,并推出了很多应用系统;另一类是数据信息,主要是由阿拉伯数字及少量特殊符号组成的各种编号和统计数据,如:邮政编码,统计报表,财务报表,银行票据等等,处理这类信息的核心技术是手写数字识别
3、。因此,手写数字的识别研究有着重大的现实意义,一旦研究成功并投入应用,将产生巨大的社会和经济效益。[1][2][15]二、主题部分(一).手写数字识别研究的理论意义手写数字识别作为模式识别领域的一个重要问题,也有着重要的理论价值:1.阿拉伯数字是唯一的被世界各国通用的符号,对手写数字识别的研究基本上与文化背景无关,这样就为各国,各地区的研究工作者提供了一个施展才智的大舞台。在这一领域大家可以探讨,比较各种研究方法。2.由于数字识别的类别数较小,有助于做深入分析及验证一些新的理论。3.尽管人们对手写数字的识别已从事了很长时间的研究
4、,并已取得了很多成果,但到目前为止机器的识别本领还无法与人的认知能力相比,这仍是一个有难度的开放问题(Openproblem)。4.手写数字的识别方法很容易推广到其它一些相关问题,很多学者就是把数字和英文字母的识别放在一块儿研究的。[1][2](二)手写数字识别方法与研究难度手写数字识别在学科上属于模式识别和人工智能的范畴。在过去的四十年中,人们想出了很多办法获取手写字符的关键特征。这些手段分两大类:全局分析和结构分析。对前者,我们可以使用模板匹配,象素密度,矩,特征点,数学变换等技术。这类的特征常常和统计分类方法一起使用。对后
5、者,多半需要从字符的轮廓或骨架上提取字符形状的基本特征,包括:圈,端点,节点,弧,突起,凹陷,笔画等等。与这些结构特征配合使用的往往是句法的分类方法.。多年的研究实践表明,对于完全没有限制的手写数字,几乎可以肯定:没有一种简单的方案能达到很高的识别率和识别精度。因此,最近这方面的努力向着更为成熟,复杂,综合的方向发展。一方面,研究工作者努力把新的知识运用到预处理,特征提取,分类当中,如:神经网络,数学形态学等。我认为,在手写数字识别的研究中,神经网络技术和多种方法的综合是值得重视的方向.虽然数字的类别只有十种,笔划又简单,其识别
6、问题似乎不是很困难。但事实上,一些测试结果表明,数字的正确识别率并不如印刷体汉字识别正确率高,甚至也不如联机手写体汉字识别率高,而只仅仅优于脱机手写体汉字识别。这其中主要原因是:第一,不同数字之间字形相差不大,使得准确区分某些数字相当困难;第二,数字虽然只有十种,而且笔划简单,但同一数字写法千差万别,全世界各个国家各个地区的人都用,其书写上带有明显的区域特性,很难完全做到兼顾世界各种写法的极高识别率的通用性数字识别系统。另外,在实际应用中,对数字识别单字识别正确率的要求要比文字要苛刻得多。这是因为,数字没有上下文关系,每个单字的
7、识别都事关重要,而且数字识别经常涉及的财会,金融领域其严格性更是不言而喻的。因此,用户的要求不是单纯的高正确率,更重要的是极低的,千分之一甚至万分之一以下的误识率。此外,大批量数据处理对系统速度又有相当的要求,许多理论上很完美但速度过低的方法是行不通的。因此,研究高性能的手写数字识别算法是一个有相当的挑战性的任务。[1][2][3][7][8](三)学习和测试样本库的选择如前一部分提到的,手写数字的写法带有明显的地区性和民族性,因而选择一个可供系统训练和测试使用的样本库是手写数字识别研究的重要基础之一,对识别系统的性能也有重要的
8、影响。研究者对所需的样本库有两种选择:一是自己根据需要建立专门的样本库,二是选用其它机构做好的现成的样本库。前者的优点是帖近自己的应用,缺点也是明显的:要费相当的精力且代表性很难保证,与其它人的结果不好比较。因此,现在的趋势是使用有权威性的通用样本库。目前,比较