基于bp神经网络的脱机手写汉字识别.研究

基于bp神经网络的脱机手写汉字识别.研究

ID:31972464

大小:2.13 MB

页数:55页

时间:2019-01-29

基于bp神经网络的脱机手写汉字识别.研究_第1页
基于bp神经网络的脱机手写汉字识别.研究_第2页
基于bp神经网络的脱机手写汉字识别.研究_第3页
基于bp神经网络的脱机手写汉字识别.研究_第4页
基于bp神经网络的脱机手写汉字识别.研究_第5页
资源描述:

《基于bp神经网络的脱机手写汉字识别.研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、天津师范大学硕士学位论文第一章绪论1.1脱机手写体汉字识别技术1.1.1手写汉字识别的研究背景文字识别技术【1】【2】【3】是模式识别【4】【51的一个重要分支。汉字识别,特别是手写体汉字识别,是文字识别中具有挑战性的理论研究课题,同时也是一个具有广泛实用背景的应用研究项目。近年来,我国在印刷体汉字识别和联机手写体汉字识别方面取得了重要的成果,脱机手写体汉字识别是国内外研究的热点和难点问题,虽然取得了一些进展,但离实用需求所要求的水平还存在着很大的差距,目前仍处在实验室研究阶段。汉字识别是模式识别的一个重要分支,也是文字识别领域较为困难的问题,它涉及模式识别、图像处理、数字信

2、号处理、自然语言理解、人工智能、模糊数学、信息论、计算机科学、中文信息处理等学科,是--f-]综合性技术,在中文信息处理、办公室自动化、机器翻译、人工智能等高技术领域都有着重要的实用价值和理论意义【6】。汉字识别技术可分为印刷体汉字识别和手写体汉字识别两大类,后者又可以分为联机(on—line)手写汉字识别和脱机(off-line)手写汉字识别,汉字识别的类型大致可概括如图1.1所示。汉字识别印刷体汉字识别手写体汉字识别联机手写体汉字识别脱机手写体汉字识别图1.1汉字识别的分类汉字识别可分为印刷体汉字识别和手写体汉字识别两大类。一般地,手写体汉字识别难于印刷体汉字识别。按输入

3、方式不同,手写体汉字识别又可分为联机手写体汉字识别和脱机手写体汉字识别。脱机手写体汉字识别由于缺少笔顺等信息,识别难度远远大于联机手写体汉字识别。手写汉字相对于规范的印刷体汉字又具有如下特点【4】:天津师范大学硕士学位论文(1)基本笔划变化。印刷体汉字的笔划基本上是横平竖直,折笔的拐角大都是尖锐的钝角、锐角或直角,因而折笔基本上可以看作是曲折线段所组成的。而手写汉字的笔划大都不具备上述的特点,出现直笔划变弯,折笔的拐角变为圆弧等,例如,“品”字的三个“口”变成三个圆圈,有时把较短的笔划变为“点",有时则在起笔或折笔的拐角处增加额外的“笔锋”。(2)在手写体汉字中,笔划的连笔现

4、象十分普遍。它不是由于干扰等客观原因而产生,主要是由于书写者的习惯而造成的。(3)笔划与笔划、部件与部件间的相对位置发生变化,同时,笔划的长短及部件的大小也发生变化。方块汉字字形是一种艺术,书写时要求笔划与部件的形态和相互关系尽量做到彼此相协调,使整体字形结构匀称美观,因此笔划与部件的大小、位置变化,客观上是不可避免的。此外,由于书写者文化水平、习惯等的不同,他们所写的字的差别更大,即使是同一个人写的字也有一定的差异。笔划长短、部首大小及位置等的变化,使我们难以仿照印刷体汉字识别的办法事先确定他们的位置,按规定区域提取笔划或部首特征。我国主要的手写字体有楷书、行书和草书三种【

5、4】。可以看出,同一个字的笔划和字形几乎迥然不同,相差甚远。草书的字甚至文化较高的人有时也不认识,要求计算机能自动识别这样的手写字显然是比较困难的。因此,对计算机自动识别的手写汉字应有要求。具体的说,对构成汉字的笔划及其相互关系,应有必要的规定和限制,不能无约束地随意书写,这种字叫做“限制性手写汉字"。本文样本的采集就是基于限制性手写体汉字,同时这种限制不能太严,规定不能过于复杂,否则用户难以适应,识别系统也不容易推广应用。1.1.2手写汉字识别的发展现状上世纪六十年代,人们开始了对印刷体汉字识别的研究工作,最早对印刷体汉字识别进行研究的是IBM公司的Casey和Nag[71

6、。1966年他们发表了第一篇关于汉字识别的文章,用模板匹配法识别1000个印刷体汉字。1977年,日本东芝综合研究所研制出能识别2000个印刷体汉字的实验装置,1983年东芝研究中心又进行了对限制性手写体与印刷体汉字识别兼容的研究工作。2天津师范人学硕士学位论文我国的汉字识别研究开始于70年代末,主要有清华大学计算机系、中科院自动化所、河北大学、南开大学、北京大学、华南理工大学等单位。初期的研究工作仅局限于有限和规则汉字的识别,现在对汉字识别的很多重大问题已经得到解决:实现了各种字体的印刷图文版面的识别、理解和重构,联机手写体汉字识别和脱机印刷体汉字识别都达到了较高的正确率,

7、其研究的主要方向己转为对高速的不断追求。脱机手写体汉字识别也以经历了一个高速发展期,目前的世界最高水平已达到90%以上的识别正确率[81。近几年,脱机手写体汉字识别的发展进入了一个低潮期,虽然仍然有大量科研单位的人力投入,不断有采用新方法的论文发表,但这些方法的效果却不尽如人意。这种现象原因有很多,其中一个重要原因是由于手写体汉字过于复杂且笔划形态多变【9】。目前,我国常用汉字约3000至4000个,国标GB2312.80常用汉字字符集中共有6763个常用字,分为两级。第一级有3755个汉字,使用频度为

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。