欢迎来到天天文库
浏览记录
ID:33010879
大小:2.67 MB
页数:54页
时间:2019-02-19
《基于移动平台的联机手写汉字识别》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、基于移动平台的联机手写汉字识别国内也已经引起越来越多的人的兴趣,这里不再赘述。笔式电脑的核心技术是笔输入方法,而笔输入方法的核心技术是识别软件,也就是本文要谈的联机手写汉字识别软件。联机手写汉字识别中的“联机”(011.1ine)是相对于手写体汉字OCR来说的。后者是通过光学扫描装置把预先写在纸上的稿件的文字图像信息送到计算机加以识别,而不是边写边识别,所以有时也称脱机(off-line)手写汉字识别。对脱机识别来说,识别软件所获取的唯一信息是文字图像上各像素之间的空间位置关系信息。而联机手写识别软件由于采集到的是书写时的实时信号,因
2、而可以利用的除了文字图像各像素之间的空间位置关系信息以外,还有它们之间的时间关系信息。由于信息量的丰富。使得联机识别的难度要大大低于脱机识别。中国大陆、香港、台湾以及日本、美国等都有不少大学、研究机构、公司从事机手写汉字识别的研究,并有多种产品见诸市场。1.2汉字识别概述联机手写字符识别(on.1inecharacterrecognition)的发展历史可以追溯到本世纪50年代,伴随着手写板硬件(一种捕捉笔尖轨迹的数字化仪)的出现,人们开始研究联机手写字符识别技术。随着半导体和计算机技术的发展以及模式识别领域理论和方法研究的不断深入和
3、完善,到80年代后期,联机手写字符识别技术的研究已经朝着实用的方向努力,特别是英文,已经开始研究完全无限制的整句识别技术。联机手写汉字识别技术相对起步较晚。1981年,IBM公司E.F.Yhap等推出了第一套较为成熟的联机手写汉字识别系统。该系统是基于对汉字进行笔划、字根编码的思想进行识别的。系统中每个汉字用72种字根拼成,而每个字根又可分解为42种笔划的组合,通过对笔划和字根的判定识别所输入的汉字。而对字根进行的编码树表示又使得系统对通常的笔顺变化具有一定容错能力。当时对920个汉字的实验结果时正确率91.1%,对2260个测试,识
4、别率为79.9%(第一次使用)。书写者要求使用工整楷书。国内蒙恬科技公司是最早从事汉字识别技术研究、开发、生产的公司之一,旱在1991年,就正式推出手写汉字识别系统。蒙恬的手写汉字识别技术的发展可分4个阶段:1.识别规整书写的、具有固定笔顺的楷体阶段。2.识别带有某些连笔、常见笔顺变化的楷体阶段。3.识别带有某些连笔、笔顺自由变化的楷体阶段。4.识别自由连笔、无笔顺限制的行书汉字。而中科院在1988年提出利用笔段为基元【1儿2】的联机手写汉字识别技术。该方法把汉字分为笔段、笔划、字根、单字和词组五个层次,分别用模糊属性文法进行描述,以
5、启发式模板引导匹配。该系统采用了对笔段进行基于位置关系的排序第一章绪论方法,摆脱了对笔顺的依赖。由于对整个字形进行采样后分析,在识别速度上不如按笔顺采样计算识别快。值得注意的是,国外一些大公司也开始注意联机手写汉字识别这一领域。Motolora、Microsoft、Apple等大公司均已经投资于该方向的研究。由于资金雄厚,并且具有很强的软、硬件优势,其势头不可小视。国内研究人员应该奋起努力,把这一具有浓厚文化特色的核心技术掌握在中国人自己手中。影响识别率的因素识别率是手写汉字识别研究中最重要的环节,影响识别率的因素也是手写识别技术研究
6、中的难点,目前影响识别率的因素主要有以下几个方面:1.笔顺问题由于不同人具有不同的书写习惯,笔划的书写顺序经常发生变化,因此,单纯通过串匹配进行识别难以达到理想效果。对汉字进行描述时,仅仅采用一维串也就显得不够,必须利用一些二维方法来描述,从而又极大地增加了匹配的难度。2.连笔问题一般人写字时都不会一笔一划地书写,为了节省时间,连笔字是自然而然的事情,一些行书连笔甚至完全脱离了楷书的框架。从实用角度讲,连笔问题比笔顺问题具有更重要的意义。对于结构识别而言,连笔一方面使笔划种类大大增加,甚至达到难以归纳的程度;另一方面,连笔又使得笔段抽
7、取难度大增【3】’因为连笔会增加一些冗余笔段【4】,连笔造成的畸变又会使笔段方向严重离散。总之,连笔不论对于基于哪种基元的结构识别都是严峻的挑战。3.相似字区分汉字种类繁多,很多汉字彼此之间非常相似,例如“己、已、巳"三个字相差只在细微之间。手写汉字的变形十分严重,怎样能使识别系统抓住微小的差别,目前还是一个非常值得研究的问题。4.对抗干扰能力的要求抗干扰能力,也称为鲁棒性,对于联机手写识别系统的性能是非常重要的。书写时候,笔划的畸变、丢失,多余笔段(如笔锋)的插入,字的倾斜,部件间相对位置、大小的变化,这些都是经常发生的现象。对于结
8、构识别来说,会造成基元提取和识别的错误。传统的结构识别【5】方法恰好在鲁棒性上是薄弱环节。因此,要想取得好的性能,必须对传统识别方法进行改进,增强其鲁棒性,从而增加实用性。后PC时代,‘各式各样新奇、小巧的PDA、手机、
此文档下载收益归作者所有