欢迎来到天天文库
浏览记录
ID:6084401
大小:31.50 KB
页数:9页
时间:2018-01-02
《手写体汉字识别方法研究和探究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、手写体汉字识别方法研究和探究 摘要:本文在介绍手写体汉字识别系统工作原理的基础上,对当前常用手写体汉字识别方法的特点及存在的不足进行了分析,并对其在实际中的应用进行了介绍,在研究相关热点问题的同时,提出了手写体汉字识别的研究方向。关键词:人工智能;神经网络;多方案集成法;集群识别策略中图分类号:TP391.43文献标识码:A1前言由于汉字其独特的复杂结构,考察人类认识汉字的过程成为研究人类认识能力的一个良好手段。这是因为人类对具有丰富结构特征的汉字进行辩识时,不仅要应用模式识别能力,还要应用推理判断能力。这样人对汉字识别的过程既包括高层的以符号推理为主的“深思
2、熟虑”型的智能,又包括底层的非推理的“本能反应”型的智能,使得它处于人类高层智能与低层智能的结合部,能够部分为意识所觉察和描述。汉字识别技术的研究是揭示人类智能奥秘的一个理想窗口,也是实现人工智能的良好平台和环境。手写体汉字识别方法的研究,具有广阔的应用前景,它使习惯汉语的计算机用户保持传统的书写方式,又享受到计算机给人们带来的快捷和便利。92手写体汉字识别系统的工作过程手写体汉字识别系统采用光电转换装置把汉字转换为电信号,送入经过训练的计算机,由计算机自动辨认、“阅读”。手写体汉字识别系统由汉字图形输入装置、预处理器、识别器和后处理器等几个主要部分组成,其工作
3、过程如下:首先,待识别的汉字经过汉字图形输入装置,产生模拟电信号。模拟电信号经过模数转换,转换为带灰度值的数字信号。经光电转换后的待识汉字是一种二维点阵图形,将其送至预处理环节。预处理的内容和要求取决于识别方法,一般包括行、字切分、二值化、细化或抽取轮廓、平滑、规范化等。行、字切分。首先从上到下,搜索一行文字的上下边界,切分出文字行,然后从左到右搜索一行文字的左右边界,切分出单字或标点符号。所谓二值化,即把汉字图形带灰度电平的数字信号处理成二值(0,1)的数字信号,其中,“0”部分代表背景象素点,“1”部分代表笔画象素点。细化即是将二值化的汉字点阵逐层剥去轮廓边
4、缘上的点,变成笔化宽度只有一个bit的汉字骨架图形。对汉字图形做平滑处理的目的是去掉图形中的孤立噪声、干扰并平滑笔画边缘。9规范化就是把文字尺寸变换成统一大小,文字位置纠正,字笔画粗细变换等文字图形的规格化处理。识别器是整个汉字识别系统的主要环节。待识汉字经过预处理后,汉字模式成为规范的二值数字点阵信息,将其送至识别器。识别器首先进行特征抽取,即从预处理后的点阵图象中按一定的方式抽取汉字特征。最后为了进一步提高整个系统的正确识别率,对识别结果进行后处理,即对单字识别的结果,利用语言知识等上下文进行识别结果的确认或纠错。特征抽取与分类器的设计是整个系统中最为重要的
5、环节,稳定特征的抽取与良好性能的分类器的设计是整个识别系统的核心,他们直接决定了识别系统的性能。下面从特征抽取和匹配判决的角度对现有的识别方法进行分析。3手写体汉字识别方法分析手写体汉字识别是一个高难度的模式识别问题,传统的模式识别理论不能提供系统具体的方法,相关学科的交叉研究又不够深入,研究人员往往靠直觉和实验效果来选择识别方法,从预处理、特征选取、分类决策到后处理,人们提出了种类繁多的识别方案,很难进行理想的归纳分析,从特征选取和分类决策角度可将其粗略地分为四类:统计模式识别法、结构模式识别法、松弛匹配识别法和人工神经网络识别法。3.1统计模型识别方法9统计
6、模式识别法采用统计特征向量进行模式描述,该方法不直接考虑汉字的笔划结构,主要是选取分类性能好、稳定的统计特征。识别时根据未知样本的特征向量与识别字典中的参考特征向量的匹配程度来判定识别结果。进行特征提取时,通常先对汉字点阵进行某种局部或全局性的变换,从点阵平面得出特征平面;再对特征平面进行区域选取、网格划分、投影及变换等处理,从而形成特征向量。统计模式识别法的特点是对局部噪声和微小畸变不敏感,分类性能较稳定,粗分类效果良好。传统的统计方法一般采用多维特征值累加的办法,把局部噪声和微小的畸变“淹没”在最后的累加结果里,同时那些用来区分字型结构的“敏感部位”的差异也
7、随之淹没了,因此这种方法对于近似字的识别率很低。3.2结构模式识别方法9结构模式识别方法,也叫句法结构识别法。汉字是一种特殊的模式,汉字图形含有丰富的结构信息,用一定的方法提取含有结构信息的结构特征及其组字规律,作为识别汉字的依据。这种方法把待识汉字模式看作是由若干个较简单的子模式构成的集合,后者又可继续分解为若干个更简单的子模式,最简单而且不可再分解的子模式叫基元。这样任何模式都可以用一组基元及一定的组合关系形成的符号串来描述。识别器将输入的汉字描述为一串符号串,然后和存储在字典中的标准汉字符号串逐一相比较,和哪一类接近就被识别为哪一类。由于结构法描述模式细部
8、结构的能力较强,因此对相
此文档下载收益归作者所有