手写体汉字识别分析

手写体汉字识别分析

ID:33981479

大小:1.86 MB

页数:42页

时间:2019-03-03

手写体汉字识别分析_第1页
手写体汉字识别分析_第2页
手写体汉字识别分析_第3页
手写体汉字识别分析_第4页
手写体汉字识别分析_第5页
资源描述:

《手写体汉字识别分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、中南大学硕士学位论文第一章绪论1.1模式识别第一章绪论近年来,模式识别技术随着计算机的快速发展不断取得新的进展,极大地提高了人机交互能力。模式识别主要包括:汉字识别,人脸识别,生物特征识别,车牌识别等类型的识别。汉字识别是处理海量信息输入问题的一个重大课题,其正确识别率的高低在很大程度上决定了处理后续问题的效率。下面对汉字识别的分类、汉字识别基本原理、手写体汉字识别的目的和意义逐一做了介绍。1.2汉字识别1.2.1汉字识别的分类在汉字识别技术开发领域,国内外科研工作者经过几十年的研究和不懈努力,已取得了较好的成绩E1

2、41。目前对于汉字识别的研究主要有两大方向:一为脱机汉字识别,二为在线手写体汉字识别。在印刷行业,利用脱机汉字识别技术,形成了自动处理文字机制,有效减少人为的对模糊字符的识别。汉字识别的研究范围主要分为两种[51,印刷体汉字识别和自由手写体识别。1912年Taushek利用光学模板匹配识别,开创了用机器识别文字符合的先河,随后欧美日利用OCR在处理西方文字方面取得了卓有成效的工作。由于汉字同西方符号存在本质区别,OCR技术不能完全适用于我国汉字的识别。在国家863计划的资助下,我国自主研究出了一系汉字OCR系统,如清

3、华文通,清华紫光,中字汉文。目前,印刷体汉字的识别率已到达99%以上,联机手写体汉字的识别率已到达99%,但脱机自由手写体汉字的识别率只有80%,难以满足社会的迫切需要。因此,本文主要着重于脱机自由手写体汉字特征的研究。丁慧东总结了脱机手写体汉字具有字量大、字体多、字符结构复杂等特点[61。在自由手写汉字领域,研究者对汉字的分离和识别做了大量研究,集中于汉字切分算法及断裂字符合并算法的研究,并取得了较乐观的成果。1.2.2汉字识别的基本原理及方法最初,汉字识别的研究者主要着眼于汉字结构特征来识别汉字,其基本观点是汉字

4、由不同的笔划以不同的结构组合而成。这~研究将主要精力集中在如何准中南大学硕士学位论文第一章绪论确地抽取基元、轮廓、特征点等能反映汉字结构信息的特征上,然后采用文法匹配、属性图匹配、松弛迭代匹配等方法进行后续处理。对于手写体,结构错综复杂,常有笔画的断裂和粘连现象出现,这给传统处理方法带来了挑战。在实践中,笔划的提取和结构判别并不是一件简单的事情,阻碍了汉字识别的进一步发展。从人类自身视觉系统得到启示,基于统计特性,人类能利用眼睛识别出各种各种的文字和图像,而不计较它的任何形变和其它干扰,研究者将目光转向人类视觉,提出

5、了汉字统计特征。隐马尔可夫模(HiddenMarkovModels,简称HMM)有严格的数学推导和成熟的实现算法【_71,在文字识别中有很好的应用前景。在汉字识别中,HMM通常采用基于句子的自动识别方法【8】。识别时首先需要判断前相邻字是否可信,若可信则在前相邻字的后邻接字里进行匹配,否则在整个汉字集中进行匹配。张慧档等人借助神经网络或支持向量机来识别手写体汉字【9。141,并取得了较好的识别效果。杨一鸣等人将基于切线距离的SVD分解选取切线向量应用于大字符脱机手写体汉字识别细分类中【l孓161,取得了较好的识别结果

6、。1.2.3汉字识别的目的和意义传统文字输入方法是基于键盘输入的,这种方法虽然简单便捷,但输入效率低下,难以应付当前海量信息的输入。目前,光学字符识别技术是汉字识别的一大主流技术,它成功地将纸面文字转换成计算机可识别的文字并可对其进行编码和进一步处理。这种技术已广泛地应用于各种领域,如中文资料库的建立,大型商场商品的信息录入,邮电部门邮件地址的自动识别,银行支票金额的自动识别,此外,将OCR系统和语音合成系统结合起来,可以应用到自动阅读机和盲人阅读机中去。1.2.4手写体汉字特征研究的意义模式识别信息熵理论告诉我们,

7、只要我们能从字符图像中提取与字符类别密切相关的字符特征,使此字符特征与字符类别有充分高的互信息熵,就有可能获得足够高识别性能的识别系统。从而我们可以选取那些互信息熵较高的特征,来获得较高质量的汉字识别率。模式识别信息熵理论告诉我们,只要我们能从字符图像中提取与字符类别密切相关的字符特征,使此字符特征与字符类别有充分高的互信息熵,就有可能获得足够高识别性能的识别系统。从而我们可以选取那些互信息熵较高的特征,来获得较高质量的汉字识别率。因此,为了提高光学识别技术水平,研究手写体汉字的特征具有很重要的意义。2中南大学硕士学

8、位论文第二章预处理2.1二值化第二章预处理弟一早耿处理由于脱机手写体只需处理图像中的字型信息,对颜色等信息不做处理,所以将图像转换成二值图像,经过此转换后,有利于后续图像的特征的提取。目前二值化处理主要有三种方法,一为全局阈值法,根据文本图像的直方图确定一个阈值,然后基于阈值的比较来得到二值化文本图像,此方法因具有累积效应,受噪音影响较大。二为

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。