基于特征统计的字符识别

基于特征统计的字符识别

ID:38784204

大小:109.55 KB

页数:16页

时间:2019-06-19

基于特征统计的字符识别_第1页
基于特征统计的字符识别_第2页
基于特征统计的字符识别_第3页
基于特征统计的字符识别_第4页
基于特征统计的字符识别_第5页
资源描述:

《基于特征统计的字符识别》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于特征统计的字符识别摘要采用数字字符轮廓结构特征和统计特征相结合的方法,并从中选出稳定的局部特征,利用结构语句是别的方法进行数字的识别,能够实现不同字体数字的准确识别,同时还提高了是别的速度。关键字:字符识别,MATLAB,统计特征。前言字符识别是模式识别的一个分支,它能大大提高信息的采集录入速度,减轻人们的工作强度。随着计算机技,字符识别技术多年来不断改进和完善,现在已经广泛应用于各个领域,使大量的文档资料能快速、方便、省时省力和及时地自动输入计算机,实现信息处理的电子化。到目前为止,尽管人

2、们研究中已取得很多可喜成就,但还不能满足我们日常的需求.研究字符识别技术,提高字符识别率具有非常重要的意义。一.ORC技术简介OCR技术是光学字符识别的缩写(OpticalCharacterRecognition),是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。可应用于银行票据、大量文字资料、档案卷宗、文案的录入和处理领域。适合于银行、税务等行业大量票据表格的自动扫描识别及长期存储。相对一般文本,

3、通常以最终识别率、识别速度、版面理解正确率及版面还原满意度4个方面作为OCR技术的评测依据;而相对于表格及票据,通常以识别率或整张通过率及识别速度为测定OCR技术的实用标准。OCR识别技术不仅具有可以自动判断、拆分、识别和还原各种通用型印刷体表格,在表格理解上做出了令人满意的实用结果,能够自动分析文稿的版面布局,自动分栏、并判断出标题、横栏、图像、表格等相应属性,并判定识别顺序,能将识别结果还原成与扫描文稿的版面布局一致的新文本。表格自动录入技术,可自动识别特定表格的印刷或打印汉字、字母、数字,

4、可识别手写体汉字、手写体字母、数字及多种手写符号,并按表格格式输出。提高了表格录入效率,可节省大量人力。同时支持将表格识别直接还原成PTF、PDF、HTML等格式文档;并可以对图像嵌入横排文本和竖排文本、表格文本进行自动排版面分析。早在60、70年代,世界各国就开始有OCR的研究,而研究的初期,多以文字的识别方法研究为主,且识别的文字仅为0至9的数字。以同样拥有方块文字的日本为例,1960年左右开始研究OCR的基本识别理论,初期以数字为对象,直至1965至1970年之间开始有一些简单的产品,如印

5、刷文字的邮政编码识别系统,识别邮件上的邮政编码,帮助邮局作区域分信的作业;也因此至今邮政编码一直是各国所倡导的地址书写方式。OCR可以说是一种不确定的技术研究,正确率就像是一个无穷趋近函数,知道其趋近值,却只能靠近而无法达到,永远在与100%作拉锯战。因为其牵扯的因素太多了,书写者的习惯或文件印刷品质、扫描仪的扫描品质、识别的方法、学习及测试的样本……等等,多少都会影响其正确率。二.识别算法简介目前用于字符识别中的算法主要有基于模板匹配的算法以及基于人工神经网络的算法。1.基于模板匹配的算法基于

6、模板匹配的的基本过程是:模板匹配方法是一种经典的模式识别方法,是最直接的识别字符方法,其实现方式是计算输入模式与样本之间的相似性,取相似性最大的样本为输入模式所属类别。首先要建立模版库,将待识别字符进行二值化并将其尺寸大小缩放为字符数据库中模板的大小,然后与所有的模板进行匹配,最后选择最佳匹配作为结果。这种方法具有较快的识别速度,尤其对二值图像速度更快,可以满足实时性要求,但是,它对噪声很敏感,而且对字符的字体风格不具有适应性,任何有关光照、字符清晰度和大小的变化都会影响识别的正确率,因此在实际

7、应用中为了提高正确率往往需要使用大的模板或多个模板进行匹配,而处理时间则随着模板的增大以及模板个数的增加而增加。该算法的一种改进是基于关键点的模板匹配算法,但针对不同的应用环境,关键点的选取方法是不同的。该算法可用于类似车牌字符等印刷体字符识别。在字符较规整时,算法对字符图像的缺损、污迹有较强的抗干扰能。2.基于人工神经网络的算法神经网络理论自20世纪中期提出以来,取得了一系列的研究成果。近年来,随着计算机术和非线性科学的发展,神经网络理论的研究又进入一个新的高潮,其应用己经渗透到各个域,并在智

8、能控制、模式识别、计算机视觉、生物医学工程等方面取得了巨大贡献。用神经网络进行字符识别,主要有两种方法:一种方法是先对待识别字符进行特征提取,然后用所获得的特征来训练神经网络分类器。这种方法实际上是传统方法与神经网络技术的结合,可以利用人的经验来获取模式特征,然后充分利用神经网络的分类能力来识别字符,其识别效果与字符特征的提取有关,而字符的特征提取往往比较耗时。因此,字符特征的提取就成为研究的关键,特征参数过多会增加训练时间,过少会引起判断上的歧义。另一种方法是充分利用神经网络的特点,直接把待处

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。