欢迎来到天天文库
浏览记录
ID:52917995
大小:727.00 KB
页数:97页
时间:2020-03-31
《第-9-章光学字符识别技术.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第9章光学字符识别技术(上)光学字符识别技术是计算机自动、高速地辨别纸上的文字,并将其转化为可编辑的文本的一项实用技术。它是新一代计算机智能接口的一个重要组成部分,也是模式识别领域的一个重要分支。文字识别技术的研究涉及图像处理、人工智能、形式语言、自动机、统计决策理论、模糊数学、信息论、计算机科学、语言文字学等学科,它是介于基础研究和应用研究之间的一门综合性学科。随着计算机技术的推广应用,尤其是互联网的日益普及,人类越来越多地依赖计算机获得各种信息,大量的信息处理工作也都转移到计算机上进行。在日常生活和
2、工作中,存在着大量的文字信息处理问题,因而将文字信息快速输入计算机的要求就变得非常迫切。现代社会的信息量空前丰富,其中绝大部分信息又是以印刷体的形式进行保存和传播的,这使得以键盘输入为主要手段的计算机输入设备变得相形见绌,输入速度低已经成为信息进入计算机系统的主要瓶颈,影响着整个系统的效率。因此,要求有一种能将文字信息高速、自动地输入计算机的方法。目前,文字输入方法主要有键盘输入、手写识别、语音输入和机器自动识别输入等。人工键盘输入方法需要经过一定时间的学习训练才能掌握;手写识别和语音输入虽然简单便捷,
3、但其输入速度不高,对于大量已有的文档资料,采用这些方法要花费大量的人力和时间。因此,能够实现文字信息高速、自动输入的只能是计算机自动识别技术,即光学字符识别(OCR)技术。目前文字识别技术已经广泛地应用到了各个领域中。它作为计算机智能接口的重要组成部分,在信息处理领域中可以大大提高计算机的使用效率,是办公自动化、新闻出版、计算机翻译等领域中最理想的输入方式;将庞大的文本图像压缩成机器内码可以节省大量的存储空间。本章和第10章主要介绍光学字符识别中的一些关键技术,包括预处理、字符分割、特征提取、分类器设计
4、以及后处理等。另外,会给出一些相关的算法代码。当然给出的代码只是一个雏形,只要读者在这个框架的基础上作修改,就可以构建自己的应用系统。本章首先介绍了预处理技术及特征提取技术,其他技术将在第10章作详细介绍。9.1概述这一小节从总体上介绍光学字符识别技术。9.1.1文字识别系统的构成印刷体文字识别的原始图像是通过扫描仪、CCD器件或传真机等获得的二维图像,它可以是灰度(Grayscale)或二值(Binary)图像,其识别过程如图9-1所示,它包括6个组成部分。1.预处理预处理包括对原始图像的去噪、倾斜校
5、正等。若输入图像不是二值图像,首先要对其进行二值化。2.版面分析对文本图像进行总体分析,标识出文本段落、图像、表格区域;对文本区域进行识别处理,对表格区域进行专用的表格分析及识别处理,对图像区域进行压缩或简单存储。3.字符切割先将文本图像切割为行(或列),再从图像行(或列)中分离出单个字符。当图像的质量较差时,不易进行简单的分割,常与识别过程相结合。随着单字识别率的提高,切割错误在所有错误中所占的比重不断上升,怎样实现字符的正确分割成了一个需要认真解决的问题。4.特征提取从单个字符图像上提取统计特征或结
6、构特征,是整个环节中最重要的,所提取特征的稳定性及有效性直接决定了识别的性能。在提取特征前常常先进行归一化、细化等处理。5.单字识别从学习得到的特征库中找到与待识字符相似度最高的字符。为了提高识别速度,常采用树分类器。6.后处理对单字识别的结果,利用词义、词频、语义等先验知识进行识别结果的确认或纠错。9.1.2文字识别技术光学文字识别(OCR)技术可分为印刷体文字识别和手写体文字识别两大类,后者又可分为联机(on-line)手写体识别和脱机(off-line)手写体识别。从识别的难度来看,多体印刷体识别
7、难于单体印刷体识别,手写体识别难于印刷体识别,而脱机手写体识别又远远难于联机手写体识别。识别器是整个系统的核心,识别器的结构通常如图9-2所示。字符的模式表达形式和相应的字典形成方法有多种,每种形式又可以选择不同的特征,每种特征又有不同的抽取方法,这就使得判别方法和准则以及所用的数学工具不同,形成了种类繁多、形式特别的文字识别方法。用于文字识别的模式识别方法可以大致分为统计模式识别、结构模式识别和人工神经网络识别。1.统计模式识别方法统计模式识别方法是先提取待识别模式的的一组统计特征,然后按照一定准则所
8、确定的决策函数进行分类判别。将字符点阵看作一个整体,其所用的特征是从这个整体上经过大量的统计而得到的。统计特征抗干扰能力强,匹配与分类的算法简单,易于实现,但不足之处在于细分能力较弱,区分相似字的能力差。在统计模式识别中,通常用特征矢量间的距离和相似度进行判别,其计算公式如下:均方误差距离:其他的判别方法有复合相似度、混合相似度等。为了提高单字匹配的准确度,还有一种类似于K-L变换的特征提取方法,以及由此给出的多重相似度,它考虑了输入模式的
此文档下载收益归作者所有