欢迎来到天天文库
浏览记录
ID:33005442
大小:1.48 MB
页数:58页
时间:2019-02-19
《智能型表格自动识别、还原与生成的实现分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、重庆大学硕士学位论文第一章绪论图形来进行研究的。我们知道,印刷或写在纸上的文字图形,经扫描器输入到计算机时是一幅m×门的黑白点阵图象,共有2““种不同的状态,仅就是简单的阿拉伯数字来说,设m=n=9就有2“种状态,虽然状态数是有限的,却是一个天文数字。当今世界上的存储器最大容量才2”。这说明,我们不可能通过计算机来表述文字的每一种黑白点阵组合状态,因而无法验证计算机所识别的字(那怕是最简单的数字O~9)。也就是说,计算机还不能用明确、有限的步骤达到对每一个字的正确识别。因此,计算机识别文字的目标是:用尽可能少的步骤,在现实可能的
2、存储容量的范围内,用尽可能短的时间达到接近于人的识字水平。为了达到上述目标,需要对被识别的对象文字的变形施加某些限制(对于手写字符来说,往往不能完全接受这些限制,因而导至识别率下降)。另一方面,我们在研究识别方法时,往往取一定数量的书写样张作为研究对象,即使样张收集了很多很多,但对2““种状态而言,却仍然是一个极小极小的数字。对样张识别率的测试,只能称为对某范围内的学习样张的累积识别率。即使识别率很高,也不能说成是对任意的未学习文字的识别率高,而只能通过对学习样张和未学习样张的测试及比较,当未学习样张的识别率接近于学习样张的识别
3、率,并经多方面的测试都比较稳定时,才能大致衡量出识别方法的优劣。应当说,这是一个相当模糊的不准确的概念,但却是我们在实际进行研究时应当遵循的准则。实际上,我们在评价某种方法时,往往是以累积识别率,识别速度以及计算机的开销作为标准来综合进行评价的。也就是说,是从工程应用和逻辑学的观点来研究每~种识别方法的。我们的最终目标是力求又快又准地解决表格识别和还原、生成的实际问题。1.3表格自动识别、还原与生成技术的发展概况利用机器识别文字符号,可以说从1929年陶舍克利用光学模板匹配识别开始。当时,他使用了10块模板对应10个数字,依次把
4、待识别的数字投影到这lO块模板上,当模板透过的光达到最小时(数字遮挡了模板的透光部分),数字就被识别成这块模板上的数字。电子计算机于1946年问世,大约在j0年代未60年代初,就已经出现了关于利用计算机识别数字及英文符号的研究论文。在以后的几十年中,不断有人对这方面进行不懈的研究,以提高字符的识别率,以及字符识别时的抗干扰能力和适应能力。每当有模式识别及图象处理的新方法出现时,就有人将它运用到字符识别领域。字符识别技术主要集中在特征抽取及匹配两个方面,这一直是OCR技术的两大支柱,基于松弛匹配一类的匹配方法虽然较好地解决了手写字
5、符的变形问题,但匹配速度慢,对字形相近的文字的区分能力差,需重庆大学硕士学位论文第一章绪论要辅之以结构判别才有可能解决识别问题。从目前情况来看,虽然提出了不少的特征提取及匹配方法,在一定的程度上能够识别受到一定限制的印刷的或书写的文字,但决不能说字符识别的问题已经解决,就印刷体字符识别系统来说,目前只能做到对印刷质量好的文件达到较高的识别率:对印刷质量稍差或纸的质量不好的印刷品.由于识别率低,达不到实用化的要求:联机手写体识别装置也达不到比较自由书写、符合人们平时书写习惯的程度,至于手写印刷体识别系统,差距就更大了。在人们的日常
6、生活中,需要识别文字的数量如同天文数字那么大。可以说,到目前为止,利用机器识别的文字量只占需识别的文字量的极小极小的百分比。大约到了80年代初,随着个人计算机的出现,CCD平扳扫描器的商品化,字符识别技术才得到蓬勃发展。在美国和日本,为了处理数量极大的邮件,邮局采用邮检用光学字符识别装罱。尽管有相当多的邮件由于辨认不清被拒识后由人工加以分拣,但这种设备在经济上还是合算的。美国的税务机关和车辆登记所己经用字符识别装置读取公众用印刷体手写的数字。当前在使用中的一些系统虽然比人读得快,佴远没有人读待准,虽然自动识别在许多商业应用中是有
7、价值的,但它和人的识别能力相比差别还很大。[6][7]【83从目前的字符识别技术水平来看,与实际的需求之间的确存在很大距离,可以说,在字符识别领域需要发现一些关键的计算方法,至少现在还没有完全掌握这些方法,另一方面,字符识别必须充分地运用人识字的知识,即字一形的理解,从这个角度来说,字符识别技术正期待着人工智能在自然语言理解方面的进步。几十年前出现的感知器(神经网络的雏形),由于受当时技术条件限制而停止不前。近年来,随着VLSI技术迅猛发展,计算机技术日新月异,具有高速并行处理能力的计算机成本越来越低。人们又将研究的重点放到了由
8、感知器发展起来的人工神经网络上。并取得了大量的理论及应用成果。人工神经网络是通过在结构上对人脑神经纤维的模拟,在数据处、理方法上模拟神经脉冲的传递模式,从而模仿人的思维方式与过程。其特征为连续时间非线性动力学、大规模并行分布处理及高度的鲁棒性和掌习联想能力。由于
此文档下载收益归作者所有