识别技术就是特征比较技术

识别技术就是特征比较技术

ID:30447706

大小:85.17 KB

页数:11页

时间:2018-12-30

识别技术就是特征比较技术_第1页
识别技术就是特征比较技术_第2页
识别技术就是特征比较技术_第3页
识别技术就是特征比较技术_第4页
识别技术就是特征比较技术_第5页
资源描述:

《识别技术就是特征比较技术》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、识别技术就是特征比较技术商人博客产品产品公司生意经批发直达求购信息资讯论坛商友识别技术就是特征比较技术(2010/09/1616:16)22:13扫描文字,结果以图片格式(.bmp)存入电脑,。然后使用ORC识别系统进行转换,终极用WORD进行修正编纂。下面教你如何使用ORC:OCR是英文OpticalCharacterRecognition的缩写,翻译成中文就是通过光学技术对文字进行识别的意思,是自动识别技术研究和利用领域中的一个重要方面。它是一种可能将文字自动识别录入到电脑中的软件技术,是与扫描仪配套的主要软件,属于非键盘输入范围,须要图像输入设备主要是扫描仪相配合。现在

2、OCR主要是指文字识别软件,在1996年清华紫光开端搭配中文识别软件之前,市场上的扫描仪跟OCR软件始终是离开销售的,专业的OCR软件谠缧┦焙蚵舻帽壬枰腔挂蟆K孀派枰欠直媛实奶嵘琌CR软件也在一直进级,扫描仪厂商当初已把专业的OCR软件搭配本人出产的扫描仪出卖。OCR技术的敏捷发展与扫描仪的普遍使用是密不可分的,近两年跟着扫描仪逐步遍及和OCR技术的日臻完美,OCR己成为绝大多数扫描仪用户的得力助手。一、OCR技术的发展过程自20世纪60年代初期涌现第一代OCR产品开始,经过30多年的不断发展改良,包括手写体的各种OCR技术的研究取得了令人瞩目标成果,人们对OCR产品的功能要

3、求也从本来的单纯重视识别率,发展到对全部OCR系统的识别速度、用户界面的友爱性、操作的简便性、产品的稳定性、适应性、牢靠性和易升级性、售前售后服务质量等各方面提出更高的要求。IBM公司最早开发了OCR产品,1965年在纽约世界展览会上展出了IBM公司的OCR产品--IBMl287。当时的这款产品只能识别印刷体的数字、英文字母及部分符号,并且必须是指定的字体。20世纪60年代末,日破公司和富士通公司也分辨研制出各自的OCR产品。全世界第一个实现手写体邮政编码识别的信函自动分拣系统是由日本东芝公司研制的,两年后NEC公司也推出了同样的系统。到了1974年,信函的自动分拣率达到92

4、%左右,并且广泛地应用在邮政系统中,施展着较好的作用。1983年日本东芝公司宣布了其识别印刷体日文汉字的OCR系统OCRV595,其识别速度为每秒70~100个汉字,识别率为99.5%。其后东芝公司又开始了手写体日文汉字识别的研究工作。中国在OCR技术方面的研究工作相对起步较晚,在20世纪70年代才开始对数字、英文字母及符号的识别技术进行研究,20世纪70年代末开始进行汉字识别的研究。1986年,国度863打算信息领域课题组织了清华大学、北京信息工程学院、沈阳自动化所三家单位结合进行中文OCR软件的开发工作。至1989年,清华大学率先推出了国内第一套中文OCR软件--清华文通

5、TH-OCR1.0版,至此中文OCR正式从试验室走向了市场。清华OCR印刷体汉字识别软件其后又推出了TH-OCR92高性能适用简/繁体、多字体、多功能印刷汉字识别系统,使印刷体汉字识别技术又取得重大进展。到1994年推出的TH-OCR94高性能汉英混排印刷文本识别系统,则被专家鉴定为"是海内外首次推出的汉英混排印刷文本识别系统,总体上居国际当先水平"。上个世纪90年代中后期,清华大学电子工程系提出并进行了汉字识别综合研究,使汉字识别技术在印刷体文本、联机手写汉字识别、脱机手写汉字识别和脱机手写数字符号识别等领域全面地取得了重要成果。具备代表性的成果是TH-OCR97综合集成汉

6、字识别系统,它可以完成多文种(汉、英、日)印刷文本、联机手写汉字、脱机手写汉字和手写数字的识别输入。几年来,除清华文通TH-OCR外,其它如尚书SH-OCR等各具作风的OCR软件也接踵问世,中文OCR市场稳步扩展,用户遍布世界各地。可以说目前印刷体OCR的识别技术已经达到较高水平。OCR产品已由早期的只能识别指定的印刷体数字、英文字母和部分符号,发展成为可以自动进行版面分析、表格识别,实现混杂文字、多字体、多字号、横竖混排识别的壮大的计算机信息快捷录入工具。对印刷体汉字的识别率达到98%以上,即便对印刷质量较差的文字其识别率也达到95%以上。可识别宋体、黑体、楷体、仿宋体等多

7、种字体的简、繁体,并且可以对多种字体、不同字号混合排版进行识别,对手写体汉字的识别率达到70%以上。特别是我国的汉字OCR技术经过十几年的尽力,战胜了起步晚、汉字字符集异样宏大等困难,单字的识别速度(指在单位时间内所完成的从特征提取到识别结果输出的字数)可以达到70字/秒以上。由于印刷体OCR汉字识别技术已经比较成熟,所以OCR产品被广泛地应用在消息、印刷、出版、藏书楼、办公自动化等各个行业。专业型OCR产品多是面向特定的行业,即实用于天天需处置大批表格信息录入的部分,如邮政、税务、海关、统计等等。这种

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。