《应用汉字识别》PPT课件

《应用汉字识别》PPT课件

ID:36887905

大小:2.40 MB

页数:80页

时间:2019-05-10

《应用汉字识别》PPT课件_第1页
《应用汉字识别》PPT课件_第2页
《应用汉字识别》PPT课件_第3页
《应用汉字识别》PPT课件_第4页
《应用汉字识别》PPT课件_第5页
资源描述:

《《应用汉字识别》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第六章模式识别的应用 汉字识别文字识别问题汉字识别系统汉字的结构特性分析印刷体汉字的特征描述汉字识别方法分类1、文字识别问题1)汉字识别2)汉字OCR技术发展历史3)国内主要研究机构1)汉字识别汉字识别属于文字识别(OCR)的范畴,文字识别是模式识别的重要应用领域。汉字识别技术涉及到模式识别、图像处理、人工智能、模糊数学、组合论、信息论、计算机等多个学科,也涉及到语言文字学、心理学等学科,是一门综合性的技术。根据应用情况的不同汉字识别具体又分为印刷体汉字识别和手写体汉字识别。手写体汉字识别又分为两种:在线手写体识别和离线手写体识别。本章主要讨论印

2、刷体汉字识别问题…印刷体汉字识别,从识别字体上可分为单体(一般为宋体)印刷汉字识别和多媒体汉字识别;从识别文字品质上可分为高品质印刷汉字识别和低品质印刷汉字识别;从应用范围上可分为专用印刷汉字识别和通用印刷汉字识别。汉字识别难度印刷体识别最容易已经有了大量实际应用,图书馆数字化脱机手写体识别——最难脱机手写体数字的识别已有实际应用外,比如邮政编码的自动识别汉字等文字的脱机手写体识别还处在实验室阶段联机手写体识别相对容易,PDA等的推广,大量应用不同字体的同一汉字的结构约80%相同,但书写风格,笔划粗细形状,笔划装饰等有一定的差异。不同印刷体汉字字

3、形差别主要有:(1)笔划装饰及方向角度不同。(2)笔划长短、位置有变化。(3)笔划形态变化:如黑体笔划粗而平直,宽度一致;宋体横细竖粗,有装饰角;楷体笔划有较大曲率,其中撇、捺弯曲程度更大,各个文字大小相差较大;仿宋体横笔划略向上倾斜。(4)笔划关系变化:如左偏旁口,黑体为正方形,其他体左竖笔较长。(5)偏旁部首占方块字的比例、位置、形态方面,不同字体也有差异。2)汉字OCR技术发展历史西文OCR技术研究始于50年代OpticalCharacterRecognition(OCR)几乎所有的早期模式识别研究者都进行过字符识别的研究。随后的30多年来

4、,字符识别一直是模式识别的重要内容之一汉字OCR技术印刷体汉字的识别最早可以追溯到60年代1966年,IBM公司的Casey和Nagy发表了第一篇关于印刷体汉字识别的论文,在这篇论文中他们利用简单的模板匹配法识别了1,000个印刷体汉字2)汉字OCR技术发展历史70年代以来,日本人做了许多工作日本的常用汉字有2000个左右1977年东芝综合研究所研制了可以识别2000个汉字的单体印刷汉字识别系统80年代初期,日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统,代表了当时汉字识别的最高水平日本的三洋、松下、理光和富士等公司也有

5、其研制的印刷汉字识别系统简评这些系统在方法上,大都采用基于KL数字变换的匹配方案,使用了大量专用硬件,其设备有的相当于小型机甚至大型机,价格极其昂贵,没有得到广泛应用2)汉字OCR技术发展历史我国自70年代后期开始字符识别方面的研究,80年代以后,台湾和香港发展的也很快70年代末期到80年代末期算法和方案探索:单体汉字识别90年代初期由实验室走向市场,初步实用90年代后期——混排多语言混排文本:如中英文多字体混排文本:如:宋,楷体,…)多字号混排文本:不同大小当前进展状态2000年代后识别率、鲁棒性的提高单纯OCR文档分析多语混排,多字号,多字

6、体版面分析文本的结构表格,图像(如插图),公式摄像设备(非扫描仪)名片手机摄像通讯录3)国内主要研究机构汉王科技中科院自动化所1985年刘迎建开发出国内第一个联机手写汉字识别系统,并获国家发明专利。1993年初,在中科院自动化研究所的支持下创办了中国汉王科技公司,出任总经理中科院计算所智能计算机研究中心国内主要研究机构/人物其他清华大学电子系图像所丁晓青教授北京信息工程学院沈阳自动化研究所2、汉字识别系统1)系统构成2)OCR技术流程3)预处理-归一化1)系统构成信号采集方式脱机识别扫描仪或者摄像设备数字图像信号联机手写识别手写屏,手写输入板

7、运动轨迹电信号,记录了笔划和笔顺信息电磁式或压电式,在书写时,笔在板上的运动轨迹(在板上的坐标)被转化为一系列的电信号,电信号可以串行地进入到计算机中,从这些电信号我们可以比较容易地抽取笔划和笔顺的信息.2)OCR技术一般流程流程简介1)图像获取将文本转换为图象点阵扫描仪(Scanner)其它光电扫描设备如传真机,摄象机不同获取设备的差异扫描仪:最优摄像机:识别难度大流程简介2)图像预处理滤除干扰噪声倾斜校正各种滤波处理3)版面分析完成对于文本图象的总体分析区分出文本段落及排版顺序,图象、表格的区域对于文本区域将进行识别处理对于表格区域进行专用的

8、表格分析及识别处理对于图象区域进行压缩或简单存储。流程简介4)行字切分将大幅的图象先切割为行从图象行中分离出单个字符5)特征提取——模式

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。