基于tesseract-or的藏文脱机识别

基于tesseract-or的藏文脱机识别

ID:22492025

大小:27.00 KB

页数:6页

时间:2018-10-29

基于tesseract-or的藏文脱机识别_第1页
基于tesseract-or的藏文脱机识别_第2页
基于tesseract-or的藏文脱机识别_第3页
基于tesseract-or的藏文脱机识别_第4页
基于tesseract-or的藏文脱机识别_第5页
资源描述:

《基于tesseract-or的藏文脱机识别》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、基于Tesseract-or的藏文脱机识别0引言图像识别的主要目的是利用计算机自动处理图片信息,用来取代人工去对图像进行分类和识别。对图像上信息的识别,也就是光学识别,即OCR识别。在开源的OCR中,Tesseract-ocr是比较强大的了,它由HP于1985年到1995年间开发,后来由google直接负责,经过谷歌进一步开发后,目前的Tesseract-ocr有了显著的改进。Tesseract-ocr不仅在windows环境下可以应用,在安卓方面也有很广泛的应用。在藏文字脱机识别方面,文献介绍了利用局部自适应二值化算法、基于连通域的切分、基于网格的模糊笔划特征提取等方法对藏文进

2、行识别,本文是从基于Tesseract-ocr的对藏文字训练以及实现脱机识别的方面进行详细介绍。1藏文脱机识别的训练1.1基于Tesseract-ocr未训练的情况下对藏文的识别首先对Tesseract-ocr安装包,本文使用的是3.02.02版本的Tesseract-ocr。完成其安装后,打开控制台,在安装的路径下输入命名tesseract,检查是否安装成功,出现如图1所示情况,则说明安装成功。然后以图2中的几个藏文对其进行测试,在未进行训练的情况下对藏文字符的识别结果如图三所示,很显然,这完全是错误的,为了使Tesseract-ocr对藏文进行正确识别,需要训练一个藏文字库。

3、1.2藏文字库的训练对藏文字库的训练,以藏文字符为例进行演示说明,训练藏文字库之前,需要使用jTessBoxEditor这个软件,用来修改box文件。为了方便训练,可以通过Photoshop等软件把图片转为tif格式,然后利用jTessBoxEditor中的工具“MergeTIFF”将多张tif格式的图片合成一张,然后便于训练。首先对将要训练的图片重命名为tibet.Himalaya.num0.tif,其中tibet表示最终训练的字库名称,Himalaya表示训练的字体,num0表示训练的第一张图片上的藏文字。然后就开始训练一个藏文字库:(1)生成box文件:在控制台输入的Tes

4、seract-ocr安装目录下输入命令tesseract.exetibet.Himalaya.num0.tiftibet.Himalaya.num0batch.nochopmakebox(见图4),此命令将会产生一个tibet.Himalaya.num0.box文件,产生的这个box文件是为了接下来对字符进行校正储存字符特征所需要的,而且这个box文件必须和之前的tif文件在同一个文件夹下。(2)文字校正和生成文字特征文件:运行jTessBoxEditor工具,导入之前进行训练的tibet.Himalaya.num0.tif文件,初步识别效果如图5左侧所示。现在,就要对识别错误的

5、进行人工校正,需要注意的是,需要提前把字体设置成MicrosoftHimalaya字体,否则会显示为类似的特殊形状。字体校正后,需要点击按钮,这样才会对校正的字体特征进行保存到.tif文件中。校对完成后,在控制台下输入命令tesseracttibet.Himalaya.num0.tiftibet.Himalaya.num0nobatchbox.train(见图6),此时将会生成tibet.Himalaya.num0.txt文件和新的tibet.Himalaya.num0.box文件,然后利用新的box文件计算字符集,其命名为unicharset_extractortibet.Hi

6、malaya.num0.box,此时将会产生一个unicharset文件,此文件接下来会用于字体特征聚集。(3)定义字体特征和聚集字体特征:首先人工建立一个txt文件,命名为“font_properties”,txt的内容为:“Himalaya00000”,其中Himalaya表示字体,需要与之前训练的时候命名的字体保持一致,然后“0”代表不是特殊字体。然后对字体特征进行聚集,在控制台输入命令shapeclustering-Ffont_properties.txt-Uunicharsettibet.Himalaya.num0.tr,此时将会产生一个shapetable文件,然后再

7、输入命令mftraining-Ffont_properties.txt-Uunicharset-Otibet.unicharsettibet.Himalaya.num0.tr,用来生成当前新语言的字符集文件tibet.unicharset,同时还会产生图形原型文件inttemp和每个字符所对应的字符特征数文件pffmtable。其中inttemp文件包含了所有需要产生的字的图形原型。然后再用命令cntrainingtibet.Himalaya.num0.tr进一步生成字符特征规范

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。