欢迎来到天天文库
浏览记录
ID:51660435
大小:1.98 MB
页数:9页
时间:2020-03-14
《使用jTessBoxEditorFX训练Tesseract-OCR教程.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、使用jTessBoxEditorFX训练Tesseract-OCR教程步骤一:使用画图软件生成要训练的.tif文件,本例做了34个.tif文件,如下:步骤二:使用jTessBoxEditorFX将所有.tif文件合并成一个.tif文件,如图:并在该目录下可以看见合并后你所命名的tif文件。如图:步骤三:打开cmd窗口,将目录切换到安装的tesseract目录下,输入以下命令,生成box文件,如图:tesseractZG.SFJC.exp0.tifZG.SFJC.exp0-psm7-lchi_simbatch.noc
2、hopmakebox注:l是L的小写。并在该目录下会生成ZG.SFJC.exp0.box文件,如图:步骤四:使用jTessBoxEditorFX工具选择BoxEditor-Open,打开tif文件(此时同名的tif、box文件必须同处一个目录下,我都给他放在tesseract安装目录下了),如下图:查看所有文件并校正错误的文件,如图:双击红色箭头处,将其修改为台,并单击character后的后,单击save。校正完毕后,在该目录下新建一个TXT文件将其文件名改为font_properties,并将其文件扩展名.tx
3、t删去。如图所示:打开font_properties文件,并在其中输入[fontname]00000,如下图所示。注:[fontname]:即是ZG.SFJC.exp0中的SFJC步骤五:使用修正后的box文件来训练,在cmd中运行一下语句:tesseractZG.SFJC.exp0.tifZG.SFJC.exp0-psm7nobatchbox.train后会在该目录下生成一个ZG.SFJC.exp0.tr文件。如图:步骤六:提取字符,运行如下命令:unicharset_extractorZG.SFJC.exp0.
4、box后会在该目录下生成一个名为unicharset文件,如图所示:步骤七:生成特征1,运行如下语句:shapeclustering-Ffont_properties-UunicharsetZG.SFJC.exp0.tr后会在该目录下生成一个shapetable和pffmtable文件,如图所示:步骤八:生成特征2,运行如下语句:mftraining-Ffont_properties-Uunicharset-OunicharsetZG.SFJC.exp0.tr后会生成一个名为inttemp文件,如图所示:步骤九:生
5、成特征3,运行如下语句:cntrainingZG.SFJC.exp0.tr后会生成一个名为normproto文件,如下图:步骤十:将以上生成的五个文件重命名,即在前面加上SFJC.(即font_properties文件中的[fontname],别忘了.)如图所示:后运行如下语句:(输入时别忘了SFJC后的.)combine_tessdataSFJC.这时会生成名为SFJC.traineddata的文件,如图所示:接下来就是将SFJC.traineddata复制到安装tesseract目录下的tessdata文件夹下
6、。运行如下语句测试:tesseract1.tifout-lSFJC结果如下:
此文档下载收益归作者所有