欢迎来到天天文库
浏览记录
ID:37063211
大小:5.36 MB
页数:66页
时间:2019-05-17
《免分割手写古文档检索研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文免分割手写古文档检索研究作者姓名邱梓珩学科专业信号与信息处理指导教师徐向民教授所在学院电子与信息学院论文提交日期2018年4月ResearchonSegmentation-freeWordSpottingofHandwrittenAncientDocumentsADissertationSubmittedfortheDegreeofMasterCandidate:ZihengQiuSupervisor:Prof.XiangminXuSouthChinaUniversityofTechnologyGuangzh
2、ou,China摘要在古代文档的研究中,往往需要将古籍扫描成图片后,进行数字化存储,随着存储的数据量越来越大,就需要建立检索机制。传统的文档字符检索中,对检索文字的匹配需要先进行字符分割的预处理,但是由于手写文档的随意性,导致其很难进行正确的分割,因此免分割的方法也就成为近年来的新的研究方向。目前,基于免分割预处理的手写文档检索的难点主要在,不同人的手写文字差异大,不同单词长度不一样,写法相近的单词容易错误识别等难点,为了避免分割过程中的误差,解决古文档检索的难处,同时提高检索的准确率,本文基于免分割的方法做了以下研究工
3、作:(1)针对匹配准确率较低的问题,本文提出多层卷积特征,利用基于VisualGeometryGroup(VGG)提出的网络模型,提取卷积神经网络层作为特征,利用选取的卷积网络特征提升系统的准确性。在训练和检索时,对索引图片、负样本图片提取混合层级卷积特征,利用新的特征训练ExemplarSVMs(E-SVMs)分类器,然后利用扫描窗口对文档候选区图片提取混合层级卷积特征,通过训练好的模型进行预测,最终本文的方法对20页文档的4860个索引图匹配的平均准确率均值(meanAveragePrecision,mAP)达到了5
4、7.6%,相较于原先使用HOG特征提升了6.8%。(2)针对短单词识别率较低、手写文字尺度大小差异的问题,本文基于图像金字塔的思想,提出多尺度E-SVMs分类模型,具体对不同尺寸的图像进行特征提取,针对不同尺度下提取的特征,训练3个针对不同尺度的E-SVMs模型,用随机梯度下降法拟合E-SVMs模型,并结合基于信息增益的权重融合,决定最终的候选区和相似度评分。该方法有效地提升了系统对单词长度为5以下的匹配mAP,达到了52%,相比不用多尺度的模型增加了2.7%的mAP。结合混合层级卷积特征,训练多尺度E-SVMs分类器,
5、用该分类器来进行检索匹配,最终本文得到了58.7%的mAP。关键词:机器学习、图像处理、免分割IAbstractIntheresearchofancientdocuments,thedocumentsshouldbedigitalizedandstoredasimagesbyscanning.Astheamountofdatagrowing,asearchingsystemneedstobebuilt.However,mostdocumentswerewrittenbyhand.Traditionalwayofindex
6、ingthewordsfromdocumentsrequiresasegmentationpreprocessing.Asthecasualtyofhandwrittencharacters,it’snoteasytosegmentationthewordscorrectly.Thus,methodbasedonsegmentation-freewordspottingbecomesatendencyofresearch.Atpresent,thedifficultyofsegmentation-freewordspot
7、tingliesinthelargevarianceofhandwrittencharactersbydifferentpeopleandthelengthofdifferentwords.Toavoidtheerrorofsegmentationandraisetheprecisionofindex,wedosomeresearchbasedonsegmentationfreemethod:(1)AfeaturebasedonMulti-LayerConvolutionalNetworkisproposedforrai
8、singuptheprecision.TheframeworkofneuralnetworkisbasedontheoneproposedbyVisualGeometryGroup(VGG).Weuseittoextractconvolutionalfeaturestoimprovetheprecisionofthe
此文档下载收益归作者所有