文档图像特征提取和检索

文档图像特征提取和检索

ID:35082945

大小:4.41 MB

页数:77页

时间:2019-03-17

文档图像特征提取和检索_第1页
文档图像特征提取和检索_第2页
文档图像特征提取和检索_第3页
文档图像特征提取和检索_第4页
文档图像特征提取和检索_第5页
资源描述:

《文档图像特征提取和检索》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文文档图像特征提取和检索EXTRACTIONANDRETRIEVEOFTHEFEATUREOFDOCUMENTIMAGE倪军哈尔滨工业大学2016年6月国内图书分类号:TP311学校代码:10213国际图书分类号:681密级:公开工程硕士学位论文文档图像特征提取和检索硕士研究生:倪军导师:赵德斌教授申请学位:工程硕士学科:计算机科学与计算所在单位:计算机科学与技术学院答辩日期:2016年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP311U.D.C:681Dissertatio

2、nfortheMasterDegreeinEngineeringEXTRACTIONANDRETRIEVEOFTHEIDENTIFYFEATUREOFDOCUMENTIMAGECandidate:NiJunSupervisor:Prof.ZhaoDebinAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerScienceandTechnologyAffiliation:SchoolofComputerScienceandTechnolo

3、gyDateofDefence:June,2016Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工程硕士学位论文摘要随着计算机和互联网技术的发展,越来越多的文档图片需要被收集、存储和检索。检索作为管理大量文档图片的基本需求,它的重要性不言而喻。本文围绕文档图像的检索展开,涉及到图片检索的相关知识、文档图片处理的内容,最后讲解了已经实现的文档图像检索系统。本文实现了两套文档图像特征提取和检测的系统,第一套是基于页面布局编码的检索系

4、统,第二套是基于局部特征点几何关系哈希的检索系统。在第一套系统中,我们求出每一个文字行的位置然后按照文字行位置之间的关系进行编码。编码规则是每一行的行高,x坐标相对于上一行的x坐标移量和y坐标相对于上一行的y坐标的偏移量分别比上上一行的行高,形成三个比值。然后我们将这三个比值离散化为0到25共26个不同的整数,每个整数对应一个字母。这样每一行相对于上一行就可以生成一个单词。按照同样的方法对每一个字符的位置进行编码,然后生成若干单词。不管是行位置单词编码还是文字位置单词编码都需要进行压缩,减少信息冗余。对行位置

5、编码和文字字符位置编码建立全文索引,对于检索图片提取同样的编码进行检索,获取候选集,再进行精细匹配。第二套系统在TomohiroNakai等人提出的LLAH(LocallyLikelyArrangement[1]Hashing)算法的基础上做了一定的改进,在系统中实现了一个新的基于完全图中边排序的字典序数的哈希的值生成算法。该哈希函数针对中文文本图像产生的哈希碰撞更少,检索效果更好。该系统的创新点思想是,首先将每一个特征点周围的特征点按照距离从近到远编号,选择最近的m个点,第一个点和其余的m-1个点可以形成m

6、-1条边,边的编号为从1到m-1,依次得到m(m-1)/2条边。将m(m-1)/2条边按照从小到大排序,得到每一条边的长度排序位置。m(m-1)/2条边的排序位置也就是1到m(m-1)/2个整数的一个全排列,计算该全排列在所有全排列中的字典序数作为哈希值,该哈希值能够有效避免冲突。第一套系统时间复杂度太高,检索准确率也有稍低。第二套系统检特征提取和检索的速度都比较快,获取的特征文件也比较小,检索的准确率和误报率均能满足现有需求。关键词:文档图片检索;图片处理;公文处理;页面布局编码;LLAH-I-哈尔滨工业大

7、学工程硕士学位论文AbstractMoreandmoredocumentimagesshouldbecollect,savedandretrievedastheprogressofcomputerandInternettechnology.Theretrieveofbignumberofdocumentimageshasvitalimportancetous.Thisarticlerevolvesaroundtheproblemofdocumentimageretrievereferstotheknowleg

8、eofimageretrieveandprocessofdocumentimage.Atlast,thisartileexplansthesystemofdocumentimageretirevethathasbeenachievedbyus.Twosystemofdocumentimageretrievehasbeenachievedinthispaper.Thefirstisbasedonthe

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。