欢迎来到天天文库
浏览记录
ID:32003698
大小:3.99 MB
页数:56页
时间:2019-01-30
《基于内容文档图像检索系统设计和实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、北京机械工业学院硕士学位论文基于内容的文档图像检索系统设计与实现姓名:马永成申请学位级别:硕士专业:计算机应用技术指导教师:肖诗斌20080101摘要近些年来,随着多媒体技术和Internet的发展,多媒体资源快速增长。现在许多公司,政府机关,数字图书馆等机构都有各种各样的资料信息以文档图像的形式保存,而且数量巨大。随之而来的问题,就是如何在这些大量的文档图像中查找信息,基于内容的文档图像检索技术可以用来解决这个问题。本人在对基于内容图像检索技术、OCR技术以及文档图像特点的研究分析的基础上,研究了基于内容
2、的文档图像检索技术。设计了可以以汉字或汉字图像块作为检索条件,检索返回含有该汉字的文档图像的检索系统。这不同于传统基于内容文档图像检索方式,即输入文档图像实例,判断其是否在文档图像库中出现。主要研究内容有:(1)文档图像预处理;(2)文档图像分割,将文档图像分割成一个一个汉字图像块:(3)汉字图像块各种特征提取方法以及相应的相似度计算方法.本文从不同的角度,使用了不同的汉字图像块特征提取方法。实验表明将几种特征提取方法相结合,可以提高准确率;(4)在倒排索引格式和四叉树(QuadTree)索引格式的基础上,
3、设计了自己的高维索引格式;在本论文的工作基础上,可以进一步研究开发和完善系统功能,最终实现一个完整的基于内容的文档图像检索系统,投入到实际应用中。关键字:文档图像;基于内容的文档图像字级检索;汉字图像特征提取;相似度计算:高维索引。AbstractABSTRACTInrecentyears,alongwiththedevelopmentofmultimediatechnologyandtheInteract,theresourcesofmultimediagrowfast.Now,manyorganizat
4、ions,suchasCorporations,agenciesofgovernmentsandpublicdigitallibrarieshavealotallkindsofinformationsavedintheformofdocumentimages.AproblemfollowedthatiShowtosearchsomeinformationinthesemassivedocumentimages.Content-basedDocumentimageretrievaltechnologyCans
5、olvethisproblem.BasedOilthestudyofcontent-basedimageretrievaltechnology,OCRtechnologyanddocumentimagefeatures,Istudythecontent-baseddocumentimagesretrievaltechnology.IdesignaqueryingmannerthatUSeSaCMnesecharactersorChinesecharacterimagesasthequerytogetsear
6、chresultsofdocumentimageswhichcontainthequeryingChinesecharacter.Thisquerymannerisverydifferentfromthetraditionalcontent—baseddocumentimageretrievalqueryingmanner,whichUSesa11instanceofdocumentimagetojudgewhetherthedocumentimageinthedatabaseofdocumentimage
7、.Themainstudycontents弱follow:1.Thepreprocessofdocumentimages;2.ThemethodthatsegmentsdocumentimagesintopiecesofChinesecharacterimages;.3.MethodsoffeaturesextractionofChinesecharacters,andthecorrespondingsimilaritycomputationmethods.Fromdifferentangles,thisp
8、aperadoptsmanydifferentmethodsoffea吣,resextractionofChinesecharacters.Theexperimentresultsshowthatthecombinationofseveralfeature-extractionmethodsmayenhancetheaccuracy.4.Thedesignofmyownhighdimensionalindexfo
此文档下载收益归作者所有