基于文档内容的碎纸拼接技术-论文.pdf

基于文档内容的碎纸拼接技术-论文.pdf

ID:54982708

大小:245.14 KB

页数:4页

时间:2020-05-07

基于文档内容的碎纸拼接技术-论文.pdf_第1页
基于文档内容的碎纸拼接技术-论文.pdf_第2页
基于文档内容的碎纸拼接技术-论文.pdf_第3页
基于文档内容的碎纸拼接技术-论文.pdf_第4页
资源描述:

《基于文档内容的碎纸拼接技术-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、第16卷第4期衡水学院学报VO1.16.NO.42014年8月JournalofHengshuiUniversityAug.2014DOI:10.3969~.issn.1673—2065.2014.04.009基于文档内容的碎纸拼接技术陈黎黎,国红军(宿州I学院信息工程学院,安徽宿州234000)摘要:在深入研究文档碎片预处理和拼接复原的相关理论和技术的基础上,针对文档碎片拼接过程中可能会出现的大量轮廓相同或相似的碎片的问题,提出了单面规则纵切文档碎片的拼接算法.算法分别提取每个文档碎片的左右边界特征,将每个碎片的右边界特征与其余碎片的左边界特征

2、进行匹配,以确定碎片之间的匹配关系.关键词:纵切碎片;拼接复原;特征提取;特征匹配;文档碎片中图分类号:TP391文献标识码:A文章编号:1673—2065(2013)04.0034—04破碎文件的拼接技术在刑侦案件中的物证复原、考古研究中的历史文件和壁画修复以及军事情报获取等领域发挥着极其重要的作用.早期,碎片拼接复原工作是由人通过手工操作完成的,尽管拼接复原的准确率较高,但工作效率极低,特别是当碎片数量巨大时,手工拼接过程费时费力,一般很难在较短的时间内完成.随着计算机技术的飞速发展,为提高破碎文件的拼接和复原效率,人们逐步开始研究文件碎纸片

3、自动拼接技术,即从许多散乱的文件碎片中,借助计算机通过特征匹配技术来识别出相邻的碎片,进而重现整个文件的原貌.1问题的提出目前,国内外有关碎片拼接的方法有很多种.根据碎片特征可分为基于轮廓、色彩、纹理等特征的图像碎片拼接;根据碎片形状可分为规则碎片和不规则碎片的拼接;根据碎片的空间特征可分为二维和三维图像碎片的拼接等.大部分对碎片拼接复原方法的研究主要集中在碎片轮廓的匹配上,即基于轮廓的碎片拼接技术研究.许多学者提出了大量的算法,如,HelenaCristinadaGamaLeitaoetc[]提出了一种典型的解决平面图像碎片匹配算法.H.J.W

4、olfson等[2】运用串匹配的技术查询最大匹配子串,解决了平面曲线匹配的问题.YingShan等提出了一种概率框架的曲线匹配算法.朱良家等[]对碎纸轮廓提取技术进行研究,通过对候选集评分的方式实现了对图像碎片的拼接.朱延娟等【】提出基于Hausdor黜巨离的多尺度轮廓匹配算法等.这些算法实现了对碎片轮廓的匹配,已取得了一定的成果.但是,通常被碎纸机切碎的带有文字或图像信息的文档,其边缘是规则的,以上算法对这类碎片进行拼接复原时显然会失效[.因此,研究基于文档内容的规则碎纸拼接技术是十分必要的.本文讨论的是被碎纸机横向或纵向规则切开的碎片的拼接复

5、原技术,并在研究过程中做如下假设:假设一:任意两碎纸片的长度、宽度相等.假设二:任意两碎纸片间的厚度与纸张材料相同.假设三:任意碎纸片在切割后无信息丢失(即无破损).假设四:所有碎纸片无丢失、无多余、无沾污.2碎片预处理为方便计算机对文件碎片进行拼接处理,首先将每张碎片通过扫描仪转换为bmp格式的图片并传输到计算机中,然后再对碎片图像进行预处理.由于扫描文件碎片的时候可能会发生倾斜现象,为此需要对倾斜图像进行调整.首先,找到倾斜图像的l至50列每一列最上面像素值为0的点,从这50个点中选出最上面的点.按此方法找出第51至100列f碎片图像的宽度总

6、列数大于100)q~处于最上面的像素值为0的点.利用这两个点找出平行于碎片中文字的直线,如图1.收稿日期:2013—1202基金项目:宿州学院优秀青年人才基金重点项目(2013XQRL01);宿州学院智能信息处理实验室开放课题项目(2013KYF17)作者简介:陈黎黎(1982一),女,安徽宿州人,宿州学院信息工程学院讲师,工学硕士:国红军(1981一),男,安徽毫州人,宿州学院信息工程学院讲师,工学硕士.第4期陈黎黎,等基于文档内容的碎纸拼接技术35图1发生倾斜的碎片然后根据直线的斜率进行碎片角度的调整,调整后的碎片图像如图2所示.图2调整方向

7、后的碎片本文以每页打印纸被纵切l9条碎片为例,其中的某一条文件碎片经预处理后如图3所示.釜罢萎磊舞篷薹蜜商墓篓薹窭董黧盏篓鼍图3预处理后的纵切碎片3碎片的特征提取与匹配经过预处理后的图像,按其图像的行数构建一个长度与之相等的一维数组.对图像进行逐行扫描,若此行含有像素值为0的点,则将对应此行的数组元素值设置为0,否则为1.图3对应的纵切碎片经上述转换后提取出的匹配特征如图4所示.14IlIlIIlIlllIllI_IllllIIJllI瓶lll图4图片的匹配特征某一页面被纵切成的19条文件碎片按如上方法提取出对应的匹配特征后,将每条碎片的特征与其

8、余的l8条碎片的特征进行比较,以寻找匹配的碎片,具体步骤为:1)为每条碎片i建立一个匹配数.~Hnumber(i,19);2)碎片i与其

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。