碎纸片拼接复原问题研究

碎纸片拼接复原问题研究

ID:45605519

大小:127.73 KB

页数:19页

时间:2019-11-15

碎纸片拼接复原问题研究_第1页
碎纸片拼接复原问题研究_第2页
碎纸片拼接复原问题研究_第3页
碎纸片拼接复原问题研究_第4页
碎纸片拼接复原问题研究_第5页
资源描述:

《碎纸片拼接复原问题研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于旅行商规划模型的碎纸片拼接复原问题研究摘要本文分别针对RSSTD(ReconstructionofStripShreddedTextDocument)>RCCSTD(Reconstructionofcross-cutShreddedTextDocument)和Two-SidesRCCSTD三种类型的碎纸片拼接复原问题进行了建模与求解算法设计。首先我们对于RSSTD问题,建立了基于二值匹配度的TSP模型,并将其转化为线性规划模型,利用贪心策略复原了该问题的中文和英文碎片;然后对于RCCSTD问题,由于中英文字的差别,我们分别建立了基于改进误差评估的汉字拼接模型和基于

2、文字基线的误差评估的英文字拼接模型,并利用误差评估匹配算法,复原了该问题的中文和英文碎片;随后我们针对正反两面的RCCSTD问题,利用基线的概念将正反两面分行,转化为RCCSTD问题,并复原了该问题的英文碎片。最后,我们对模型的算法和结果进行了检验和分析。◎问题一:我们针对仅纵切的情况,首先将图像进行数字化处理,转换为了二值图像,然后得到各图像的边缘,并计算所有碎片与其他碎片边缘的匹配程度。然后,根据两两碎片之间的匹配程度建立TTSP模型,并将其划归为线性规划模型。最终,我们根据左边距的信息确定了左边第一碎片,随后设计了基于匹配度的贪心算法从左向右得到了所有碎片的拼接

3、复原结果。结果表明我们的方法对于中英文两种情况适用性均较好,且该过程不需要人工干预。◎问题二:我们针对既纵切又横切的情况,由于中英文的差异性,我们在进行分行聚类时应采用不同的标准。首先根据左右边距的信息确定了左边和右边的碎片,随后分别利用基于改进误差评估的汉字拼接模型和基于文字基线的误差评估模型,将剩余的碎片进行分行聚类,然后再利用基于误差评估的行内匹配算法对行内进行了拼接,最终利用行间匹配算法对行间的碎片进行了再拼接,最终得到了拼接复原结果。对于拼接过程中可能出现误判的情况,我们利用GUI编写了人机交互的人工干预界面,用人的直觉判断提高匹配的成功率和完整性。◎问题三

4、:我们针对正反两面的情况,首先根据正反基线信息,分别确定了左右两边的碎片,然后利用基线差值将其两两聚类,聚类以后其正反方向也一并确定,随后我们将其与剩余碎片进行分行聚类,最终又利用行内匹配和行间匹配算法得到了最终拼接复原结果o其中,对于可能出现的误判情况,我们同样在匹配算法中使用了基于GUI的人机交互干预方式,利用人的直觉提高了结果的可靠性和完整性。关键字:碎片复原.TSP、误差评估匹配.基线误差、人工干预一、问题重述破碎文件的拼接复原工作在传统上主要需由人工完成,准确率较高,但效率很低。特别是当碎片数量巨大,人工拼接很难在短时间内完成任务。随着计算机技术的发展,人们

5、试图开发碎纸片的自动拼接技术,以提高拼接复原效率。请讨论以下问题:1.对于给定的来自同一页印刷文字文件的碎纸机破碎纸片(仅纵切),建立碎纸片拼接复原模型和算法,并针对附件1、附件2给出的中、英文各一页文件的碎片数据进行拼接复原。如果复原过程需要人工干预,请写出干预方式及干预的时间节点。复原结果以图片形式及表格形式表达。2.对于碎纸机既纵切又横切的情形,请设计碎纸片拼接复原模型和算法,并针对附件3、附件4给出的中、英文各一页文件的碎片数据进行拼接复原。如果复原过程需要人工干预,请写出干预方式及干预的时间节点。1.上述所给碎片数据均为单面打印文件,从现实情形出发,还可能有

6、双面打印文件的碎纸片拼接复原问题需要解决。请尝试设计相应的碎纸片拼接复原模型与算法,并就附件5的碎片数据给出拼接复原结果。二、问题分析破碎文件的拼接复原工作,传统人工处理准确率高,但是效率低。随着计算机技术的发展,本问题试图寻找碎纸片的自动拼接方法。本文的碎片均为矩形,且大小一样,这就给碎片的拼接带来了困难,因为难以利用碎片的轮廓信息,从而只能利用碎片边缘的图像像素信息来进行拼接。对于问题一,给出了纵切的19条碎纸片,碎片为1980*72,总切线的像素点较多,并且碎纸片的数量较少,从效率出发,可以直接考虑纵切条上的像素统计信息。为了衡量匹配程度,需要建立误差评估函数。

7、本文考虑采用TSP模型,将碎纸片作为节点,将误差评估函数的值作为节点之间的权值,寻找最优解。在本问题的情况下,中英文的差别并无太大影响。对于问题二,由于给出的数据是横纵切的中英文碎片,碎片大小为180*72,各208张。因为碎纸片的数量较多,直接匹配则为NP问题中的无法用多项式解决的问题,所以先将行分组匹配完成后再把各行拼接起来。本问题主要解决:1)如何正确高效分组;2)如何准确高效拼接。考虑到中文和英文在字形和印刷结构上的不同,需要定义不同的特征向量去描述中文和英文的碎纸片上的信息。文字各行的位置和间距将作为重要的分组依据。在问题一的基础上,由于每

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。