基于聚类分析方法的破碎文件复原问题的探究-论文.pdf

基于聚类分析方法的破碎文件复原问题的探究-论文.pdf

ID:53029345

大小:744.19 KB

页数:3页

时间:2020-04-14

基于聚类分析方法的破碎文件复原问题的探究-论文.pdf_第1页
基于聚类分析方法的破碎文件复原问题的探究-论文.pdf_第2页
基于聚类分析方法的破碎文件复原问题的探究-论文.pdf_第3页
资源描述:

《基于聚类分析方法的破碎文件复原问题的探究-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、2015年第6期信息通信2O15(总第150期)INFORMlAT10N&COMMUNICATIONS(Sum.No150)基于聚类分析方法的破碎文件复原问题的探究员海,徐子健,李元晨(西北工业大学航天学院,陕西西安710072)摘要:破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着广泛的应用。传统上,拼接复原工作需由人工完成,准确率较高,但效率很低。特别是当碎片数量巨大,人工拼接很难在短时间内完成任务。为此,文章基于聚类分析方法,通过阙值分割以及边缘相似度比较,并利用计算机编程实现碎纸

2、片的拼接,最后考虑了纸片上可能既有汉字也有英文以及两面都有文字的情况,并对算法进行了推广。关键词:阚值分割;边缘相似度;聚类分析;贪心算法中图分类号:TP391.41文献标识码:A文章编号:1673-l131(2015)06-0039—03BrokenFile’SRecoveryBased0nClusteringAnalysisYunHaiXuZijianLiYuanchen(NorthwesternPolytechnicalUniversity,Xian710072,China)’Abstract:Itha

3、simportantapplicationtorecoverthejudicialevidence,repairtheliteratureandobtainmilitaryintelligencebyusingthetechnologyofjoiningtogetherofbrokenfile.Traditionally,itneedstocompleteartificially.Althoughithashighaccuraterate,itdoesnothaveasatisfiedeficiency,es

4、peciallyatthemomentthattherealelargeamountoffragmant.Thisarticlewilldiscusshowtousecomputerprogrammingtoachievejoiningtogetherofpaperbasedonclusteringanalysis.ThisarticlealsoconsiderstwomoresituationsbothEnglishandChineseinpaper,andwritinginbothsides.Finall

5、y,thisarticletrytoextendtheprogramming.Keywords:ThresholdSegmentation,Edges’Similarity,ClusteringAnalysis,GreedyAlgorithm的拼接,最后再辅以少量的人工干预即可实现碎纸片的完美拼0引言接。下面将从单面汉字碎纸片的拼接、单面英文碎纸片的拼接破碎文件的拼接在许多领域都有很重要的意义。传统上,和双面碎纸片的拼接三方面分别进行论述。文中碎片示例引拼接复原工作需由人工完成,准确率较高,但效率很低。尤其用

6、自2013年全国大学生数学建模竞赛(CUMCM)题目。是当碎片数量巨大,人工拼接很难在短时间内完成任务。近年来,随着计算机技术的发展,可以通过计算机编程技术实现l单面汉字碎纸片拼接碎片的快速准确拼接,同时,人们试图开发碎纸片的自动拼接对于边缘相同的碎纸片的拼接,计算机拼接过程和人工技术,以提高拼接复原效率。拼接过程类似,即拼接时要判断碎片内的字迹断线或碎纸片文字碎片拼接复原工作主要分为不规则碎片和规则碎片边缘是否匹配,但由于技术和理论的限制,让计算机能完全无两类,不规则碎片一般利用碎纸片边缘的形状特征、尖角特

7、征、误地像人一样准确地识别碎片边缘的字迹断线,以及理解碎文字外形特征等几何特征,找寻相匹配的碎纸片进行拼接对不片内文字含义几乎是不太可能的。然而利用现有的技术,通规则碎片拼接还原主要采用的算法有边界检测算法、角点检测过获取碎片文字所在行的几何特征信息,如文字行的行高、文算法、遗传算法等,但是对规则碎片的拼接还原方法研究较少,字行的间距等信息。因为大多数文字文档的文字行方向平行目前还没有非常高效理想的方法。本文引入阈值分割和行聚且单一,如果碎片内的文字行或表格在碎片边界断裂,那么与类筛选的办法可以有效的识别出同

8、一行各个碎纸片,然后根据它相邻的碎纸片在边界处一定有相同高度、相同间距的文字边缘相似度的大小利用贪心算法基本上可以实现相邻碎纸片行,根据这个特点可以很容易地在形状相同的碎纸片中挑选%lib\tools.jar;”(其中“.”表示当前路径)AVD是一个配置过的模拟器,AVD设置时必须首先定制3.2安装AndroidSDKtarget。在文章研究中使用SDK1.8,其中target类型通常有两Andro

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。