基于存储系统的重复数据删除技术的研究

基于存储系统的重复数据删除技术的研究

ID:35063827

大小:3.61 MB

页数:68页

时间:2019-03-17

基于存储系统的重复数据删除技术的研究_第1页
基于存储系统的重复数据删除技术的研究_第2页
基于存储系统的重复数据删除技术的研究_第3页
基于存储系统的重复数据删除技术的研究_第4页
基于存储系统的重复数据删除技术的研究_第5页
资源描述:

《基于存储系统的重复数据删除技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、’-户<户-/*?*,,々—t'-■、片-:J--'---'言卢:.‘矿口'r气争单仿代码;':10293密级:"'r.1...iy,\:;■-硕女#僅浴A滚■如)'■,:WI''?餐聲’扯卑識-"-'一‘'?■■V'-■*■各-、、:??Vy!i^?v.-_,乂-、.V:';心人'一..、--fr产,'、t...?-.'>■?t..‘*.,'r

2、,’论义颖目:某于存储系统的重复数据删除技术的研究’‘‘?二.';''■-V'-’'.、-V.任//.户.心.V,夫/;进具1013041101芽 ̄ ̄—子可.^./%餐<-''心-说女-陈护琳化,运姓名导师陈春玲计算机软件与理论、学科专业;-I‘研究方h基于网络的计算机软件应用技术靖冷仁工学顿主申请学位类别亩每f’斗2016年4月某_,论文提交曰期/:-■‘V:.;.:.''

3、‘'"一'。VV终?;:\交'■‘-、一>■■s;r■一r互n.:i皆j---.V.ijResearchinData-deduplicationBasedonStorageSystemThesisSubmittedtoNanjingUniversityofPostsandTelecommunicationsfortheDegreeofMasterofEngineeringByChenLinSupervisor:Prof.ChenChunlingApril2016摘要爆炸式增长的数字信息给人们的日常生活

4、乃至企业的业务运营都带来了巨大的挑战,存储系统中的冗余数据信息变得越来越多,极大地增加了存储备份的开销,降低了存储系统的性能。研究如何消除存储系统中的冗余数据,降低存储开销问题变得尤为重要。近年来,重复数据删除技术(简称去重技术)被广泛应用于数据存储系统中,并成为计算机应用领域所研究的一个热点。但是现有的针对存储系统的重复数据删除技术的研究缺乏对相似性数据检测精度问题以及减少存储设备访问开销问题的深入研究,导致系统性能不高,达不到高速且高效的重复数据删除效果。为了解决上述问题,课题从存储系统中相似性数据检测的精确度以及优化存储系统访问

5、开销等方面进行分析研究,以找到更加高效的相似数据检测技术以及开销更小的存储系统访问的解决方法。为了在大规模文档去重中提高相似数据检测的精度,课题对基于Simhash算法的大规模文档去重技术进行深入地研究,在原有算法的基础上对Simhash指纹值的计算过程做出改进,引入ICTCLAS分词技术生成更加精确且标有词性的分词,将TF-IDF技术作为计算权重的主要方法来抑制某一文档内无意义高频词出现的负面影响,同时将特征值的词性与词长两大影响因素考虑其中,然后对产生的指纹值进行汉明距离的比较,从而更加精确地判定出待比较者是否为相似数据。为了缓解

6、存储系统中因为重复数据索引而引起的存储设备访问过于频繁的问题,课题对重复数据删除技术进行了深入的研究,并针对目前重复数据删除技术中BloomFilter的运用以及存在的存储设备访问性能问题进行分析和研究,提出一种基于BloomFilter的高效重复数据删除优化模式。针对单一BloomFilter固有的假阳性的缺陷,课题增加辅助BloomFilter,从而减小误判率,达到减少存储设备访问次数的目的;针对因系统软件错误引起的BloomFilter假阴性缺陷,课题引入单校验位的错误校验机制,在不增加过多内存存储开销的同时可以避免假阴性发生所

7、带来的问题。最后,分别针对课题改进的Simhash算法和BloomFilter算法的算法性能进行实验分析。测试结果表明课题提出的改进Simhash算法总体性能优于Shingle算法和原Simhash算法,能够提高产生指纹值的精确度;优化的BloomFilter算法通过引入一种判断机制配合辅助BloomFilter和单校验位机制,能够达到误判率降低、存储设备访问开销减小的高性能优化效果。关键词:存储系统,重复数据删除,相似性,词性权重,Simhash算法,TF-IDF技术,BloomFilter,误判率,错误校验IAbstractThe

8、explosivegrowthofdigitalinformationhasbroughtgreatchallengestopeople'sdailylife,eventhebusinessoperationsofent

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。