云存储中快速安全的数据去重方法

云存储中快速安全的数据去重方法

ID:24681148

大小:50.00 KB

页数:4页

时间:2018-11-16

云存储中快速安全的数据去重方法_第1页
云存储中快速安全的数据去重方法_第2页
云存储中快速安全的数据去重方法_第3页
云存储中快速安全的数据去重方法_第4页
资源描述:

《云存储中快速安全的数据去重方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、云存储中快速安全的数据去重方法-->第1章绪论1.1研究背景网络信息技术等计算机新兴科技不但促进了国民经济各个领域的蓬勃发展,同时也推进了相应软硬件系统全面步入信息化、智能化时代。随着这些技术逐渐融入到社会生活中的各个角落里,大数据时代在全球数字化浪潮带来的海量信息数据逐渐推动下也越来越清晰地步入全球的视野。据IDC研究指出[1],2006年个人用户数据已经进入TB级的时代,从2006年到2010年,数据每年以57%的速度持续增长,2011年,全球的数据量已经进入以ZB为单位的时代,全世界使用的数据总量超过1.8ZB。IDC调查称,2020年全球数据总量甚至将会超过40ZB,

2、大数据时代越来越清晰,同时其数据种类多(Variety),数据量大(Volume),价值密度低(Value),处理速度快(Velocity)的四大特性也逐渐被大家所熟知[2]。...............1.2课题研究内容当前各企业厂商和研究机构为了能节省磁盘等硬件成本开销同时又能提高存储空间的利用率提出了重复数据删除技术的概念。重复删除技术实质上是一种有效的数据压缩技术,用来删除存储系统中存在的大量冗余数据,以降低磁盘I/O开销,提高系统资源利用率。目前国内外很多研究组织和企业都在对其进行研究,并且取得了非常明显的成果,LBFS[7]是一种由麻省理工学院开发的网络文件系统

3、,其目标在于降低数据传输对带宽的占用,在传输之前判断数据块是否已经在于目标服务器上,如果已经存在则无需重复发送数据块。此外,LBFS使用SHA1值的前64位作数据块指纹索引,是有一定指纹冲突的可能;Venti系统[8]是美国贝尔实验室设计和研发的用于数据归档的网络存储系统,但它绑定到Plan9操作系统上,因此不能用于诸如Linux,WindoeNode和DataNode进程,其余两个节点只存在DataNode进程,每台机器的配置如表6.1所示。本文采用Rabin指纹算法对每一个待处理的文件进行按内容分块,且设定数据块的平均大小为4KB。除此之外,设定数据块大小最小为2K,最大

4、为64KB,。对于重复的文件无需再次上传,而在对非重复SSH文件进行分块之前,先确定文件的大小,对于小于2K的小文件不做分块处理,而是将整个文件作为一个块处理,这样可以减少对这些小文件进行数据分块过程的时间开销。而对于文件指纹以及数据块指纹的计算都采用SHA3哈希算法。...............6.2实验结果与分析在比较数据集所需的存储空间时,使用三种方法:无去重措施、在线EB检测,本文的客户-服务端双重检测,分别用No-Dedup、EB-Dedup和CS-Dedup表示。图6.2和图6.3所示为采用不同方法时,DatasetI和DatasetII所占的存储空间比较。可以

5、看出:采用任意一种去重处理后,数据集所占的存储空间明显减少,尤其在数据量增大时,存储空间利用率大大提高;而且CS-Dedup相比EB-Dedup能够节省更多的存储空间,因为CS-Dedup相当于在EB-Dedup之上又做了一次服务端的全局查重。不过图6.3中CS-Dedup相比EB-Dedup去重率提高不大,其原因是数据集中大多数重复数据通过EB即可得到确认,即能在客户端检测到大部分的重复数据,只有少数副本需要通过服-->务端的全局确认。...............结论无论是在个人PC机、备份、归档系统还是在分布式文件系统里,都存在一定量的数据是重复存储的,而加之当前信息飞

6、速发展带来数据规模的急剧增大,如何充分利用系统的存储资源,去除这些重复数据愈加显得重要和迫切。本文的目的是通过研究国内外重复数据去重领域研究现状,结合以往相关经典算法并提出一种扩展性强、去重率高的客户-服务端双端去重框架-TLDM。首先,本文分析了当前大数据环境下给数据存储带来的一系列问题,重点讲到了云存储环境重复数据冗余存储的客观现状以及因此给企业和个人带来的各种问题。其中阐述了国内外重复数据删除技术的主要方法,包括基于内容识别的传统去重方法和当代基于块粒度的数据去重方法。并在后续内容中对基于去重粒度的文件级、静态分块和按内容分块方法进行了重点叙述,这其中又对基于文件内容的

7、分块技术进行更加细致的讲解,该讲解中涉及到了两项重要技术,一个是滑动窗口的概念,另一个是Rabin指纹分块方法。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。