欢迎来到天天文库
浏览记录
ID:20073527
大小:53.00 KB
页数:5页
时间:2018-10-08
《集群重复数据删除策略的研究 》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、集群重复数据删除策略的研究陈晓张龙军王谦武警工程大学信息工程系陕西西安71008基金项目:国家自然科学基金(NO.61003250)【文章】 提出了集群内的全局重复数据删除方案,运用BloomFilter技术为集群中存储的所有数据块建立快速索引的信息,组成一个可以检测重复数据的指纹阵列(FSA),分布在存储节点前端的控制服务器,控制服务器节点将客户端发送到的数据块指纹合并成若干粒度大小均匀的超块,进行重复数据的检测,然后将超块有状态地路由到各个存储节点进行数据删重。利用FSA检测全局范围内所有存储节点之间的
2、重复数据,获取较高的重复数据删除率,极大的提高了内存空间的利用率。【关键词】重复数据删除;指纹阵列;超块0引言随着大数据时代的发展,数据量正在爆炸式增长,数据更新变化也在时刻进行。数据量从TB上升到PB甚至EB,随着数据集关联性的日益繁杂,面向云环境的集群中心会产生大量冗余数据。调查发现云端数据中心有60%以上数据是冗余的,这就为数据同步提出了巨大挑战。为支持云环境下分布式存储的特点,单一的数据同步技术已难以满足节省存储空间和系统扩展的需求,集群内所有节点之间进行数据去重的数据同步技术应运而生。集群重复数据删
3、除是在存储系统全局范围内进行分布并行的数据删重技术。它通过有效的数据路由指导策略将客户端上传的数据分发到集群内的存储节点进行数据删重。1BloomFilter我们假设BloomFilter使用一个长度为n的位数组N,首先将位数组N的所有位初始化为0。设定一个包含m个元素的集合S={x1,x2,…xm},BloomFilter使用k个相互独立的哈希函数h1,h2,…,hk,它们分别将集合S中的每一个元素映射到位数组{1,2,…,n}的范围中,当有任意一个x元素进入集合S中,第i个独立哈希函数映射的位置N[hi(
4、x)](i=1,…,k)就会被置为1。对于不同的元素,其独立的哈希函数可能会映射到同一位置,即某一位被重复地置为1。例中采用3个相互独立的哈希函数,即k=3,当元素x1和x2先后被插入到位数组N时,有两个哈希函数映射到位数组中的第8位,此时只有第一次映射起作用,即位数组第8位映射的是先进入集合的元素x1。判断一个未知的元素y是否属于集合S,需要对元素y应用k次哈希函数得到k个哈希值,检查所有的哈希值对应的位N[hi(y)](i=1,…,k)是否都被置为了1。如果都为1,则y可能是集合中的元素,此时将这种情况视
5、为Positive,否则元素y就不属于集合S,这种情况为Negative。y1不是集合S中的元素,而y2可能属于集合S。DDFS重复数据删除系统设计使用一个BloomFilter来表示整个集群中全部的数据块指纹,并被抽象成指纹向量,它具有常量级的时间复杂度,是建立在磁盘索引访问之前的快速索引机制,能够较快的查询并判断重复数据块,可以较高的提升系统吞吐率。2基于BloomFilter的全局数据删重策略2.1全局去重策略的设计与实现利用BloomFilter机制,可以将集群内所有存储节点上存储的数据块指纹表示成B
6、loomFilter指纹(FingerprintSummary),形成全局的快速索引序列。例如集群中有p个存储服务器节点,假设所有节点的BloomFilter长度全部为n,并且所有节点采用k个相同且相互独立的哈希函数。为实现全局的重复数据删除,将集群内每一个节点的BloomFilter指纹聚合到一块,组成BloomFilter代表的阵列(BloomFilterArray,BFA),保存到数据存储节点前端的控制服务器节点中心并分发到每个存储节点,BFA又可称作指纹阵列,即FingerprintSummaryAr
7、ra,简称FSA,如下图1所示:当集群服务器中心接受客户端发送的数据块指纹时,此指纹信息首先会传输到存储服务器节点前端的控制服务器中,并将数据块指纹按照均匀的粒度组成超块Q,根据BloomFilter阵列依次进行重复数据检测。检测完成后删除重复的数据,将可能不重复的数据有状态的路由到存储节点进行细粒度的检测,最后确定数据块是否是新块或是已存在的数据块。数据中心接收到客户端发送来的数据块指纹时,检测该块是新块还是已存储的数据块,其图1指纹阵列040软件开发Softent电子制作流程如图2所示:2.2存储节点的去
8、重策略DDFS系统为保持冗余的局部性,采取了基于流的块排列(SISL)技术,在容器(Container)中根据先后的逻辑关系存储一个文件的数据块及相应指纹。冗余局部性是指一个数据块是重复块的时候,其附近的数据块极可能也是重复快。控制中心服务器将超快指纹分发到存储节点之前,必须进行存储节点的选择。选取存储节点时,常用的方法是利用数据块指纹取模的算法,这样就会存在比较大的弊端,由于数据块在存储之前被置乱
此文档下载收益归作者所有