技术热点分析:重复数据删除

技术热点分析:重复数据删除

ID:9722511

大小:56.50 KB

页数:8页

时间:2018-05-06

上传者:U-991
技术热点分析:重复数据删除_第1页
技术热点分析:重复数据删除_第2页
技术热点分析:重复数据删除_第3页
技术热点分析:重复数据删除_第4页
技术热点分析:重复数据删除_第5页
资源描述:

《技术热点分析:重复数据删除》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

  技术热点分析:重复数据删除  备份设备中总是充斥着大量的冗余数据。为了解决这个问题,节省更多空间,重复删除技术便顺理成章地成了人们关注的焦点。采用重复删除技术可以将存储的数据缩减为原来的1/20,从而让出更多的备份空间,不仅可以使磁盘上的备份数据保存更长的时间,而且还可以节约离线存储时所需的大量的带宽。  就在几年前,D2D备份似乎还好得令人难以置信。受价格低廉的ATA(以及稍后的SATA)硬盘的影响,很多人会选择用D2D取代虚拟磁带库或做备份到磁盘的工作,使备份速度变得更快,不必再担心在磁带驱动器和磁带库上产生的机械故障,并且使文件恢复变得更加轻松。    但是今天,我们的磁盘备份设备的容量已经趋于饱和,在数据中心已经没有足够的空间来备份PT级的数据,在这种情况下,当我们希望将备份数据保存一个月时,却只能保存两到三天。问题是在我们的备份设备中有太多的重复数据。现在终于有了解决这个问题的办法,善于抓住机会赚钱的厂商们声称他们的新一代删除重复数据产品可以按20:1,甚至300:1的比例缩减我们需要存储的数据量。果真如此吗?让我们仔细看看。   重复数据删除技术支持在已有的磁盘设备上存储更多的备份数据。因此采用重复数据删除技术可以增加您保存备份数据的时间,减少数据中心的消耗,降低成本。如果您删除重复数据后再通过D-5等类似的算法将这些进行备份的数据流断成块并且为每个数据块生成一个散列(hash)。如果新数据块的散列(hash)与备份设备上散列索引中的一个散列匹配,表明该数据已经被备份,设备只更新它的表,以说明在这个新位置上也存在该数据。  基于散列(hash)的方法存在内置的可扩展性问题。为了快速识别一个数据块是否已经被备份,这种基于散列(hash)的方法会在内存中拥有散列(hash)索引。当被备份的数据块数量增加时,该索引也随之增长。一旦索引增长超过了设备在内存中保存它所支持的容量,性能会急速下降,同时磁盘搜索会比内存搜索更慢。因此,目前大部分基于散列(hash)的系统都是独立的,可以保持存储数据所需的内存量与磁盘空间量的平衡,这样,散列(hash)表就永远不会变得太大。   第二种方法是基于内容识别的重复删除,这种方法主要是识别记录的数据格式。它采用内嵌在备份数据中的文件系统的元数据识别文件;然后与其数据存储库中的其它版本进行逐字节地比较,找到该版本与第一个已存储的版本的不同之处并为这些不同的数据创建一个增量文件。这种方法可以避免散列(hash)冲突(请参阅下面的不要惧怕冲突),但是需要使用支持的备份应用设备以便设备可以提取元数据。  ExaGridSystems的InfiniteFiler就是一个基于内容识别的重复删除设备,当备份数据时,它采用mVaultGalaxy和SymantecBackupExec等通用的备份应用技术从源系统中识别文件。完成备份后,它找出已经被多次备份的文件,生成增量文件(deltas)。多个InfiniteFilers合成一个网格,支持高达30TB的备份数据。采用重复删123下一页....,。除方法的ExaGrid在存储一个1GB的.PST文件类的新信息时表现优异,但它不能为多个不同的文件消除重复的数据,例如在四个.PST文件具有相同的附件的情况下。  Sepaton的用于它的VTL的DeltaStor也采用内容识别方法,但是它将新文件既与相同位置上的以前的文件版本进行比较,同时也与从其它位置上备份的文件版本进行比较,因此它能够消除所有位置上的重复数据。  第三种方法是DiligentTechnologies用于其ProtecTier VTL的技术,它像基于散列(hash)的产品那样将数据分成块,并且采用自有的算法决定给定的数据块是否与其它的相似。然后与相似块中的数据进行逐字节的比较,以判断该数据块是否已经被备份。  硬件或软件  各大厂商除了采用的方法不同外,他们物理架构的备份目标也不同。DataDomain、ExaGrid和昆腾是包含磁盘阵列的monolithicappliances(单块集成电路设备)。DataDomain和昆腾有NAS或VTL接口,而ExaGrid就是一个NAS设备。Diligent和FalconStor销售的是软件产品,运行在Intel或Opteron服务器上。  尽管带有VTL接口的备份设备看起来更高级并且更易于与现存的基于磁带的备份环境集成,但是采用NAS接口,会为您的备份应用提供更多的控制。当备份文件过了保存期时,一些像赛门铁克的NetBackup之类的备份产品能够从它们的磁盘存储库中删除这些过了保存期的备份文件。当重复删除的NAS设备发现这个删除行为时,它可以重新分配它的自由空间和散列(hash)索引。而对于VTL接口的设备来说,因为您没有删除磁带,所以无法在VTL上释放出空间,直到虚拟磁带被复写,空间才能得以释放。   当然,在1TB的空间内容纳25TB的数据是要付出一些代价的,不只是在金钱方面。将数据切成块并进行索引来消除重复数据的所有工作会使备份速度减慢。OverlandREO9000等中级VTL的数据备份速度是300MBps甚至更快些。Diligent在其ProtecTier上已经具有200-MBps的备份速度,但是需要一个四核Opteron服务器来实现,该服务器前端是装有100多个磁盘驱动器的阵列。  其它厂商解决该问题的办法是把重复数据删除当做一个独立的过程在备份后运行。在一个系统上运行FalconStor的VTL软件,进行备份的数据被写到一个压缩的虚拟磁带文件而不是一个删除重复的虚拟磁带文件上。然后在后台将数据流切成块,消除重复数据并且创建虚拟磁带,该虚拟磁带是执行删除重复数据块在原虚拟磁带上的索引。一旦虚拟磁带的数据执行了删除重复处理,它所占有的空间就返回到可用的空间池。Sepaton的DeltaStor和ExaGrid也把它们的重复删除当成一个后备份过程来执行。  尽管后处理能够提高备份速度,但同样也要消耗成本。执行后处理重复删除的系统必须有足够的磁盘空间,因为除了删除重复的数据外,它还需要保存全部标准的备份。如果您希望继续执行每周的全天增量备份的计划,那么一个在后台进行重复删除处理的系统上,你可能需要双倍多的磁盘空间来保存全部的备份直到处理完成为止。   正因为重复删除在后台运行,所以千万不要忽视重复删除的性能。例如,如果到星期一的晚上您开始再次备份您的服务器时,您的VTL还没有完成对周末备份的处理,这时您会遇到您不想看到的情况,如磁盘空间不可用或重复删除处理使您的备份速度变慢等。  节省带宽  子文件重复删除技术不仅用于在备份应用中节省磁盘空间。新一代的备份应用,包括Asigra的Televaulting,EMC的AvamarAxion和赛门铁克的NetBackupPureDisk都采用基于散列(hash)的重复数据删除技术来减少通过B的PoarAxion和NetBackupPureDisk共享一个相似的架构,并且都是根据重复数据删除存储的大小进行定价,但是还是存在一些不同的地方。NetBackupPureDisk采用固定的128KB的数据块,而elevaulting和AvamarAxion采用可改变大小的数据块,这会使重复删除技术性能更好。PureDisk支持NetBackup,赛门铁克承诺未来进行更好的整合,即提供我们希望的可以将重复删除与数据中心备份工作整合的设备。Asigra也向服务提供商销售Televaulting产品,以便不想建立自己架构的小企业也可以利用重复删除技术。   有几个客户的报告中都写到,他们在不对备份流程做大改动的情况下,的确获得了20:1的缩减比例。小企业可以采用Asigra,EMC和赛门铁克的新一代备份软件取代传统的备份方案。中型企业可以采用面向数据中心的备份设备。需要很高备份性能的大型企业可能不得不等待下一代产品了。  不要惧怕冲突  我们之前一直听说用户害怕使用基于散列的重复删除,因为有可能发生散列冲突--上一页123下一页....,。--两组数据生成相同的散列,从而导致数据损毁。尽管有因为散列冲突导致数据损毁的风险,但是它发生的概率与每天存在的存储管理风险相比是非常小的。  重复删除技术通常采用MD-5(a128字节的散列)或SHA-1(a160字节的散列)算法。生成相同的MD5散列的两个随机数据块的可能性大约是1/1037。如果一个PB的数据采用MD-5算法,以平均大小为4KB的数据块进行重复删除处理,两个块生成相同MD-5散列的可能性大约是1/1020。   通过比较,具有一百万小时MTBF(平均故障间隔时间)的两个互为镜像的驱动器在彼此一小时内发生故障的可能性是都是1/1020---比发生散列冲突的机会几乎高10亿倍。通过以太网或FC发送的数据受CRC-32检验和的保护,其未检出数据差错的概率大约是1/4x109。  记住存在散列冲突是很重要,但并不意味着数据会全部丢失。如果重复删除系统错误地把两个数据块识别成含有相同数据的块,当它们不被存储时,系统会继续执行操作。但当存储数据时,数据被错误识别的这个文件会被破坏。所有其它的数据会被正确地恢复。发生散列冲突的概率应该小于行星碰撞或黄石公园大火山喷发的概率。  存在于数据重复删除中更大的风险是来自硬件故障的灾难性的数据损失。因为任何特定的备份工作的数据,实事上,是任何特定的大文件被切成块,分散在整个重复数据删除设备中,它不关心你备份了那个服务器多少次,如果你在重复删除设备中损失了一个RAID设置,你会损失很多数据。于是增强的数据保护功能,例如电池备份缓存和RAID6,对重复删除目标来说,比对基本的存储应用更重要。上一页123....,。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
大家都在看
近期热门
关闭