欢迎来到天天文库
浏览记录
ID:9722511
大小:56.50 KB
页数:8页
时间:2018-05-06
《技术热点分析:重复数据删除》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、技术热点分析:重复数据删除 备份设备中总是充斥着大量的冗余数据。为了解决这个问题,节省更多空间,重复删除技术便顺理成章地成了人们关注的焦点。采用重复删除技术可以将存储的数据缩减为原来的1/20,从而让出更多的备份空间,不仅可以使磁盘上的备份数据保存更长的时间,而且还可以节约离线存储时所需的大量的带宽。 就在几年前,D2D备份似乎还好得令人难以置信。受价格低廉的ATA(以及稍后的SATA)硬盘的影响,很多人会选择用D2D取代虚拟磁带库或做备份到磁盘的工作,使备份速度变得更快,不必再担心在磁带驱动器和磁带库上产生的机械故障,并且使文件恢
2、复变得更加轻松。 但是今天,我们的磁盘备份设备的容量已经趋于饱和,在数据中心已经没有足够的空间来备份PT级的数据,在这种情况下,当我们希望将备份数据保存一个月时,却只能保存两到三天。问题是在我们的备份设备中有太多的重复数据。现在终于有了解决这个问题的办法,善于抓住机会赚钱的厂商们声称他们的新一代删除重复数据产品可以按20:1,甚至300:1的比例缩减我们需要存储的数据量。果真如此吗?让我们仔细看看。 重复数据删除技术支持在已有的磁盘设备上存储更多的备份数据。因此采用重复数据删除技术可以增加您保存备份数据的时间,减少数据中心的消耗
3、,降低成本。如果您删除重复数据后再通过D-5等类似的算法将这些进行备份的数据流断成块并且为每个数据块生成一个散列(hash)。如果新数据块的散列(hash)与备份设备上散列索引中的一个散列匹配,表明该数据已经被备份,设备只更新它的表,以说明在这个新位置上也存在该数据。 基于散列(hash)的方法存在内置的可扩展性问题。为了快速识别一个数据块是否已经被备份,这种基于散列(hash)的方法会在内存中拥有散列(hash)索引。当被备份的数据块数量增加时,该索引也随之增长。一旦索引增长超过了设备在内存中保存它所支持的容量,性能会急速下降,同时
4、磁盘搜索会比内存搜索更慢。因此,目前大部分基于散列(hash)的系统都是独立的,可以保持存储数据所需的内存量与磁盘空间量的平衡,这样,散列(hash)表就永远不会变得太大。 第二种方法是基于内容识别的重复删除,这种方法主要是识别记录的数据格式。它采用内嵌在备份数据中的文件系统的元数据识别文件;然后与其数据存储库中的其它版本进行逐字节地比较,找到该版本与第一个已存储的版本的不同之处并为这些不同的数据创建一个增量文件。这种方法可以避免散列(hash)冲突(请参阅下面的不要惧怕冲突),但是需要使用支持的备份应用设备以便设备可以提取元数据。
5、 ExaGridSystems的InfiniteFiler就是一个基于内容识别的重复删除设备,当备份数据时,它采用mVaultGalaxy和SymantecBackupExec等通用的备份应用技术从源系统中识别文件。完成备份后,它找出已经被多次备份的文件,生成增量文件(deltas)。多个InfiniteFilers合成一个网格,支持高达30TB的备份数据。采用重复删123下一页....,。除方法的ExaGrid在存储一个1GB的.PST文件类的新信息时表现优异,但它不能为多个不同的文件消除重复的数据,例如在四个.PST文件具有相同的附
6、件的情况下。 Sepaton的用于它的VTL的DeltaStor也采用内容识别方法,但是它将新文件既与相同位置上的以前的文件版本进行比较,同时也与从其它位置上备份的文件版本进行比较,因此它能够消除所有位置上的重复数据。 第三种方法是DiligentTechnologies用于其ProtecTierVTL的技术,它像基于散列(hash)的产品那样将数据分成块,并且采用自有的算法决定给定的数据块是否与其它的相似。然后与相似块中的数据进行逐字节的比较,以判断该数据块是否已经被备份。 硬件或软件 各大厂商除了采用的方法不同外,他们物理架
7、构的备份目标也不同。DataDomain、ExaGrid和昆腾是包含磁盘阵列的monolithicappliances(单块集成电路设备)。DataDomain和昆腾有NAS或VTL接口,而ExaGrid就是一个NAS设备。Diligent和FalconStor销售的是软件产品,运行在Intel或Opteron服务器上。 尽管带有VTL接口的备份设备看起来更高级并且更易于与现存的基于磁带的备份环境集成,但是采用NAS接口,会为您的备份应用提供更多的控制。当备份文件过了保存期时,一些像赛门铁克的NetBackup之类的备份产品能够从它们
8、的磁盘存储库中删除这些过了保存期的备份文件。当重复删除的NAS设备发现这个删除行为时,它可以重新分配它的自由空间和散列(hash)索引。而对于VTL接口的设备来说,因为您没有删除磁带,所以无法在VTL上释放
此文档下载收益归作者所有