大数据环境下的可靠存储技术思考

大数据环境下的可靠存储技术思考

ID:31356922

大小:113.50 KB

页数:10页

时间:2019-01-09

大数据环境下的可靠存储技术思考_第1页
大数据环境下的可靠存储技术思考_第2页
大数据环境下的可靠存储技术思考_第3页
大数据环境下的可靠存储技术思考_第4页
大数据环境下的可靠存储技术思考_第5页
资源描述:

《大数据环境下的可靠存储技术思考》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、大数据环境下的可靠存储技术思考  中图分类号:TN929.1文献标志码:A文章编号:1009-6868(2015)05-0027-005  摘要:针对分布式容错技术的研究,提出了两点关键要求:降低冗余开销、提高节点修复效率。分析目前主流的容错策略:复制、纠删码、再生码、基于局部可修复码,并认为这些容错策略存在不同程度的缺陷,因此设计出容错能力、计算效率及存储利用率更高的容错策略,仍是未来很长一段时间内值得深入研究的问题。  关键词:大数据;可靠性;分布式存储;容错技术  Abstract:Twokey

2、requirementsoffaulttolerancetechnologyareproposedinthispaper:minimalstorageoverheadandmaximumnoderecoveryperformance.Fourmainstrategiesforfaulttoleranceareanalyzed:replication,erasurecodes,regeneratingcodesandlocallyrepairablecodes.Itisconsideredthatthe

3、sefaulttolerancestrategieshavedifferentdefects.Designingafaulttolerancestrategywithhigherfaulttolerance,bettercomputationalefficiencyandmemoryutilizationwillstillbeaproblemneedstobesolvedinthefuture.  Keywords:bigdata;reliability;distributedstorage;faul

4、ttolerancetechnolog10  随着经济全球化的发展和科技改革的推进,网络覆盖面积不断加大,信息交互随之增强,全球数据正在以爆炸式的速度增长。国际数据公司(IDC)报告指出,从2010―2020年全球数据量将有50倍的增长,预测达到40ZB数量级[1]。同时海量数据对存储系统提出了巨大的挑战,根据统计,数据存储的需求每年的增速在50%~62%之间。大规模分布式存储系统以其海量存储能力、高吞吐量、高可用性和低成本的突出优势成为存储海量数据的有效系统并被广泛使用。当前最主流的分布式系统是开源

5、的Hadoop分布式文件系统(HDFS)[2],作为GFS[3]的一个开源实现,它被应用于众多大型企业,如Yahoo、Amazon、Facebook、eBay等。  随着分布式存储系统的规模越来越大,为节省成本,存储节点大多采用廉价、可靠性差的设备,这直接导致节点故障越来越频繁。图1给出了Facebook部署的Hadoop集群的日节点失效数。集群共3000个节点,涉及45PB数据,平均每天有22个节点失效,最高的日节点失效超过100个[4]。如何有效保障数据可靠性成为了当前分布式存储系统首要关注的问题

6、。  为了提供可靠的存储服务,分布式存储系统通过引入冗余信息来提高系统的容错能力。这种冗余存储的方式能够使系统容忍一定数量的节点故障[5-6],同时系统还需要一个良好的节点修复机制,在发生故障时能快速有效地修复失效数据,维持系统冗余度。  1基于复制的容错技术10  复制策略是引入冗余最简单的方法,其基本思想是为系统中的每一个数据对象都建立若干个相同的副本,并把这些副本分散存储在不同的节点上,当遇到某个数据损坏或失效而无法正常使用时,可通过访问最近的存储节点来获取与原件完全一致的数据备份,这样只要数据

7、对象还有一个存活副本,分布式存储系统就可以一直正常运行。修复过程也十分简单高效,只要向所有存储副本的节点中最近的节点发出请求、下载并重新存储,即可恢复系统冗余度。复制策略存储方式简单,易于实现,故障修复容易,并且便于扩展。此外,存储的多个副本也可以均摊读文件时的负载,如通过为热点文件配置更高的副本数来支持高效的并发读操作。  但是在节点数量庞大,存储结构复杂的大规模分布式系统中,要实现快速高效的容错技术,必须解决3个问题:副本数量的设置、副本的放置方式和副本的修复策略。  1.1副本数量设置  设置副

8、本数量一般有两种方式:一是静态设置,主流的分布式文件系统如HDFS[2]和GFS[3]都是采用3副本固定机制,这种方法操作简单,但灵活性差;二是动态设置副本数量,亚马逊分布式存储系统S3提供用户可以自行设定副本数的功能。另外,文献[7]提出一种动态的容错机制,系统根据数据的访问频率、出错概率、网络状况以及存储时间等动态因素决定副本数,同时动态地删除或添加副本,这种动态机制能大大增加存储空间的利用率、提高数据的获取性能,但动态决策方式会加大系统的处理开销。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。