欢迎来到天天文库
浏览记录
ID:31356922
大小:113.50 KB
页数:10页
时间:2019-01-09
《大数据环境下的可靠存储技术思考》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、大数据环境下的可靠存储技术思考 中图分类号:TN929.1文献标志码:A文章编号:1009-6868(2015)05-0027-005 摘要:针对分布式容错技术的研究,提出了两点关键要求:降低冗余开销、提高节点修复效率。分析目前主流的容错策略:复制、纠删码、再生码、基于局部可修复码,并认为这些容错策略存在不同程度的缺陷,因此设计出容错能力、计算效率及存储利用率更高的容错策略,仍是未来很长一段时间内值得深入研究的问题。 关键词:大数据;可靠性;分布式存储;容错技术 Abstract:Twokey
2、requirementsoffaulttolerancetechnologyareproposedinthispaper:minimalstorageoverheadandmaximumnoderecoveryperformance.Fourmainstrategiesforfaulttoleranceareanalyzed:replication,erasurecodes,regeneratingcodesandlocallyrepairablecodes.Itisconsideredthatthe
3、sefaulttolerancestrategieshavedifferentdefects.Designingafaulttolerancestrategywithhigherfaulttolerance,bettercomputationalefficiencyandmemoryutilizationwillstillbeaproblemneedstobesolvedinthefuture. Keywords:bigdata;reliability;distributedstorage;faul
4、ttolerancetechnolog10 随着经济全球化的发展和科技改革的推进,网络覆盖面积不断加大,信息交互随之增强,全球数据正在以爆炸式的速度增长。国际数据公司(IDC)报告指出,从2010―2020年全球数据量将有50倍的增长,预测达到40ZB数量级[1]。同时海量数据对存储系统提出了巨大的挑战,根据统计,数据存储的需求每年的增速在50%~62%之间。大规模分布式存储系统以其海量存储能力、高吞吐量、高可用性和低成本的突出优势成为存储海量数据的有效系统并被广泛使用。当前最主流的分布式系统是开源
5、的Hadoop分布式文件系统(HDFS)[2],作为GFS[3]的一个开源实现,它被应用于众多大型企业,如Yahoo、Amazon、Facebook、eBay等。 随着分布式存储系统的规模越来越大,为节省成本,存储节点大多采用廉价、可靠性差的设备,这直接导致节点故障越来越频繁。图1给出了Facebook部署的Hadoop集群的日节点失效数。集群共3000个节点,涉及45PB数据,平均每天有22个节点失效,最高的日节点失效超过100个[4]。如何有效保障数据可靠性成为了当前分布式存储系统首要关注的问题
6、。 为了提供可靠的存储服务,分布式存储系统通过引入冗余信息来提高系统的容错能力。这种冗余存储的方式能够使系统容忍一定数量的节点故障[5-6],同时系统还需要一个良好的节点修复机制,在发生故障时能快速有效地修复失效数据,维持系统冗余度。 1基于复制的容错技术10 复制策略是引入冗余最简单的方法,其基本思想是为系统中的每一个数据对象都建立若干个相同的副本,并把这些副本分散存储在不同的节点上,当遇到某个数据损坏或失效而无法正常使用时,可通过访问最近的存储节点来获取与原件完全一致的数据备份,这样只要数据
7、对象还有一个存活副本,分布式存储系统就可以一直正常运行。修复过程也十分简单高效,只要向所有存储副本的节点中最近的节点发出请求、下载并重新存储,即可恢复系统冗余度。复制策略存储方式简单,易于实现,故障修复容易,并且便于扩展。此外,存储的多个副本也可以均摊读文件时的负载,如通过为热点文件配置更高的副本数来支持高效的并发读操作。 但是在节点数量庞大,存储结构复杂的大规模分布式系统中,要实现快速高效的容错技术,必须解决3个问题:副本数量的设置、副本的放置方式和副本的修复策略。 1.1副本数量设置 设置副
8、本数量一般有两种方式:一是静态设置,主流的分布式文件系统如HDFS[2]和GFS[3]都是采用3副本固定机制,这种方法操作简单,但灵活性差;二是动态设置副本数量,亚马逊分布式存储系统S3提供用户可以自行设定副本数的功能。另外,文献[7]提出一种动态的容错机制,系统根据数据的访问频率、出错概率、网络状况以及存储时间等动态因素决定副本数,同时动态地删除或添加副本,这种动态机制能大大增加存储空间的利用率、提高数据的获取性能,但动态决策方式会加大系统的处理开销。
此文档下载收益归作者所有