欢迎来到天天文库
浏览记录
ID:26598270
大小:3.08 MB
页数:75页
时间:2018-11-27
《hadoop分布式文件系统副本策略的优化研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、·第1章引言第1章引言1.1课题的研究背景与意义如今,国内外大型公司每天产生TB级的数据量已很平常[1][2],单个磁盘、磁盘冗余阵列技术(RedundantArraysofIndependentDisks,RAID)[3]、网络连接存储技术(NetworkAttachedStorage,NAS)[4]与存储区域网络(StorageAreaNetwork,SAN)[5]不足以支撑如此庞大的数据存储与处理,云存储的概念应运而生。云存储将网络中类型、性能各异的存储介质通过集群、网格技术等手段融合起来,对外形成统一的应用接口,使用户不需要考虑内部构成的复杂性而能获得强大的数据存
2、储服务[6][7];此外,云存储为云计算提供了重要的数据存储支撑[8][9]。分布式文件系统是云存储功能实现的基础。目前,有多款功能强大的分布式文件系统被工业界、学术界所使用或研究[10-13],如Hadoop,GFS,Ceph,Lustre。其中Hadoop以其良好的可扩展性、稳定性、高可靠性以及可在廉价机器上部署运行等特性,迅速成为业界认可的主流分布式文件系统。雅虎、Facebook、百度、淘宝等国内外知名大公司纷纷使用Hadoop作为其重要业务的技术支撑[14]。2013年Wandisco推出了世界第一款可用于实际业务环境的ApacheHadoop2-WANdisc
3、oDistro[15],使得Hadoop在现实环境的应用中更进一步。因此对Hadoop分布式文件系统开展研究工作,能对云存储、云计算技术的发展提供文件系统层的支持。在分布式文件系统中,良好的副本策略能有效提高各服务器之间的相互协作能力,加强资源的合理分配及利用,以此来提升分布式文件系统的服务质量[16]。目前大多数分布式文件系统均采用了多副本的冗余策略保证副本的可靠性,然而这些分布式文件系统对于副本的存储位置并未进行太多规划。如本文所研究的Hadoop系统,其默认的副本策略的设计基于节点硬件性能同构的基础之上,采用三副本冗余机制保证数据的安全性,在选取副本存储节点时采用随
4、机算法,并将三副本尽量放在不同机架上以保证数据的可靠性[17]。通过这种简单的方式为数据存储及MapReduce的计算功能提供支撑,但随着Hadoop应用的深入,集群所面临的环境更加复杂多样,现实集群环境中节点计算机硬件性能的异构、1···华侨大学硕士学位论文数据文件的访问规律、应用数据的多样化等常见现象都未被给予重视。这将可能导致默认副本策略不能为存储系统提供优化的IO性能,也无法为上层的MapReduce应用提供合理的数据分布而导致MapReduce计算性能的下降。因此对集群环境中HDFS副本放置策略进行优化研究,对于云存储和云计算的现实应用具有重要的意义。本文最终将
5、研究的焦点定位于Hadoop分布式文件系统的副本放置策略的研究中,旨在通过对副本放置策略的优化,推动整体分布式文件系统性能的提升。1.1国内外相关研究工作数据副本放置策略的研究一直是存储系统性能优化研究的热门方向。网络存储、数据网格等领域的研究工作借鉴了“缓存-主存-磁盘”这种多层次的计算机存储结构,把焦点放在缓存的利用上。如文献[18]提出根据不同类型应用对于缓存命中率的要求计算所需的缓存空间并对剩余缓存空间进行按所需比例分配。文献[19]提出的副本策略是在资源点与客户端通讯的路径上沿路缓存数据副本,并将客户端的访问延时和服务器的负载作为衡量指标以确定副本的数量和在网络
6、中的存储节点位置。文献[20][21]将副本缓存组成缓存树的形式,通过树形缓存副本放置策略,缓解大量客户端同时访问单个服务器造成的“热点问题”,有效降低根节点资源服务器的压力,同时对于数据请求的传播也只会在缓存树的局部产生,减轻缓存树中的带宽压力。文献[21]还引进一致性哈希算法,在节点性能与存储能力相似的集群环境中将数据副本均匀分布在缓存中,并动态地适应缓存节点数量的变化。特别针对Hadoop默认三副本策略进行优化的研究工作也有诸多,有的致力于减小系统存储空间开销并且增加访问并行性,有的旨在提高存储系统IO性能或集群计算性能。这些研究工作一般从三方面进行:(1)冗余方式
7、的选择,(2)副本的配置(replicaallocation),(3)副本的放置(replicaplacement)。在冗余方式的选择上,有研究者以减小系统存储冗余开销为目的,将完全副本存储方式改变成编码存储方式,如HDFS-RAID[22]根据文件热度将冷数据副本通过编码方式存储。SCR[23]根据文件类型的不同,将HDFS的副本通过RAID5的方式进行存储,并设置不同的条带方式。DiskReduce[24][25]通过对YahooM45分布式集群数据访问特征的统计,针对大部分数据的访问特征将数据按访问频2···第1章引言率
此文档下载收益归作者所有