HDFS纠删码机制的优化研究.pdf

HDFS纠删码机制的优化研究.pdf

ID:35007078

大小:3.28 MB

页数:76页

时间:2019-03-16

HDFS纠删码机制的优化研究.pdf_第1页
HDFS纠删码机制的优化研究.pdf_第2页
HDFS纠删码机制的优化研究.pdf_第3页
HDFS纠删码机制的优化研究.pdf_第4页
HDFS纠删码机制的优化研究.pdf_第5页
资源描述:

《HDFS纠删码机制的优化研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文HDFS纠删码机制的优化研究RESEARCHONOPTIMIZATIONOFHDFSERASURECODING李大江哈尔滨工业大学2018年6月国内图书分类号:TP302.8学校代码:10213国际图书分类号:681.39密级:公开工程硕士学位论文HDFS纠删码机制的优化研究硕士研究生:李大江导师:董剑教授申请学位:工程硕士学科:计算机技术所在单位:计算机科学与技术学院答辩日期:2018年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP302.8U.D.C:681.39DissertationfortheMasterDegreeinEngineeringRE

2、SEARCHONOPTIMIZATIONOFHDFSERASURECODINGCandidate:LiDajiangSupervisor:Prof.DongJianAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerTechnologyAffiliation:SchoolofComputerScienceandTechnologyDateofDefence:June,2018Degree-Conferring-Institution:HarbinInstituteofTechnology摘要摘要随着数据量的不断增长,

3、存储成本也成倍增加,对存储系统的经济性提出了更高的要求,尤其是大型分布式存储系统。作为最为广泛使用的分布式存储系统之一,HDFS在最新的3.0版本中开始支持纠删码机制,这极大地降低了存储成本,但是受限于纠删码本身的特性,与传统的三副本技术相比,纠删码机制在进行故障恢复时需要占用更多的计算机资源,恢复时间更长,这在大型分布式系统中表现的尤为明显。HDFS应用的纠删码技术,主要采用的是里德-所罗门码(RS),该编码在进行数据恢复时,需要从其他节点读取大量数据块。与此同时,HDFS在选择恢复所需的数据块时主要使用随机算法,这导致了纠删码在读取等量的数据时将浪费更多的时间。本文将从减少所需要读取的

4、数据块的数量和优化其块选择算法两个角度,对HDFS的纠删码机制进行一定优化,降低恢复时间,提高恢复效率。本文首先对HDFS中现有的纠删码机制进行了深入的分析,通过对比实验的方式,从资源开销、恢复时间等多个角度,对纠删码机制与传统的三副本机制进行对比研究。接着,本文基于Piggybacking编码框架对HDFS采用的RS编码进行了优化设计和实现,用更细粒度的条带组代替原先恢复时的单条带,通过附加信息,有效地减少故障恢复所需的数据块数量,从而减少读取时间,降低恢复的时间成本。然后,本文提出了基于距离的块选择算法和基于负载均衡的块选择算法。对于基于距离的块选择算法,通过对机架间带宽和节点间距离关

5、系的分析,将减少机架间带宽占用问题转化为选取距离最近点问题,提出按照节点距离远近选取辅助节点的算法,有效减少了机架间带宽传输,提高了传输的平均带宽;对于基于负载均衡的块选择算法,通过对数据节点运行状态的分析,建立了一个节点运行状态权重模型,根据各节点的权重值选择辅助节点,确保选到的节点负载相对较轻,降低由于节点状态变化导致数据请求无法及时得到响应的情况发生的概率,提高恢复成功率。所以,可以根据自身需求选择其中一种使用。最后,将修改完成的Hadoop程序与未进行修改的Hadoop程序分别部署到集群上。结合各种负载和基准测试用例,通过改变文件大小、节点配置等方式,进行对比实验。实验结果表明本文

6、提出的优化算法确实能够提高HDFS纠删码机制的性能,减少故障恢复时间。关键词:HDFS;纠删码机制;编码优化;块选择;负载均衡-I-AbstractAbstractWiththecontinuousincreaseofdatavolume,storagecostshavealsoincreasedexponentially.Thisimposeshigherrequirementsontheeconomicsofstoragesystems,especiallylarge-scaledistributedstoragesystems.Asoneofthemostwidelyuseddist

7、ributedstoragesystems,HDFSbegantosupporttheerasurecodemechanisminthelatestversion3.0,whichgreatlyreducesthestoragecost.However,limitedbythecharacteristicsoftheerasurecodeitself,comparedwiththetraditionalthree-cop

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。