mapreduce容错机制的改进研究

mapreduce容错机制的改进研究

ID:34057116

大小:10.44 MB

页数:73页

时间:2019-03-03

mapreduce容错机制的改进研究_第1页
mapreduce容错机制的改进研究_第2页
mapreduce容错机制的改进研究_第3页
mapreduce容错机制的改进研究_第4页
mapreduce容错机制的改进研究_第5页
资源描述:

《mapreduce容错机制的改进研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代号:10532学密号:S11102008级:普通湖南大学硕士学位论文MapReduce容错机制的改进研究昱!!匝娃名盈驱整;奎壹童教攫墙羞篁僮;信息抖堂皇工猩堂瞳童些名煎;让篡扭抖堂皇撞苤论文提交日期:2014生05旦15日诠塞筌整目期;2Q!垒生Q墨且Q垒目筌避委员盒圭虚;整矗焦熬攫ResearchonImprovingtheFaultTolerancePerformanceinMapReducebyWUHuichengB.E.(NortheasternUniversity)201Athesissubmittedinparti

2、alsatisfactionoftheRequirementsforthedegreeofMasterofEngineeringlnComputerScienceandTechnologyintheGraduateSchoolofHunanUniversitySupervisorProfessorLIKenliMay,2014湖南大学学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用韵内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要

3、贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名:关磐域日期:五f炸f月‘日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于1、保密口,在年解密后适用本授权书。2、不保密团。(请在以上相应方框内打“√”)作者签名:-忪>'It瑟城作者签名:

4、憩’飞跏签名崧二日期:≯乍年6月‘日日期:krZ年6月‘17t摘要随着网络信息技术的不断发展,互联网已经渗透到各行各业,而且互联网用户数目也不断地在增长,这导致了互联网数据的爆发式增长,也为分布式计算提供了新的机遇。MapReduce是Google提出用于处理海量数据的分布式并行计算编程模型,它具有自动并行处理作业,可靠性高及编程简单等特点。Hadoop是基于MapReduce的开源分布式并行计算基础平台,由于定制和使用简单而被众多企业和科研单位用于海量数据的处理和研究。在Hadoop中分别采用HDFS(HadoopDistribut

5、edFileSystem)和MapReduce来存储和处理海量数据。在MapReduce框架中把硬件故障当作常态,因此容错机制是存储和计算健壮性和高效性的保障。推测执行是计算容错的重要手段,它通过找出执行异常慢的任务并将其备份任务放于另一个节点执行,以达到降低任务执行时间及节省集群资源的目的。现有的推测执行策略主要包括基于启发式的LATE(LongestApproximateTimetoEnd)和基于集群成本效益的MCP(MaximumCostPerformance)。这两种策略的实现原理不相同,LATE比MCP实现起来更简单,但效果

6、不如MCP。通过对LATE策略中存在的问题进行总结和分析,针对LATE策略中进行任务剩余时间评估没有考虑系统负载的影响而导致评估结果不准确的不足,提出了系统负载感知的启发式推测执行策略ERUL(EstimateRemaintimeUsingLinerrelationship)。ERUL扩展计算密集型任务执行时间同系统负载基本呈线性关系的结论用于任务剩余执行时间的评估,提高了评估的准确度。同时,ERUL还解决了LATE中不能处理Map任务输入倾斜,不能及时发现掉队任务及节点性能评价存在缺陷等问题。实验表明ERUL在任务剩余执行时间评估方

7、面比LATE更精确,同时对集群性能的改善也比LATE更好。对MCP策略执行流程和存在的问题进行深入分析,提出了一种异构环境下的MapReduce推测执行改进策略exMCP(extensionalMCP)。MCP模型在对集群资源价值进行计算时没有考虑异构环境下不同节点的Slot拥有不同的价值,因而会导致模型使用时产生差错。同时,MCP中没有对Map任务按照是否满足数据本地化进行分类,这可能导致不满足数据本地化的任务被全部认定为掉队任务等错误。在exMCP中通过考虑Slot价值来计算集群资源价值,同时对Map任务分类独立进行推测执行,另外

8、还对选择备份任务执行节点存在的问题进行了改善。实验结果表明exMCP的推测执行成功率和对集群性能的改善都比MCP更好。关键词:MapReduce容错;推测执行;Hadoop;MapReduce;Hadoop调度II硕士学

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。