hadoop云平台中调度策略研究

hadoop云平台中调度策略研究

ID:35032161

大小:2.84 MB

页数:72页

时间:2019-03-16

hadoop云平台中调度策略研究_第1页
hadoop云平台中调度策略研究_第2页
hadoop云平台中调度策略研究_第3页
hadoop云平台中调度策略研究_第4页
hadoop云平台中调度策略研究_第5页
资源描述:

《hadoop云平台中调度策略研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号TP393密级公开UDC004学位论文编号D-10617-30852-(2016)-02046重庆邮电大学硕士学位论文中文题目Hadoop云平台中调度策略研究英文题目ResearchonSchedulingStrategyBasedonHadoop学号S130231047姓名闫辰云学位类别工程硕士学科专业计算机技术指导教师尚凤军教授完成日期2016年4月15日重庆邮电大学硕士学位论文摘要摘要在大数据时代,传统数据计算和数据存储能力已经无法满足不断增长变化的需求,云计算技术应运而生。其中,Hadoop是从Google云计算技术中衍生而来的开源实现,并成为了Apache基金会的顶级项目

2、,为大数据时代注入了强大的云计算中坚力量。然而,随着Hadoop持续改进,集群规模迅速增长,集群资源(网络、存储等资源)逐渐成为系统瓶颈。研究调度策略就是从资源管理及分配的角度对Hadoop系统进行研究和改进。本文主要工作由两部分组成,分别是基于数据本地性的Reduce任务调度策略和基于带宽感知的备份任务调度策略。1.基于数据本地性的Reduce任务调度策略。在MapReduce阶段,集群网络中主要有两种数据流,分别是shuffle远程拷贝数据和慢任务迁移,这两种重叠的突发式数据传输可能会形成网络瓶颈。为降低远程拷贝数据量,结合数据本地性原理,建立了网络资源消耗计算模型(MNRC)。它用

3、于评估Reduce任务节点的网络资源消耗量。基于此模型,为Reduce任务设计了以网络资源消耗代价为参考的延时调度策略。最后,设计仿真实验加以验证,改进策略减少了shuffle阶段跨机架的数据传输量,在异构集群中网络资源节省平均效率为7.5%。2.基于带宽感知的备份任务调度策略。在LATE机制中部分备份任务并不比原始慢任务更早结束,这不仅无法缩短任务运行时间,而且浪费了系统资源。本文在LATE备份任务调度中加入慢任务剩余时间与备份任务运行时间的对比。其中,备份任务的运行时间包含了输入数据的网络传输时间,带宽为相应链路的实时带宽。基于此改进思路,本文首次将SDN与备份任务调度相结合,提出了

4、基于SDN带宽感知的备份任务运行时间估计模型(BWRE),利用此模型较准确的预估备份任务运行时间。并且,利用SDN带宽保障为备份任务拷贝输入数据保障带宽。最后,设计仿真实验加以验证,相对于LATE机制,在作业周转时间方面平均缩短了9.85%。关键词:Hadoop,任务调度,数据本地性,SDN,LATEI重庆邮电大学硕士学位论文AbstractAbstractIntheeraofbigdata,thetraditionalcapacityofcomputingandstoraginghasbeenunabletomeetthegrowingdemand.Inthiscase,CloudCo

5、mputingtechnologyemerging.Wherein,HadoopisanopensourceversionderivedfromGoogle'sCloudComputingtechnology,andhasbecameatop-levelprojectoftheApache,providingthebackbonefortheeraofbigdata.However,withthedevelopmentoftheHadooptechnology,clusterscaleexpandingquickly,andtheclusterresources(network,stor

6、ageandotherresources)isbecomingasystembottleneckofHadoop.ResearchingontaskschedulingisawayfromtheperspectiveofresourceallocationandmanagementtoimproveperformanceofHadoopsystem.Thisthesis,combiningwithdata-localityandSDN,improvedschedulingstrategiesforReduceTaskandLATE’sspeculativetask.1.AReduceTa

7、skschedulingstrategythatbasedondata-localityisimproved.InMapReducestage,therearetwomaindatastreamsinclusternetwork,theyareslowtaskmigrationandremotecopiesofdata.Thetwooverlappingburstdatatransfercaneasilybecomebottlene

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。