基于异构Hadoop集群的MapReduce任务调度算法研究

基于异构Hadoop集群的MapReduce任务调度算法研究

ID:37089554

大小:1.61 MB

页数:65页

时间:2019-05-17

基于异构Hadoop集群的MapReduce任务调度算法研究_第1页
基于异构Hadoop集群的MapReduce任务调度算法研究_第2页
基于异构Hadoop集群的MapReduce任务调度算法研究_第3页
基于异构Hadoop集群的MapReduce任务调度算法研究_第4页
基于异构Hadoop集群的MapReduce任务调度算法研究_第5页
资源描述:

《基于异构Hadoop集群的MapReduce任务调度算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号:学校代码:10697密级:公开学号:硕士学位论文MASTER’SDISSERTATION基于异构Hadoop集群的MapReduce任务调度算法研究学科名称:计算机应用技术作者:王猛指导老师:吴奇石西北大学学位评定委员会二○一八年1DesignofMapReduceTaskSchedulingAlgorithmsinHeterogeneousHadoopClusterAthesissubmittedtoNorthwestUniversityinpartialfulfillmentoftherequire

2、mentsforthedegreeofMasterinComputerApplicationsTechnologyByWangMengSupervisor:QiShiWuProfessorJune2018摘要摘要随着互联网应用的快速发展,人类已经正式进入了信息爆炸的时代,当数据量达到一定的规模时,常规的单机计算模式已经无法满足用户的需求,为了解决这种情况,提出了分布式计算框架与云计算。在过去的十年里,一些分布式计算框架已经被开发出来,与其他计算框架相比,HadoopMapReduce是一个非常受欢迎的分布式计算

3、框架。随着集群处理数据量的增长,如何提高集群的性能已经成为亟待解决的问题。影响Hadoop集群性能的因素有很多,Hadoop调度器是一个关键性元素,它对Hadoop集群性能有着巨大的影响。本文考虑了一个MapReduce任务调度问题:当用户提交一批作业到集群时,如何安排作业中任务的执行序列使得作业的完成时间最小。为了解决这个问题,本文提出了一个map任务执行时间预测模型,用来预测作业中任务的完成时间。此外,本文还提出一个基于异构集群的启发式MapReduce任务匹配调度算法。该算法不仅考虑集群中每个节点的实时性

4、能,还考虑到每个执行节点和不同任务的匹配程度,来对Hadoop中任务队列中的任务进行调度,加快作业完成时间。本文的研究内容,主要包括以下几个方面:(1)提出一个MapReduce任务调度问题,并证明MapReduce任务调度问题是NP完全问题。(2)为解决map任务数据本地性问题,提出了一种map任务执行时间预测模型。该预测模型是基于回归分析预测任务的执行时间,找出最早完成任务对应的节点,并结合调度算法找出与该节点最匹配的任务,可以提前把任务的数据传输到该节点上,减少数据传输时间,从而减少作业的完成时间。(3)

5、为了解决MapReduce任务调度问题,提出一种启发式MapReduce任务匹配调度算法。该算法不仅考虑到集群中每个节点的实时性能,还考虑到节点与任务的匹配程度,对Hadoop中任务队列中的任务进行调度。(4)分别在小规模Hadoop集群和CloudSim仿真平台对本文提出的map任务执行时间预测模型、启发式MapReduce任务匹配调度算法进行实验。对于不同的测试程序,实验结果表明本文提出启发式MapReduce任务匹配调度算法与FIFO算法和DPMQS算法相比,分别减少35.1%,29.2%和18.5%,1

6、3.7%的作业完成时间。对于map任务执行时间预测模型,在一定规模的训练集下,预测模型的精确度可以接近I西北大学硕士学位论文90%。关键词:分布式计算框架,Hadoop,MapReduce,Yarn,调度器IIABSTRACTABSTRACTTherapiddevelopmentofInternetapplicationshasledtotheeraofinformationexplosion.Mostofsuchdataarenonrelational,ineitherunstructuredorsemi-s

7、tructuredformat,andthedatavolume,evengeneratedonadailybasis,hasgonefarbeyondthestoragecapacityandprocessingcapabilityofanyconventionalstand-alonecomputer.Distributedcomputingcoupledwithcloudcomputinghasprovedtobeaneffectivesolution.Inthepastdecade,severaldis

8、tributedcomputingframeworkshavebeendeveloped,andusedforbigdataprocessing.MapReduceisoneofthemostpopularframeworksontheHadoopplatformwithdistributedstorageandparallelprocessing.Asthedatavolumecon

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。