欢迎来到天天文库
浏览记录
ID:37089554
大小:1.61 MB
页数:65页
时间:2019-05-17
《基于异构Hadoop集群的MapReduce任务调度算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号:学校代码:10697密级:公开学号:硕士学位论文MASTER’SDISSERTATION基于异构Hadoop集群的MapReduce任务调度算法研究学科名称:计算机应用技术作者:王猛指导老师:吴奇石西北大学学位评定委员会二○一八年1DesignofMapReduceTaskSchedulingAlgorithmsinHeterogeneousHadoopClusterAthesissubmittedtoNorthwestUniversityinpartialfulfillmentoftherequire
2、mentsforthedegreeofMasterinComputerApplicationsTechnologyByWangMengSupervisor:QiShiWuProfessorJune2018摘要摘要随着互联网应用的快速发展,人类已经正式进入了信息爆炸的时代,当数据量达到一定的规模时,常规的单机计算模式已经无法满足用户的需求,为了解决这种情况,提出了分布式计算框架与云计算。在过去的十年里,一些分布式计算框架已经被开发出来,与其他计算框架相比,HadoopMapReduce是一个非常受欢迎的分布式计算
3、框架。随着集群处理数据量的增长,如何提高集群的性能已经成为亟待解决的问题。影响Hadoop集群性能的因素有很多,Hadoop调度器是一个关键性元素,它对Hadoop集群性能有着巨大的影响。本文考虑了一个MapReduce任务调度问题:当用户提交一批作业到集群时,如何安排作业中任务的执行序列使得作业的完成时间最小。为了解决这个问题,本文提出了一个map任务执行时间预测模型,用来预测作业中任务的完成时间。此外,本文还提出一个基于异构集群的启发式MapReduce任务匹配调度算法。该算法不仅考虑集群中每个节点的实时性
4、能,还考虑到每个执行节点和不同任务的匹配程度,来对Hadoop中任务队列中的任务进行调度,加快作业完成时间。本文的研究内容,主要包括以下几个方面:(1)提出一个MapReduce任务调度问题,并证明MapReduce任务调度问题是NP完全问题。(2)为解决map任务数据本地性问题,提出了一种map任务执行时间预测模型。该预测模型是基于回归分析预测任务的执行时间,找出最早完成任务对应的节点,并结合调度算法找出与该节点最匹配的任务,可以提前把任务的数据传输到该节点上,减少数据传输时间,从而减少作业的完成时间。(3)
5、为了解决MapReduce任务调度问题,提出一种启发式MapReduce任务匹配调度算法。该算法不仅考虑到集群中每个节点的实时性能,还考虑到节点与任务的匹配程度,对Hadoop中任务队列中的任务进行调度。(4)分别在小规模Hadoop集群和CloudSim仿真平台对本文提出的map任务执行时间预测模型、启发式MapReduce任务匹配调度算法进行实验。对于不同的测试程序,实验结果表明本文提出启发式MapReduce任务匹配调度算法与FIFO算法和DPMQS算法相比,分别减少35.1%,29.2%和18.5%,1
6、3.7%的作业完成时间。对于map任务执行时间预测模型,在一定规模的训练集下,预测模型的精确度可以接近I西北大学硕士学位论文90%。关键词:分布式计算框架,Hadoop,MapReduce,Yarn,调度器IIABSTRACTABSTRACTTherapiddevelopmentofInternetapplicationshasledtotheeraofinformationexplosion.Mostofsuchdataarenonrelational,ineitherunstructuredorsemi-s
7、tructuredformat,andthedatavolume,evengeneratedonadailybasis,hasgonefarbeyondthestoragecapacityandprocessingcapabilityofanyconventionalstand-alonecomputer.Distributedcomputingcoupledwithcloudcomputinghasprovedtobeaneffectivesolution.Inthepastdecade,severaldis
8、tributedcomputingframeworkshavebeendeveloped,andusedforbigdataprocessing.MapReduceisoneofthemostpopularframeworksontheHadoopplatformwithdistributedstorageandparallelprocessing.Asthedatavolumecon
此文档下载收益归作者所有