基于late的hadoop数据局部性改进调度算法

基于late的hadoop数据局部性改进调度算法

ID:33326644

大小:660.05 KB

页数:4页

时间:2019-02-24

基于late的hadoop数据局部性改进调度算法_第1页
基于late的hadoop数据局部性改进调度算法_第2页
基于late的hadoop数据局部性改进调度算法_第3页
基于late的hadoop数据局部性改进调度算法_第4页
资源描述:

《基于late的hadoop数据局部性改进调度算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第38卷第11期计算机科学Vol.38No.112011年11月ComputerScienceNov2011基于LATE的Hadoop数据局部性改进调度算法李丽英唐卓李仁发(湖南大学计算与通信学院长沙410082)摘要调度问题是目前云计算研究中的热点问题,其目的是如何协同云计算资源,使其得到充分合理的利用。数据局部性是特定云平台Hadoop的主要特性之一。针对该特性,在Hadoop原有调度算法LATE的基础上提出了一种基于数据局部性的改进算法,以解决数据局部性带来的慢任务备份执行时读取数据要占用大部分时间而影响其处理速率的问题。最后,对该算法进行了实验及性能分析,并验证了算

2、法在提高任务的响应时间和整个系统吞吐率方面有很大改进。关键词Hadoop,MapReduce,LATE,数据局部性中图法分类号TP393.03文献标识码ANewImprovementoftheHadoopRelevantDataLocalitySchedulingAlgorithmBasedonLATELILi-yingTANGZhuoLIRen-fa(SchoolofComputerScienceandCommunication,HunanUniversity,Changsha410082,China)AbstractInthepresent,schedulingprob

3、lemisahotcloudcomputationresearchissues,andthepurposeistocoordi-natethecloudcomputationresourcestobefullyrationaluse.DatalocalityisoneofthemainpropertiesintheparticularcloudplatformforHadoop.Thepaperdiscussedtheproperty,proposedanewimprovementoftheHadooprelevantdatalocalityschedulingalgori

4、thmbasedonLATE.Thealgorithmmainlysovesthebakeupofslowtaskperformancepro-blemwhicharisesduringtheimplementationofdataread,takingmostofthetimeandenventlyinfluencingitsprocess-ingspeed.Finally,carriedonexperimenttothealgorithmandanalyzedthefuncation,verifiedthealgorithmtoimprovetheresponsetim

5、eandthewholesystemthroughput.KeywordsHadoop,MapReduce,LATE,Datelocality[5,6]局部性优化问题最开始是从Active_disks等技术研究中1引言产生的,把计算尽量放在靠近本地硬盘中,以减少数据传输带[1][7],由于它主要是Hadoop是最近几年发展比较成熟的云计算平台之一,来的I/O和网络消耗。网格系统调度器中其技术已经在互联网领域得到广泛的应用,同时得到研究界处理CPU-密集型作业,数据局部性问题也只是基于地理位的普遍关注。Hadoop主要由HDFS(HadoopDistributedFile置层

6、次上的探讨。据统计,一个工作的输入数据存储节点在[2]。MapReduce主System)和MapReduce引擎两个部分构成集群整个节点数中所占的比例将决定相应任务会在本地数据要用于并行任务处理,大规模的并行处理使得MapReduce的节点中进行处理的比例。Hadoop面临的数据局部性问题异任务调度变得尤为重要。Hadoop是在假定了很多条件的基常突出,产生这些问题的主要原因是Hadoop集群中的对等础上解决任务调度问题,例如假设所有的节点具有相同的性网路带宽相比一个节点上硬盘的总带宽要小得多。Hadoop能、任务执行是以不变的速度进行的、自带的备份任务执行策集群资源又是

7、共享的,这样节点之间传输数据时是双向通信,略并不消耗任何资源。这些假设在异构且资源共享的云环境大量数据的传输会占用大部分网络资源,从而影响整个系统下很多是不成立的,其必然会影响到平台的调度性能,尤其已的吞吐率,最终影响任务的响应时间。有MapReuce调度大多数都没有根据Hadoop平台的特殊性本文主要研究MapReduce的任务调度问题,分析现有的做具体问题的分析以及提出解决问题的办法。[8]MapReduce已采用的任务算法,最后针对LATE算法的不Hadoop作为一个处理海量数据的云计算平台,会有大量足进行改

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。