mapreduce模型下数据本地性负载平衡策略研究

mapreduce模型下数据本地性负载平衡策略研究

ID:34078566

大小:3.44 MB

页数:62页

时间:2019-03-02

mapreduce模型下数据本地性负载平衡策略研究_第1页
mapreduce模型下数据本地性负载平衡策略研究_第2页
mapreduce模型下数据本地性负载平衡策略研究_第3页
mapreduce模型下数据本地性负载平衡策略研究_第4页
mapreduce模型下数据本地性负载平衡策略研究_第5页
资源描述:

《mapreduce模型下数据本地性负载平衡策略研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、万方数据分类号UDC密级——单位代码量Q量51MapReduce模型下数据本地性负载平衡策略研究陈一指导教师刘朝斌职称教授学位授予单位大连海事大学申请学位级别工学硕士学科(专业)计算机科学与技术论文完成日期2014年10月答辩日期2014年11月答辩委员会主席万方数据

2、JJI

3、

4、II

5、

6、川川fjI川删fI』JIⅢI

7、

8、JjⅢY2696529TheResearchofLoadBalancinginMapReduceBasedonDataLocali锣AtllesisSubmittedt0DaUanMari廿meUniversi锣I

9、npa州almlnllmentof也erequirementSfornledegI-eeofMasterofEn昏neeringbyChenYi(ComputerScienceandTechnology)ThesisSupeI”visor:ProfbssorLiuZhaobin0ctober2014万方数据大连海事大学学位论文原创性声明和使用授权说明原创性声明本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取得的成果,撰写成博/硕士学位论文==M业墼血£星槿型王数据奎地性鱼麴垩煎筮略硒塞::。除论文中已经注明引用的内容外

10、,对论文的研究做出重要贡献的个人和集体,均己在文中以明确方式标明。本论文中不包含任何未加明确注明的其他个人或集体已经公开发表或未公开发表的成果。本声明的法律责任由本人承担。学位论文作者签名:/学位论文版权使用授权书本学位论文作者及指导教师完全了解大连海事大学有关保留、使用研究生学位论文的规定,即:大连海事大学有权保留并向国家有关部门或机构送交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连海事大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论文。同意将本学位

11、论文收录到《中国优秀博硕士学位论文全文数据库》(中国学术期刊(光盘版)电子杂志社)、《中国学位论文全文数据库》(中国科学技术信息研究所)等数据库中,并以电子出版物形式出版发行和提供信息服务。保密的论文在解密后遵守此规定。本学位论文属于:保密口在——年解密后适用本授权书。不保密衫(请在以上另框内打“√,,)⋯粼:钫t/⋯锄锄日期:≯汐/节年//月Z日万方数据中文摘要摘要随着社会的发展,互联网中的数据信息处于爆炸式的增长状态,每天互联网中都会产生海量的数据。可以想象,以后人们所面临的数据规模会越来越巨大。从这些巨大的数据中如何能够快

12、速高效地寻找到有价值的数据资源变得越来越重要。正是在这样的背景下,云计算这个新型的数据处理技术正在快速的发展。MapReduce是云计算技术中的一种并行处理大规模数据的处理模型,它具有简单易用、高可扩展性和高容错性的特点,因此被广泛应用于云计算领域。Hadoop平台是MapRcduce编程模型一个具体的应用,目前许多公司和高校都采用它开发和研究云计算技术。然而,它的一些处理机制影响着它性能的发挥。当面对倾斜数据时,原有的分区算法无法均衡的分配数据到各处理节点,这样就导致了处理节点问负载不平衡,并且造成网路负载加重,从而导致集群性

13、能的降低。本文所提出的方法针对MapReduce作业过程中的Panition部分的分区算法进行调整和优化,设计实现了一个基于数据本地性的负载均衡策略(DALP)。通过合理的抽样,对作业数据进行预处理,分析出数据中各key的频数分布情况,然后利用分析的数据制定一个数据聚合策略(DA),该策略考虑了key的数据大小,可以更加合理地为各Reduce节点分配数据,能有效地缓解集群节点的负载不平衡问题,提高了集群整体性能。此外,针对集群中网络带宽制约集群性能的问题,结合对平台数据本地性的深入研究,又提出了一个基于数据本地性的数据分配策略(

14、LP),在数据聚合的基础上利用本地性数据分配方法,能够有效减少集群间数据流动情况,减少网络负载。本文所提出的方法通过实验得到了充分验证,数据倾斜时的负载问题得到了有效地改善。关键词:云计算;_apReduce;负载均衡;本地性万方数据英文摘要Withtller印iddeVelopmentofsociety'thedatasizeofiIlforI】1ationthatmImemctise)叩10sivegr0、玑h.M孙sdataiSgenerated丘omIntcmeteVe叫day.Itisabigchallenget0pe

15、opletof.mdawaytllatcallquicklyande伍cientlyprocessmassdata.Intllisbacl曾ound,c10udc01日putillg—atecllllologywhichailllstoprocessla唱e-s

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。