欢迎来到天天文库
浏览记录
ID:33096638
大小:6.98 MB
页数:63页
时间:2019-02-20
《hadoop作业启动性能优化实践》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、多臻交姒挚专业硕士学位论文Hadoop作业Hi动性能优化实践ThePracticeOfHadoopJobPreParingOptimization作者:1二谦导师:李宇学位论文版权使用授权书本学位论文作者完全了解北京交通大学有关保留、使I+J学位论文的舰定。特授投北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索,提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向固家有关部门或机构送交论文的复印件和磁盘。(保密的学位论文在解密后通用本授权晓明)学位论文作者签名:j露雾镐字}I期:≯彬年7州Jf导师签名彦乎签字卜1北
2、玎:】。,2午7JJfrf中圈分类号:TP3164学校代码:10004密级:公开北京交通大学专业硕士学位论文Hadoop作业启动性能优化实践ThePracticeofHadoopJobPreParingOptimization作者姓名:王谦导师姓名:李宇工程领域:软件工。程学号:10125813职称:剐研究员学位级别:顾士北京交通大学致谢本论文的:[作是在我的导师李宇的悉心指导下完成的,李宇老师严谨的治学态度和科学的工作方法给了我极大的帮助和影响。在此衷心感谢三年来老师对我的关心和指导。车宇老师悉心指导我们完成了实验室的科研工作,在学习上和生活上部给予了我很大
3、的关心和帮助,在此ra]老师表示衷心的谢意。李字老岍j对于我的科研工作和
4、仑文都提出了许多的宝贵意见,在此表示衷心的感谢。另外也感谢家人,他们的理解和支持使我能够在学校专心完成我的学业。韭立窑堂厶芏芏堂亟±—望】立监皇主童趟墨中文摘要本论文阐述了本人在百度公司分布式计算小组工作过程中做过的一个优化HADOOP作业提交时间的项目。这个项目的重点在于优化在作业提交时split过程占用的时间和消耗的内存.这是作业提交过程中屉耗时的一步,
5、:!王是作业提交前的所有准备工作中最重要的一步,因为它直接关系到输入数掘如何分片.BIl最终决定了这个作业具有的map任务数量.以
6、及每一个map任务处理多少数据量,每个map任务优先给哪一个节点的TaskTracker来处理。在百度公司以前的HADOOP版本,以及目前社区的HADOOP版本-h。直以来都没有刘split这个过程进行过的大的修改或者优化,随着百度公司的HADOOP集群规模的扩大,人作业数量的增加,堆个作qt需要输入晌数据量越束越大,文件数量也越束也多+从而导致在提交俩Ik之前,对这些输入数据进行split过程暴露出了内存,i川人,牦时长的问题,这两个问题已经f”熏影l】m到百度HADOOP集群埘于犬作、№的处耻教率.片0f起了使川百度HADOOP壤群的百度数曲:挖掘,Fl志
7、分析等部门Hl户的卟满,㈧此,为了提高集群的处理效率,改善刷户体验.·必须要对split这一过程进行优化。本人独讧完成对split过袱的优化I作可以分为叫个部分,分别是获取blockLocations优化,Is过程输入路托『『:flllJ表达Jt。”问匹配剑立什的优化,getSplits占川内存过高优化和将站tSplit过枉移植到TaskTracker优化。这叫挪分优化分刖加速了获嫩blockLocation信息的速度,对于垃所路径操作托rwFI】屡匹配到文什这种情况迸行了加巡优化.对split内行优化使得split牲个过程巾r+一川内仃人I咐F降t并月可以使
8、内存占用4i依赖作业的输入数曲}量,而是依赖f川户指定的参数。将整个split过程从客户端移植到TaskTracker上可以释放客户端(fJ压力,并且利肘嗣集群删网络传输的优势束进一步节省split过程的耗时。鲐过本人肘split的优化.这删!E1已经成功上线了百度公刊HADOOP集群,并且达到了非常删想的效果。大作业的挺交时^;J从小时绒缩缸到了补钟绒,、r均split过程速_!I!:提川了30—60倍.【L粘个splitj_=』:柞内仔“,以稳定牲;IⅢ^200rob庀{,t竹1比2油随着怍业输入散拂:{trid4q1。Jr彬般f『J内行使嘲{^址午rⅡ以
9、边到3G以l:.内存的节省越凡人的。蛙终这个项¨赢订了部fJlid‘筘和刚厂1疗的好L卜笑键词:Hadoop;Split:内仔优化:叫n}l优化分类号:TP316.4业-五L童—遒—&』生JL些—监—L二己』L监—‘苤一———L吐上上生—生』AbstractThearticleaddressedmyworkexperienceaboutonep。叫ectforoptimizationofHADOOPJobPreParinginBaiduCompanyTheemphasisoftheprqectistooptimizetime—consumingandmemor
10、yusageontheSplitcou
此文档下载收益归作者所有