基于platformlsf平台mapreduce的设计与实现

基于platformlsf平台mapreduce的设计与实现

ID:33442292

大小:1.10 MB

页数:70页

时间:2019-02-26

基于platformlsf平台mapreduce的设计与实现_第1页
基于platformlsf平台mapreduce的设计与实现_第2页
基于platformlsf平台mapreduce的设计与实现_第3页
基于platformlsf平台mapreduce的设计与实现_第4页
基于platformlsf平台mapreduce的设计与实现_第5页
资源描述:

《基于platformlsf平台mapreduce的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、西安电子科技大学学位论文独创性(或创新性)声明秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文若有不实之处,本人承担一切法律责任。本人签名:日期:西安电子科技大学关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生

2、在校攻读学位期间论文工作的知识产权单位属于西安电子科技大学。学校有权保留送交论文的复印件,允许查阅、借阅论文;学校可以公布论文的全部或部分内容,允许采用影印、缩印或其它复制手段保存论文。同时本人保证,获得学位后结合学位论文研究成果撰写的文章,署名单位为西安电子科技大学。保密的学位论文在年解密后适用本授权书。本人签名:导师签名:日期:日期:摘要摘要MapReduce,一个强大的编程模型,逐渐成为一个广受欢迎的编程框架。它对于大规模的数据密集型计算是非常高效的。MapReduce编程模型有可能成为HPC(HighPerformanceComputing)环境中潜在的新方法

3、,而且很多人热衷于研究其适用性。MapReduce工作负载可能只占总工作负载的一小部分,但是它们通常需要自己的独立的环境,因此很难在传统的高性能计算集群中支持。HPC集群通常使用并行文件系统,比如IBMGPFS(globalparallelfilesystem)或者Lustre。IBMPlatformLSF(loadsharingfacility)为HPC环境提供高级资源管理和高级资源调度。LSF是一个企业级软件,在现存的异构IT资源上分配工作,创建一个共享的灵活的具有容错性的基础设施,在提供更快、更可靠的工作负载性能的同时降低成本。LSF最大限度地发挥HPC集群的性

4、能优势。HPC高性能计算利用并行处理高效、可靠并快速地运行高级应用程序。LSF用户希望在LSF环境下提交并运行MapReduce应用,因此IBM公司决定启动该项目,本人有幸参与其中。为了实现MapReduce应用在LSFHPC环境下运行,本文使用了两种方法。第一种方法,即LSF基于Hadoop实现MapReduce应用,允许用户提交HadoopMapReduce工作负载作为LSF常规并行作业且在HPC集群环境下运行,其中为用户提供一个脚本,用户将脚本和MapReduce工作作为LSF作业请求资源。一旦LSF作业启动运行,脚本就会在分配的资源上自动提供一个Hadoop集

5、群,用户不需要获得root特权就可以基于提供的资源在HPC环境下配置Hadoop集群。由于每个LSFHadoop作业拥有自己的资源/集群,因此本方法允许多个用户共享高性能计算集群资源的公共池。LSF使用blaunch技术来启动和监控LSF作业分配的Hadoop集群,以至于可以收集MapReduce工作负载以及控制整个作业生命周期。关于是否使用HDFS管理数据,本文都进行了实验,同时分别分析并比较了其性能。由于在作业运行之前需要进行Hadoop配置以及启动守护进程,在作业运行完成以后要进行清理工作,这些都增加了很大的开销。同时Hadoop集群的故障会直接导致MapRed

6、uce任务的失败。为了解决第一种方法的不足之处,本文提出了第二种方法第二种方法是MapReduce作业直接在LSFHPC环境中运行。在Hadoop框架中MapReduce与HDFS是紧密耦合的,因此需将其从MapReduce框架中提取出来,通过利用内在固有的分布式文件系统的功能,设计了所需的组件。首先是数据管理,其中包括输入数据管理和分布以及输出数据收集;其次是对MapReduce作业I西安电子科技大学硕士学位论文进行转换使其适用于HPC环境下的调度;最后是关于任务并行和同步控制,以及容错机制。MapReduce模型不仅体现了适用性同时也具备高性能。此设计使用了IBM

7、GPFS并行文件系统,同时利用了LSF完备的高级资源管理,高级资源调度以及健壮的容错机制等,这些对于MapReduce的高效性有很大的帮助。因此,MapReduce整合到LSF环境下就显得很有意义。关键词:MapReduce,LSF,HPC,GPFS,HDFS论文类型:工程设计IIABSTRACTABSTRACTMapReduce,apowerfulprogrammingmodel,isgraduallybecomingapopularframework.Itisveryefficientforlarge-scaledata-intensivecom

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。