基于hadoop的云计算应用研究

基于hadoop的云计算应用研究

ID:26890374

大小:2.74 MB

页数:81页

时间:2018-11-29

基于hadoop的云计算应用研究_第1页
基于hadoop的云计算应用研究_第2页
基于hadoop的云计算应用研究_第3页
基于hadoop的云计算应用研究_第4页
基于hadoop的云计算应用研究_第5页
资源描述:

《基于hadoop的云计算应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、电子科技大学UNIVERSITYOFELECTRONICSCIENCEANDTECHNOLOGYOFCHINA硕士学位论文MASTERTHESIS论文题目基于Hadoop的云计算应用研究学科专业信息安全学号201121060110作者姓名李娇龙指导教师李建平教授、博导分类号密级注1UDC学位论文基于Hadoop的云计算应用研究(题名和副题名)李娇龙(作者姓名)指导教师李建平教授、博导电子科技大学成都(姓名、职称、单位名称)申请学位级别硕士学科专业信息安全提交论文日2014.3论文答辩日期2014.5.28学位授予单位和日期电子科技大学2014年6月日答辩委员会主席

2、评阅人注1:注明《国际十进分类法UDC》的类号。RESEARCHONTHEAPPLICATIONOFCLOUDCOMPUTINGBASEDONHADOOPAMasterThesisSubmittedtoUniversityofElectronicScienceandTechnologyofChinaMajor:InformationSecurityAuthor:LiJiao-longAdvisor:Prof.LiJian-pingSchool:SchoolofComputerScience&Engineering独创性声明本人声明所呈交的学位论文是本人在导师指导下

3、进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。作者签名:日期:年月日论文使用授权本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文

4、。(保密的学位论文在解密后应遵守此规定)作者签名:导师签名:日期:年月日摘要摘要伴随着近几年电子商务、社交网络等互联网应用的迅猛发展,作为信息产业 界的一个重要创新云计算一经被提出就受到大家的关注。行业各巨头也都在云计 算领域推出了自己的产品。在此之中,集Google的MapReduce和GFS的开源实 现的Hadoop平台受到业界的好评。其主要子项目MapReduce和HDFS为分布式 数据提供了可靠的计算和存储,但随着行业的发展,它们也会在某些应用场景中面临效率下降的问题,这将影响Hadoop平台的长足发展。本论文以Hadoop分布 式文件系统HDFS和Map

5、Reduce编程模型作为主要的研究对象,主要内容为: 主要首先对云计算和Hadoop相关基础理论做了详细的介绍。其中涉及到云计 算产生的背景概念、基本特征及部署模式,并详细分析云计算基础框架、体系结 构以及涉及的关键技术。然后对Hadoop平台系统的产生背景,子项目以及框架进 行介绍,重点分析了Hadoop的HDFS和MapReduce,包括对HDFS体系结构、文 件读写以及数据的完整性措施等进行论述。在讨论MapReduce理论时,重点对编 程模型的基本原理、计算流程以及MRv1和MRv2的实现框架进行了讨论与研究。 在介绍MapReduce实现框架基础上分析了

6、其性能瓶颈:MapReduce的Mapper 会产生大量结果,而这时的Reducer并没有被调用来合并这些中间结果,增加了网 络传输大量中间结果的负担以及造成Reducer的闲置,在总体上降低了MapReduce 的效率。本文针对这一问题提出了优化方案EMR,在其实现框架中,使用MPI技 术使Reducer与Mapper并行运行处理中间结果,同时介绍了MPI相关使用和实现。 分析了HDFS在处理大量小文件时的性能瓶颈并针对这个问题提出了优化方 案:使用HAR技术将小文件的元数据整合到大文件目录下,降低NameNode维护 目录元数据的内存占用率,同时还对NameN

7、ode的元数据进行了研究和学习。 为了验证以上两方面的优化方案在性能上的提升,本文采用开源平台Hadoop 来进行实验。第一个实验以运行时间作为衡量的标准,结果证本优化方案EMR的 效率更高一些。第二个实验同样以Hadoop平台为基础进行的,通过结果对比可知, 本文在处理大量小文件问题上能减少小文件的元数据的数量,提高NameNode执 行效率。关键词:云计算,Hadoop,MapReduce,HDFSIABSTRACTABSTRACTWiththerapiddevelopmentofe-commerce,socialnetworkingandotherInter

8、netap

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。