欢迎来到天天文库
浏览记录
ID:34384242
大小:2.99 MB
页数:4页
时间:2019-03-05
《hadoop平台在云计算中的应用new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、软件2011年第32卷第4期Software国际IT传媒品牌Hadoop平台在云计算中的应用王宏宇(哈尔滨理工大学计算机科学与技术学院,黑龙江哈尔滨150080)摘 要:云计算是当前比较热门的新兴技术之一,受到业界的广泛关注。Hadoop是一个可实现大规模分布式计算的开源软件平台,因此被广泛应用在云计算领域。本文在对Hadoop的主要组件Hadoop分布式文件系统HDFS(HadoopDistributedFileSystem)和计算模型MapReduce进行深入分析和研究的基础上,建立基于Hadoop平台的云计算模型,通过实验证明该模型可以有效完成分布式数据处理任务。关键词:云计算;Ha
2、doop;HDFS;MapReduce中图分类号:TP338.8 文献标识码:A DOI:10.3969/j.issn.1003-6970.2011.04.012AnapplicationofHadoopplatformincloudcomputingWANGHong-yu(Schoolofcomputerscienceandtechnology,HarbinUniversityofScienceandTechnology,Harbin150080)【Abstract】Currently,cloudcomputingisoneofthemorepopularemergi
3、ngtechnologies,drawingmuchattentionbyindustry.Ha-doopisanopen-sourcesoftwarewhichcanachievelarge-scaledistributedcomputing,soitiswidelyusedincloudcomputing.Thispaperwilldoin-depthanalysisandresearchonthemaincomponetofHadoopincludeHDFS(HadoopDistributedFileSystem)andcomputingmodelMapReduce,thenesta
4、blishacloudcomputingmodelbasedonHadoop,Theexperimentshowsthatthemodelcaneffectivelycom-pletethedistributeddataprocessingtasks.【Keywords】Cloud-Computing;Hadoop;HDFS;MapReduce0 引言ApacheHadoop项目包括多个子项目,但主要是由Ha-doop分布式文件系统HDFS和计算模型MapReduce两个主[1]云计算是一种新兴的计算模型,它是并行计算、分布式要的子项目组成。计算、网格计算的综合发展,或者说是这些计算科学概
5、念的商业实现。它的基本原理是将计算、存储及软硬件等服务分布在非本地的大量计算机构成的资源池上,用户通过网络获得相应的服务,从而有效的提高资源利用率,实现了真正的按需获取。目前云计算模型众多,但多为商业模型,而Hadoop作为开源图1Hadoop集群的整体部署结构的云计算模型,它模仿和实现了Google云计算的主要技术,并1.1 Hadoop分布式文件系统HDFS且使用Java语言编写,可移植性强,为个人和企业进行云计算[4]HDFS被设计成适合运行在通用硬件上的分布式文件系方面的研究和应用奠定了基础。统,它和现有的分布式文件系统有很多共同点,但同时,它和其1 Hadoop介绍他的分布式文件
6、系统的区别也显而易见。HDFS是一个具有高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高[2]Hadoop是由Apache开源组织的一个分布式计算框架,吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS可以在大量廉价的硬件设备组成的集群上运行应用程序,为应[5]设计是基于如下的前提和目标:用程序提供了一组稳定可靠的接口,旨在构建一个具有高可靠(1)硬件错误是常态而非异常:HDFS可能有成百上千的[3]性和良好扩展性的分布式系统。Hadoop的主要优点有:扩服务器组件构成,每个组件上存储着文件系统的部分数据。任容能力强、成本低廉、效率高、高可靠性、免费开源及良好的可何一个组件
7、失效都是有可能的,也就意味着总有一部分HDFS移植性。的组件是不正常工作或者不工作的。如此一来,错误检测和快Hadoop集群是典型的Master/Slaves结构,NameNode速、自动化地恢复是HDFS最核心的设计目标之一。与JobTracker为Master,DataNodes与TaskTrackers为(2)数据流式访问:HDFS的设计中更多地考虑到了数据Slaves。NameNode与DataNodes负责完成
此文档下载收益归作者所有