基于hadoop架构的分布式计算和存储技术及其应用

基于hadoop架构的分布式计算和存储技术及其应用

ID:15553121

大小:36.00 KB

页数:11页

时间:2018-08-04

基于hadoop架构的分布式计算和存储技术及其应用_第1页
基于hadoop架构的分布式计算和存储技术及其应用_第2页
基于hadoop架构的分布式计算和存储技术及其应用_第3页
基于hadoop架构的分布式计算和存储技术及其应用_第4页
基于hadoop架构的分布式计算和存储技术及其应用_第5页
资源描述:

《基于hadoop架构的分布式计算和存储技术及其应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于Hadoop架构的分布式计算和存储技术及其应用第27卷第1期2011年2月上海电力学院JournalofShanghaiUniversityofElectricPowerVo1.27.No.1Feb.2Ol1文章编号:1006—4729(2011)ol一0070一O5基于Hadoop架构的分布式计算和存储技术及其应用田秀霞,周耀君,毕忠勤,彭源(上海电力学院计算机与信息工程学院,上海200090)摘要:介绍了Hadoop架构的主要构成,通过一个实例详细阐述了Hadoop架构的MapReduce实现机制

2、;开发了一个基于Hadoop架构职工工资统计应用实例,并根据该实例分析了其在单节点模式,伪分布模式和完全分布模式应用中的运行效率.关键词:Hadoop架构;MapReduce机制;分布式文件系统中图分类号:TP333;TP316.4文献标识码:ATheTechnologyandApplicationofDistributedComputingandStorageBasedonHadoopArchitectureTIANXiu—xia,ZHOUYao-jun,BIZhong-qin,PENGYuan(Sch

3、oolofComputerandInformationEngineering,ShanghaiUniversityofElectricPower,Shanghai200090,China)Abstract:ThekeycomponentsofHadoopareintroducedfirst,thentheMapReduceimplementationmechanismisanalyzed.Whatismoreimportant,anapplicationforstatisticsofemployeesal

4、aryisdevelopedandtheefficiencycomparisonisgiveninthethreedifferentapplications,namely,thesinglenodemodel,pseudo—distributionmodelandthefulldistributionmode1.Keywords:Hadooparchitecture;MapReducemechanism;distributedfilesystem在硬盘存储容量快速增加的同时,访问速度,即数据从硬盘读取的速

5、度未能快速提高.1990年,一个普通的硬盘驱动器可以存储1370MB的数据并拥有4.4MB/s的传输速度,只需5min就可以读取整个磁盘的数据.2O年后的今天,海量数据的出现使得使用lTB存储容量的磁盘驱动器已很正常,由于数据传输速度在100MB/s左右,需要花2.5h以上才能读取整个驱动器的数据¨'2J.如果可以一次从多个磁盘上读取数据,那么可以大大提高数据访问效率.若拥有100个磁盘,每个磁盘存储1%的数据,让它们并行运行,那么不到2min就可以读完存储的所有数据.Hadoop架构的引入使建立大型商业

6、集群,解决超大数据量处理的瓶颈难题成为可能,改善了传统海量数据访问带来的访问效率低下的状况.本文基于Hadoop架构设计了职工工资统计实例,并对该实例在单节点模式,伪分布模式和完全分布模式应用中的运行效率进行了分析和比较.收稿日期:2010—07—12通讯作者简介:田秀霞(1976一),女,在读博士,副教授,河南汤阴人.主要研究方向为信息安全,数据库安全,隐私保护.E—mail:tianxxsmile@yahoo.com.an.田秀霞,等:基于Hadoop架构的分布式计算和存储技术及其应用711Hadoo

7、p的工作原理Hadoop是Apache软件基金会所研发的分布式基础架构-3J,于2005年推出,它使用分布式文件系统(HadoopDistributedFileSystem,HDFS)作为低层存储支持.HDFS有着高容错性的特点,并将其设计部署在低廉的硬件设备上,以提供高传输率来访问应用程序的数据,适合那些有着超大数据集的应用程序.目前国内外着名的公司如Yahoo,阿里巴巴,百度,Facebook等都建立了基于Hadoop的应用.下面分别从Hadoop的MapRe—duce实现机制和HDFS低层存储来说明

8、如何构建基于Had~p的分布式应用.1.1MapReduce实现机制Hadoop是MapReduce的实现J,而MapRe—duce的工作过程一般分为两个阶段:map阶段和reduce阶段.每个阶段都有一批关键值对<key,value>作为输人,而另一批关键值对<key,value>作为输出.关键字的类型可以由程序员选择设定.程序员可以根据实际应用具体设计两个函数的实现体,在map阶段输入的是原始数据,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。