欢迎来到天天文库
浏览记录
ID:33818607
大小:318.54 KB
页数:5页
时间:2019-02-28
《基于hadoop架构的分布式计算和存储技术及其应用20575new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、万方数据第27卷第l期2011年2月上海电力学院学报Jo啪alofSh柚ghajUnjV懿时ofElo响cPow盯V01.27.No.1Feb.20ll文章编号:1006—4729(2011)01—00r70—05基于Hadoop架构的分布式计算和存储技术及其应用田秀霞,周耀君,毕忠勤,彭源(上海电力学院计算机与信息工程学院,上海200090)摘要:介绍了Had∞p架构的主要构成,通过一个实例详细阐述了Had∞p架构的MapReduce实现机制;开发了一个基于H8do叩架构职工工资统计应用实例,并根据该实例分析了其在单节点模式、伪分布模式和完全分布模式应用
2、中的运行效率.关键词:Hado叩架构;M印Reduce机制;分布式文件系统中图分类号:1玛33;伪16.4文献标识码:ATheTechnologyandApplicationofDistributedComputingandStorageB嬲edonHadoopArcllitectureT队NXiu-xia,ZHOUYao-jun,BIZhong-qin,PENGYu肌(&b甜矿cD玎妒姚ra以删钿,lat幻忭西硒册扒昭,肌8咖f№如矿姗凡聊,舶口增hi200090,傩i胁)AbS岫喊:-11lekeycomp∞entsofHadoopamintroldu
3、cedfi赋,tlIentlleM印ReduceiⅡ甲l锄e吡m册mech锄i锄isallalyzed.WhatisInoreimport粕t,觚印plic撕∞forstatisticsofemployeesala町isdeve岫d锄dtlIeefficiencycomp撕s锄is舀venint}letlIreedi能舱nt印plicalions,咖ely,thesinglenodemodel,p∞udo-dis斑butionmodel蚰dtlle缸lldistributionmodeLKeywOrds:Hadooparchitectur{e;MapRed
4、ucemechaIIi锄;distributedfilesystem在硬盘存储容量快速增加的同时,访问速度,即数据从硬盘读取的速度未能快速提高.1990年,一个普通的硬盘驱动器可以存储1370MB的数据并拥有4.4MB/s的传输速度,只需5min就可以读取整个磁盘的数据.20年后的今天,海量数据的出现使得使用lTB存储容量的磁盘驱动器已很正常,由于数据传输速度在100MB/s左右,需要花2.5h以上才能读取整个驱动器的数据¨’2J.如果可以一次从多个磁盘上读取数据,那么可以大大提高数据访问效率.若拥有100个磁盘,每个磁盘存储l%的数据,让它们并行运行.那
5、么不到2IIlin就可以读完存储的所有数据.Hadoop架构的引入使建立大型商业集群、解决超大数据量处理的瓶颈难题成为可能,改善了传统海量数据访问带来的访问效率低下的状况.本文基于Hadoop架构设计了职工工资统计实例,并对该实例在单节点模式、伪分布模式和完全分布模式应用中的运行效率进行了分析和比较.收稿日期:20lO一0r7一12通讯作者简介:田秀霞(19r76一),女,在读博士,副教授,河南汤阴人.主要研究方向为信息安全,数据库安全,隐私保护.E·础lil:ti肌船噶mik@yall∞.c锄.cn.万方数据田秀霞,等:基于Hadoop架构的分布式计算和
6、存储技术及其应用7l1Hadoop的工作原理Hadoop是Apache软件基金会所研发的分布式基础架构∞'4】.于2005年推出,它使用分布式文件系统(HadoopDist曲utedFilesystem,HDFs)作为低层存储支持.HDFS有着高容错性的特点,并将其设计部署在低廉的硬件设备上,以提供高传输率来访问应用程序的数据,适合那些有着超大数据集的应用程序.目前国内外著名的公司如Yalloo,阿里巴巴,百度,F舵ebook等都建立了基于Hadoop的应用.下面分别从Had00p的M印Re—duce实现机制和HDFS低层存储来说明如何构建基于Hado叩的
7、分布式应用.1.1Map&血l∞实现机制Hadoop是M印Reduce的实现【5.6J,而MapRe-duce的工作过程一般分为两个阶段:map阶段和捌uce阶段.每个阶段都有一批关键值对作为输入,而另一批关键值对作为输出.关键字的类型可以由程序员选择设定.程序员可以根据实际应用具体设计两个函数的实现体,在znap阶段输入的是原始数据,可以选择文本文件作为输入.I.1.1气象数据集分布在全球各地的气象传感器每隔lh便收集当地的气象数据,从而累积了大量的日志数据,这些数据是可以用M印Reduce来分析的最佳数据.1
8、.1.2数据存放格式假设数据是以面向行的AsCII格式存储,每一行
此文档下载收益归作者所有