基于hadoop架构的分布式计算和存储技术及其应用20575new

ID：33818607

大小：318.54 KB

页数：5页

时间：2019-02-28

资源描述：

《基于hadoop架构的分布式计算和存储技术及其应用20575new》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、万方数据第27卷第l期2011年2月上海电力学院学报Jo啪alofSh柚ghajUnjV懿时ofElo响cPow盯V01．27．No．1Feb．20ll文章编号：1006—4729(2011)01—00r70—05基于Hadoop架构的分布式计算和存储技术及其应用田秀霞，周耀君，毕忠勤，彭源(上海电力学院计算机与信息工程学院，上海200090)摘要：介绍了Had∞p架构的主要构成，通过一个实例详细阐述了Had∞p架构的MapReduce实现机制；开发了一个基于H8do叩架构职工工资统计应用实例，并根据该实例分析了其在单节点模式、伪分布模式和完全分布模式应用

2、中的运行效率．关键词：Hado叩架构；M印Reduce机制；分布式文件系统中图分类号：1玛33；伪16．4文献标识码：ATheTechnologyandApplicationofDistributedComputingandStorageB嬲edonHadoopArcllitectureT队NXiu-xia，ZHOUYao-jun，BIZhong-qin，PENGYu肌(&b甜矿cD玎妒姚ra以删钿，lat幻忭西硒册扒昭，肌8咖f№如矿姗凡聊，舶口增hi200090，傩i胁)AbS岫喊：-11lekeycomp∞entsofHadoopamintroldu

3、cedfi赋，tlIentlleM印ReduceiⅡ甲l锄e吡m册mech锄i锄isallalyzed．WhatisInoreimport粕t，觚印plic撕∞forstatisticsofemployeesala町isdeve岫d锄dtlIeefficiencycomp撕s锄is舀venint}letlIreedi能舱nt印plicalions，咖ely，thesinglenodemodel，p∞udo-dis斑butionmodel蚰dtlle缸lldistributionmodeLKeywOrds：Hadooparchitectur{e；MapRed

4、ucemechaIIi锄；distributedfilesystem在硬盘存储容量快速增加的同时，访问速度，即数据从硬盘读取的速度未能快速提高．1990年，一个普通的硬盘驱动器可以存储1370MB的数据并拥有4．4MB／s的传输速度，只需5min就可以读取整个磁盘的数据．20年后的今天，海量数据的出现使得使用lTB存储容量的磁盘驱动器已很正常，由于数据传输速度在100MB／s左右，需要花2．5h以上才能读取整个驱动器的数据¨’2J．如果可以一次从多个磁盘上读取数据，那么可以大大提高数据访问效率．若拥有100个磁盘，每个磁盘存储l％的数据，让它们并行运行．那

5、么不到2IIlin就可以读完存储的所有数据．Hadoop架构的引入使建立大型商业集群、解决超大数据量处理的瓶颈难题成为可能，改善了传统海量数据访问带来的访问效率低下的状况．本文基于Hadoop架构设计了职工工资统计实例，并对该实例在单节点模式、伪分布模式和完全分布模式应用中的运行效率进行了分析和比较．收稿日期：20lO一0r7一12通讯作者简介：田秀霞(19r76一)，女，在读博士，副教授，河南汤阴人．主要研究方向为信息安全，数据库安全，隐私保护．E·础lil：ti肌船噶mik@yall∞．c锄．cn．万方数据田秀霞，等：基于Hadoop架构的分布式计算和

6、存储技术及其应用7l1Hadoop的工作原理Hadoop是Apache软件基金会所研发的分布式基础架构∞'4】．于2005年推出，它使用分布式文件系统(HadoopDist曲utedFilesystem，HDFs)作为低层存储支持．HDFS有着高容错性的特点，并将其设计部署在低廉的硬件设备上，以提供高传输率来访问应用程序的数据，适合那些有着超大数据集的应用程序．目前国内外著名的公司如Yalloo，阿里巴巴，百度，F舵ebook等都建立了基于Hadoop的应用．下面分别从Had00p的M印Re—duce实现机制和HDFS低层存储来说明如何构建基于Hado叩的

7、分布式应用．1．1Map&血l∞实现机制Hadoop是M印Reduce的实现【5．6J，而MapRe-duce的工作过程一般分为两个阶段：map阶段和捌uce阶段．每个阶段都有一批关键值对作为输入，而另一批关键值对作为输出．关键字的类型可以由程序员选择设定．程序员可以根据实际应用具体设计两个函数的实现体，在znap阶段输入的是原始数据，可以选择文本文件作为输入．I．1．1气象数据集分布在全球各地的气象传感器每隔lh便收集当地的气象数据，从而累积了大量的日志数据，这些数据是可以用M印Reduce来分析的最佳数据．1

8、．1．2数据存放格式假设数据是以面向行的AsCII格式存储，每一行

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 5



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于hadoop架构的分布式计算和存储技术及其应用20575new

基于hadoop架构的分布式计算和存储技术及其应用20575new

相关文章

相关标签