Hadoop平台的性能研究1

Hadoop平台的性能研究1

ID:37922169

大小:661.50 KB

页数:8页

时间:2019-06-02

Hadoop平台的性能研究1_第1页
Hadoop平台的性能研究1_第2页
Hadoop平台的性能研究1_第3页
Hadoop平台的性能研究1_第4页
Hadoop平台的性能研究1_第5页
资源描述:

《Hadoop平台的性能研究1》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于Hadoop海量数据处理平台的性能研究摘要:面对互联网数据的爆炸性增长,传统的单机处理方式已慢慢落伍,新式的分布并行处理日益成熟,并替代原有的处理方式。时下有关数据的海量处理和存储成为研究的热潮。在这其中,Hadoop平台脱颖而出,成为了分布式处理的宠儿。本文介绍了HDFS以及MapReduce两大核心技术,并搭建了Hadoop海量数据处理原型平台。关键词:分布式处理HadoopHDFSMapReduceResearchonperformanceofHadoopplatformAbstract:FacedwiththeexplosivegrowthofInternetdata,thet

2、raditionalstand---aloneapproachhasbeenslowlyfallingbehind,andthenewformdistributedparallelprocessinghasbecomemoresophisticatedwhichwillreplacetheoriginalapproach.Nowadays,processingandstorageofmassivedatahasbecomeahotresearch.Hadoopplatformstandsoutandbecomeanmostimportantresearchdirectionofdistri

3、butedprocessing.TheaticleintroducethetwocoretechnologyofHDFSandMapReduce,andsetupawidedataprocessingplatform.Keyword:distributedprocessingHadoopHDFSMapReduce1概述ApacheNutch是Hadoop的源头,该项目起始于2002年,是ApacheLucene的子项目之一。至2004年,Google的OSDI上公开发表了题为“MapReduce:simplifieddataprocessingonlargeclusters”的论文,受到启

4、发的DougC等人开始实现MapReduce计算框架并与NDFS结合支持Nutch的主要算法。至2006年逐渐成为一套完整而独立的软件,起名为Hadooop。2008年初,Hadoop成为Apache的顶级项目,应用到除Yahoo!以外的很多互联网公司。Hadoop技术已经在互联网领域得到广泛的应用,同时也得到研究界的普遍关注。因为互联网公司往往需要对其存储的海量数据进行处理,而Hadoop就是被设计用来处理海量数据的。Hadoop典型的应用包括:在国外Yahoo!使用Hadoop支持广告系统并处理网页搜索,Facebook使用Hadoop实现日志的拷贝以及Web日志的挖掘与统计;在国内阿

5、里巴巴使用Hadoop来实现商业数据的排序和搜索引擎的优化,百度使用Hadoop实现Web日志挖掘和分析。Yahoo!处于Hadoop的应用前沿,它运行着世界上最大的Hadoop集群。Yahoo!SearchWebmap就是一个典型的Hadoop应用,Webmap运行在超过10000个Linux系统的集群上。Yahoo!的网页搜索查询使用的数据正是由它生产的。Facebook运行着世界上第二大的Hadoop集群。在Facebook,随着网站使用使用率的快速增加需要处理和存储的日志和维度数据呈爆炸式递增。因此迫切需要一种能够具有快速的支持系统扩展的应变能力并且可信的、易于使用和维护的一套系统

6、。Hadoop正好可以担此重任。在Facebook,对Hadoop至少有四种相互关联但又不同的用法:在大规模数据上产生以天和小时为单位的概要信息;提供在Facebook上进行广告营销活动的相关的效果数据;对网站属性的后台处理;在历史数据上运行即时作业。Hadoop虽然作为产品使用已经足够成熟,但它仍然被人们以及开发,并且每周都由Hadoop社区增加新的功能和改进。1Hadoop架构及核心技术介绍Hadoop系统平台是一个搭建在廉价PC上的分布式集群系统架构,它具有高可用性、高容错性和高可扩展性等优点。Hadoop由Apache基金会开发,由于它提供了一个开放式的平台,用户可以在完全不了解底

7、层实现细节的情形下,开发适合自身应用的分布式程序。Hadoop由HDFS、MapReduce、HBase、Hive和ZooKeeper[1]等成员组成,其中最基础最重要的两种组成元素为底层用于存储集群中所有存储节点文件的文件系统HDFS(HadoopDistributedFileSystem)和上层用来执行MapReduce程序的MapReduce引擎。图2-1Hadoop基本架构1.1HDFS分布式文件系统介绍HDFS

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。