基于Hadoop的研究及性能分析

基于Hadoop的研究及性能分析

ID:37146228

大小:158.45 KB

页数:15页

时间:2019-05-19

基于Hadoop的研究及性能分析_第1页
基于Hadoop的研究及性能分析_第2页
基于Hadoop的研究及性能分析_第3页
基于Hadoop的研究及性能分析_第4页
基于Hadoop的研究及性能分析_第5页
资源描述:

《基于Hadoop的研究及性能分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、.基于Hadoop的研究及性能分析摘要在大数据到来的今天,本文首先介绍了Hadoop及其核心技术MapReduce的工作原理。详细讨论了Hadoop推测执行算法和SALS推测执行算法并对它们的性能进行分析。最后,分析了MapReduce框架的通用二路连接算法RSJ。为了提高性能,提出了一种基于DistributedCache的改进算法,通过减少mapper输出的数据来达到优化的目的。关键字:HadoopMapReduce性能算法..Abstract:Intheeraofbigdata,thispaperintroducesHadoop,MapReduc

2、eanditscoretechnologyworks.IhavediscussedtheHadoopspeculativeexecutionalgorithmsandSALSspeculativeexecutionalgorithmandanalyzedtheirperformance.Finally,IanalyzedtheCommonRoadJoinAlgorithminMapReduceframework.Toimproveperformance,IproposeanimprovedalgorithmbasedDistributedCacheby

3、reducingthemapperoutputdatatoachieveoptimizationpurposes.Keywords:Hadoop;MapReduce;Performance;Algorithm..1、绪论1.1、背景伴随Internet和Web技术的飞速发展,网络日志、互联网搜索索引、电子商、社交网站等技术的广泛使用带来了数据量的急剧增长。计算机技术在各行各业的普遍使用也促使的数据的产生,如用于测量和传输有关位置、震动、湿度、温度的传感器所产生的海量数据。大数据时代真的来了吗?据[1]中统计显示所有企业每天的信息存储量高达2.2ZB,其

4、中大型企业平均每天产生的信息量达10WTB,而中小企业平均每天产生563TB的数据量。预计明年大型企业产生的数据量将增长67%,中小企业数据量的增长则高达178%。因此,在2012年年末,中国工程院院士邬贺铨指出:“在过去短短的18个月,中国移动互联网流量增加了10倍,占全球互联网流量的10%,成为名副其实的世界数据中心。因此,中国已经步入了“大数据”时代。大数据主要有四个典型特征:(1)海量:目前各行各业面临着数据量的大规模增长。例如,IDC最近的报告预测称,到2020年,全球数据量将扩大50倍之多。(2)多样性:数据不单单以结构化数据形式存在。目前

5、,半结构化数据和非结构化数据也已经占了数据总数相当大的一部分。数据多样性的增加主要由包括网络日志、社交媒体、互联网搜索、手机通话记录等数据类型造成的。(3)高速:指的是需要实现对大数据的快速处理和分析任务,以实时满足用户需求。(4)易变性:大数据具有多层结构,这意味着大数据会呈现出多变的形式和类型。由于大数据的上述几种特性,使得采用传统数据库技术来处理大数据存如下一些问题:第一,平时使用的计算机存储容量和计算速度都无法满足大数据的存储和计算要求。虽然可以根据数据的大小采取增强机器配置的方法来满足需求,但是代价是及其昂贵的;第二,传统关系型数据库只能用于

6、存储和查询结构化的数据类型,而无法满足多样化数据的存储;第三,传统数据库系统的分析处理能力也无法满足快速处理大数据的处理请求。正是因为传统技术有着这些方面的不是,用于处理数掘的Hadoop技术诞生了,Hadoop是上述解决方案的实现框架。..Hadoop平台Apache是开源设计的,它是部署在廉价的计算机集群上的一个分布式计算框架。与PC机类似,Hadoop也为应程序提供一组稳定、灵活、可靠的接口。Hadoop括许多子项目,如HDFS、HBase、MapRedeuce等。其中分布式文件系统(HDFS)主要是用来存储非结构化数掘的;HBase用来存储海量

7、半结构化数据的;MapReduce作为一种并行编程模型,可以很好的实现大数据时代的计算任务。所以木文将对Hadoop进行深入的研究,并对它的一些性能进行分析,进而让我们更了解该系统。本文的研究意义如下:(1)随着数据量的爆炸式增长,如何有效的存储海量数据、如何高效的从现存海量数据中获得所需信息,对经济、社会、政治发展都具有重要的意义。(2)Hadoop是为存储、处理大数据而产生。Hadoop框架将数据的存储和处理集成于一体,因此在大数据时代研究Hadoop具有重要的理论意义。(3)HDFS和MapReduce作为Hadoop核心部件,对它们进行研究和优

8、化,可以更好的理解Hadoop运行机制,在一定程度上提高Hadoop系统的整体性能,对Hado

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。