欢迎来到天天文库
浏览记录
ID:49867867
大小:66.00 KB
页数:5页
时间:2020-03-05
《浅析基于Hadoop的大数据分析与应用.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、浅析基于Hadoop的大数据分析与应用摘要:对于IT行业来说,大数据的处理与分析是目前非常热门的专业技术,很多企业都希望利用大数据处理和应用来帮助自己获得成功。但就目前的现状来看,存储技术还存在一定的问题,为了让大数据能够得以更好的应用且具备更强的扩展性能,Hadoop的出现为企业的成功带來了可能,并开始了蓬勃的发展。本文主要分析了hadoop的工作原理及其特点,并论述了Hadoop与大数据分析与应用的关系。关键词:hadoop大数据应用中图分类号:Tp274文献标识码:A文章编号:1007-9416(2015)0
2、4-0226-01最近几年以来,大部分企业都开始认识到数据资产规模化能够给企业带来的潜在价值,而这些不断增长的数据资产主耍分为非结构化与半结构化两种类型。怎样利用最低的成本和最快的效率来对这些海量数据进行处理与应用,成为摆在我们面前的一大难题。Google公司率先提出了MapReduce编程框架,而GFS文件系统与BigTable存储系统也开始成为了大数据处理技术中的领导者,而这三种技术也成为了大数据处理技术的事实标准,以极快的速度普及到各个互联网企业之中,逐渐变为了卩B级海量大数据处理的领先技术。那么Hadoop
3、到底是什么?为什么Hadoop可以成为当今热门的大数据应用的开发平台?1Hadoop架工作原理分析Hadoop属于开源框架,它的本质是一种能够用于编写和运行分布式应用处理的大规模数据。Hadoop和其他的框架相比,口身具备便捷、可扩展性强、操作便利等特征,特别是Hadoop的便利性让它在编写与运行大型分布式程序的过程中独占优势。用户借助于Hadoop能够在很人程度上领略到分布式计算法则带来的优势。Hadoop利用分布式存储、迁移代码等技术,在进行大数据的处理过程中,可以非常好地解决耗时数据传输问题。更关键的一点是,
4、数据冗余机制能够让Hadoop从单点失效中逐渐恢复[1]oHadoop框架基本构成包括了分布式文件系统IIDFS以及MapReduceoHDFS主要是利用Master/Slave架构,一个HDFS集群包含了NameNode节点与DataNode节点。NameNode属于屮心服务器,其主要作用是对文件系统的名字空间进行管理,同时负责文件访问。在集群系统内部,通常來说在某个节点中运行一个DataNode,主要对此节点内的数据信息进行管理,同时处理客户端发送来的文件读写请求,还能够在NameNode的调度下对数据模块进行
5、创建与复制。另外,Hadoop还能够完成MapReduce分布式计算,Mapreduce能够将总任务划分为若干子任务,而各个子任务能够在任意集群节点中进行处理。IIDFS创建了若干数据副本,能够确保每个子任务节点计算的准确性。因为选择分布式文件系统HDFS以及MapReduc模型,从而让Hadoop具备更高的容错率和数据读写吞吐率,可以对失败节点进行自动处理。1MapReduce编程模型MapReduce(映射-归并算法)模型是由Google公司提出的高阶并行函数的抽象模式,根据相关报道显示,Google集群中每小
6、时有数百万个MapReduc处于执行状态。它依靠函数编程的思路,将海量数据集的一般操作抽象化为Map和Reduc两大集合操作,在很大程度上降低了分布式并行计算程序的难度。在这样的计算模型之内主要存在两个关键环节,即是映射Map与聚集Reduce所以必须要求程序编写人员能够实现上述两个函数,Map函数和Reduc函数对一组输入键值实施计算,从而获得另外的输出键值对⑵。在Hadoop平台下,MapReduce应用程序由一个Mapper类,一个Reducer类和一个创建JobConf的驱动函数组成。有些时候还可以根据需要
7、实现一个Combiner类,这个类实际上也是Reduce函数的一种实现[3]。(1)Input:应用程序自动提供Map以及Reduce函数,同时标明输入/输出具体位直以及其他操作必须的具体参数,这一过程会将目录下的大文件分成一些独立的数据块。(2)Map:该模型能够将用户作业输入当成是一组键值对Key/Value,MapReduce模型能够自动调用Map函数对其中一个键值对进行处理,从而形成新的键值对。(3)Shuffle与Sort:在Shuffle时期利用网络给所有Reduce提供全部Map输出时相匹配的键值对;
8、而在Sort时期,把根据Key值对Reduce输入实施分组。一般来说,Shuffle与Sort是共同执行的。(4)Reduce:对各个Key,执行用户定义的Reduce函数,从而得到新的键值对。(5)Output:把Reduce的结果写到输出目录之内。1Hadoop的主要特性及其与大数据应用的关系简单地说,Iladoop是一个可以更容易开发和运行处理大规模数
此文档下载收益归作者所有