欢迎来到天天文库
浏览记录
ID:22493812
大小:29.00 KB
页数:7页
时间:2018-10-29
《大数据和云计算环境下的hadoop技术研究》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、大数据和云计算环境下的Hadoop技术研究 [摘要]大数据与云计算技术都已经成为信息社会最重要的技术之一,Hadoop是大数据与云计算时代背景下最热门的技术之一,Hadoop的相关技术对学术研究有重要影响。本文主要对Hadoop技术进行了研究,首先介绍了大数据和云计算的概念,其次介绍了Hadoop的概况以及相关技术的原理,比如核心技术HDFS和MapReduce;再次分析了目前Hadoop所面临的安全问题,然后描述了Hadoop的发展瓶颈并提出改进方案;最后进行了总结并展望Hadoop、Spark和Storm三者相互结合,混
2、合架构将是未来发展的方向。下载论文网 [关键词]大数据;云计算;Hadoop doi:10.3969/j.issn.1673-0194.2017.13.076 [中图分类号];TP333[文献标识码]A[文章编号]1673-0194(2017)13-0177-03 1概述 大数据是指通过新的信息处理技术和方式,对数据进行收集、存储、分析以及处理等,并且能够利用全新的数据处理技术和方式产生相关联的预测效应,协助决策,发挥海量快速增长数据的价值。 云计算是指一种特殊的计算模式,它将计算任务分布在资源池中,池中的资源包括计算
3、服务器、存储服务器、宽带资源,使用户能够按需获取各种服务。 大数据与云计算之间相得益彰,相辅相成,因为云计算本质上是数据处理技术,其核心是业务模型,大数据是云计算的延伸,是云计算的资产。 目前,海量非结构化的数据分析处理需一种高效并行的编程模型,此时Apache项目基金会研发的Hadoop迅速崛起,Hadoop主要用来进行大数据分析处理。Hadoop的出现解决了大数据并行计算、存储、管理等关键问题,这样用户即使对分布式底层细节不了解,也可以开发分布式程序。Hadoop得到了广泛认可,其优点是不容忽视的,主要有:高扩展性、低成本
4、、高效率、高可靠性。 2Hadoop相关的技术 Hadoop可以部署在廉价机器上的处理海量文件存?τ氩⑿屑扑愕脑萍扑憧?发平台。Hadoop由HDFS、MapReduce、HBase、Hive、Zookeeper、Pig、Ambari、Sqoop等组成,其中主要部分是HDFS和MapReduce。 HDFS HDFS是构建在PC服务器上的高度容错的分布式文件系统,目的是用于海量数据的处理。HDFS的架构形式是主从架构,HDFS的元数据服务器和数据块服务器命名为NameNode和DataNode。 NameNode是一个中
5、心服务器,是HDFS的核心结构,负责客户端对文件的访问以及管理文件系统的名字空间,存储HDFS分布式文件系统的元数据信息,NameNode可判断DataNode是否处在工作状态,并管理着DataNode上的分块信息。 DataNode负责管理其所在的节点上的所有数据,能够根据用户的请求来查询数据,周期性地与NameNode通信来告知自己保存的数据块信息。 MapReduce MapReduce设计之初是为了处理一些互联网数据,MapReduce有简单的接口和透明的编程环境,极大地节省了开发周期。MapReduce通过处理大量
6、数据来精简和优化数据集,以便将数据集载入到数据库管理系统中。 MapReduce也采用了主从架构,将数据处理任务分为两大过程,分别为:Map过程和Reduce过程。Map过程的任务主要为数据的过滤处理,Reduce过程的任务主要为数据的聚集处理。在Map过程中,第一,要将输入的数据集分成若干数据块,再为每一个数据块分配一个Map小任务;第二,将这些任务分配到集群中的各个节点上,此时在计算过程中会出现一个数据集合(中间结果);第三,将这些数据集合进行排序再产生一个新的数据集合,此时新的数据集合中的数据都具有相同的键值;第四,进入R
7、educe过程,产生最终结果,并输出到HDFS中。 Hadoop中的其他技术 Hadoop生态系统除了有HDFS、MapReduce之外还有其他相关技术: (1)HBase HBase是用于服务海量数据的存储以及快速读写,它可以通过添加节点来进行线性的扩展,但是却不支持向后扩。 (2)Hive Hive是构建在Hadoop之上的数据仓库基础架构。可实现数据的提取、转化、加载等功能。 (3)Zookeeper Zookeeper分布式协调服务是由许多服务器节点组成的,其目的是对Hadoop集群的运维进行管理。 (4
8、)Pig Pig可为用户提供多种接口,用于查询大型半结构化的数据集,为大型数据提供了一个高层次的抽象,是大数据分析平台。 (5)Ambari Ambari是一个基于Web的管理工具,可快速部署、监控以及管理集群。 (6)Sqoop Sqo
此文档下载收益归作者所有