大数据和云计算环境下的Hadoop技术研究.doc

大数据和云计算环境下的Hadoop技术研究.doc

ID:55139058

大小:26.50 KB

页数:5页

时间:2020-04-28

大数据和云计算环境下的Hadoop技术研究.doc_第1页
大数据和云计算环境下的Hadoop技术研究.doc_第2页
大数据和云计算环境下的Hadoop技术研究.doc_第3页
大数据和云计算环境下的Hadoop技术研究.doc_第4页
大数据和云计算环境下的Hadoop技术研究.doc_第5页
资源描述:

《大数据和云计算环境下的Hadoop技术研究.doc》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、大数据和云计算环境下的Hadoop技术研究  [摘要]大数据与云计算技术都已经成为信息社会最重要的技术之一,Hadoop是大数据与云计算时代背景下最热门的技术之一,Hadoop的相关技术对学术研究有重要影响。本文主要对Hadoop技术进行了研究,首先介绍了大数据和云计算的概念,其次介绍了Hadoop的概况以及相关技术的原理,比如核心技术HDFS和MapReduce;再次分析了目前Hadoop所面临的安全问题,然后描述了Hadoop的发展瓶颈并提出改进方案;最后进行了总结并展望Hadoop、Spark和Storm

2、三者相互结合,混合架构将是未来发展的方向。  [关键词]大数据;云计算;Hadoop  doi:10.3969/j.issn.1673-0194.2017.13.076  [中图分类号]TP311.13;TP333[文献标识码]A[文章编号]1673-019413-0177-03  1概述  大数据是指通过新的信息处理技术和方式,对数据进行收集、存储、分析以及处理等,并且能够利用全新的数据处理技术和方式产生相关联的预测效应,协助决策,发挥海量快速增长数据的价值。  云计算是指一种特殊的计算模式,它将计算任务分布

3、在资源池中,池中的资源包括计算服务器、存储服务器、宽带资源,使用户能够按需获取各种服务。  大数据与云计算之间相得益彰,相辅相成,因为云计算本质上是数据处理技术,其核心是业务模型,大数据是云计算的延伸,是云计算的资产。  目前,海量非结构化的数据分析处理需一种高效并行的编程模型,此时Apache项目基金会研发的Hadoop迅速崛起,Hadoop主要用来进行大数据分析处理。Hadoop的出现解决了大数据并行计算、存储、管理等关键问题,这样用户即使对分布式底层细节不了解,也可以开发分布式程序。Hadoop得到了广泛

4、认可,其优点是不容忽视的,主要有:高扩展性、低成本、高效率、高可靠性。  2Hadoop相关的技术  Hadoop可以部署在廉价机器上的处理海量文件存�τ氩⑿屑扑愕脑萍扑憧�发平台。Hadoop由HDFS、MapReduce、HBase、Hive、Zookeeper、Pig、Ambari、Sqoop等组成,其中主要部分是HDFS和MapReduce。  2.1HDFS  HDFS是构建在PC服务器上的高度容错的分布式文件系统,目的是用于海量数据的处理。HDFS的架构形式是主从架构,HDFS的元数据服务器和数据块

5、服务器命名为NameNode和DataNode。  NameNode是一个中心服务器,是HDFS的核心结构,负责客户端对文件的访问以及管理文件系统的名字空间,存储HDFS分布式文件系统的元数据信息,NameNode可判断DataNode是否处在工作状态,并管理着DataNode上的分块信息。  DataNode负责管理其所在的节点上的所有数据,能够根据用户的请求来查询数据,周期性地与NameNode通信来告知自己保存的数据块信息。  2.2MapReduce  MapReduce设计之初是为了处理一些互联网数据

6、,MapReduce有简单的接口和透明的编程环境,极大地节省了开发周期。MapReduce通过处理大量数据来精简和优化数据集,以便将数据集载入到数据库管理系统中。  MapReduce也采用了主从架构,将数据处理任务分为两大过程,分别为:Map过程和Reduce过程。Map过程的任务主要为数据的过滤处理,Reduce过程的任务主要为数据的聚集处理。在Map过程中,第一,要将输入的数据集分成若干数据块,再为每一个数据块分配一个Map小任务;第二,将这些任务分配到集群中的各个节点上,此时在计算过程中会出现一个数据集

7、合;第三,将这些数据集合进行排序再产生一个新的数据集合,此时新的数据集合中的数据都具有相同的键值;第四,进入Reduce过程,产生最终结果,并输出到HDFS中。  2.3Hadoop中的其他技术  Hadoop生态系统除了有HDFS、MapReduce之外还有其他相关技术:  HBase  HBase是用于服务海量数据的存储以及快速读写,它可以通过添加节点来进行线性的扩展,但是却不支持向后扩。  Hive  Hive是构建在Hadoop之上的数据仓库基础架构。可实现数据的提取、转化、加载等功能。  Zookee

8、per  Zookeeper分布式协调服务是由许多服务器节点组成的,其目的是对Hadoop集群的运维进行管理。  Pig  Pig可为用户提供多种接口,用于查询大型半结构化的数据集,为大型数据提供了一个高层次的抽象,是大数据分析平台。  Ambari  Ambari是一个基于Web的管理工具,可快速部署、监控以及管理集群。  Sqoop  Sqoop是在Hadoop系统与传统的数据库间

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。