Hadoop介绍移动云计算服务端技术

ID：38564197

大小：783.81 KB

页数：23页

时间：2019-06-15

资源描述：

《Hadoop介绍移动云计算服务端技术》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、HADOOP介绍2011年5月15WhatisHadoopApacheHadoop是一个用java语言实现的软件框架，在由大量计算机组成的集群中运行海量数据的分布式计算，它可以让应用程序支持上千个节点和PB级别的数据。Hadoop组成HadoopcorePIGHBaseZooKeeperHadoop组成HadoopcoreHadoop的核心子项目，提供了一个分布式文件系统(HDFS)和支持MapReduce的分布式计算。HBase建立在Hadoop内核之上，提供可靠的，可扩展的分布式数据库。ZooKeeper一个高效的，可扩展的协调系统。分布式应用可以使

2、用ZooKeeper来存储和协调关键共享状态。PIG建立于Hadoop内核之上，是一种支持并行计算运行框架的高级数据流语言。HadoopcoreMapReduceMap：任务的分解Reduce：结果的汇总两大核心设计HDFSNameNodeDataNodeClientMapReduceHDFSHDFSNameNode可以看作是分布式文件系统中的管理者，存储文件系统的meta-data，主要负责管理文件系统的命名空间，集群配置信息，存储块的复制。DataNode是文件存储的基本单元。它存储文件块在本地文件系统中，保存了文件块的meta-data，同时周期性

3、的发送所有存在的文件块的报告给NameNode。Client就是需要获取分布式文件系统文件的应用程序。HDFS操作举例文件写入：1.Client向NameNode发起文件写入的请求。2.NameNode根据文件大小和文件块配置情况，返回给Client它所管理部分DataNode的信息。3.Client将文件划分为多个文件块，根据DataNode的地址信息，按顺序写入到每一个DataNode块中。文件读取：1.Client向NameNode发起文件读取的请求。2.NameNode返回文件存储的DataNode的信息。3.Client读取文件信息。文件块复制

4、：1.NameNode发现部分文件的文件块不符合最小复制数或者部分DataNode失效。2.通知DataNode相互复制文件块。3.DataNode开始直接相互复制。HBase-数据模型每个数据行都包括一个可排序的关键字，和任意数目的列HBase利用的是column-oriented列导向存储机制，不同于传统的row-oriented行导向存储机制对于Null值的存储是不占用任何空间的最适合使用HBase存储的数据是非常稀疏的数据所有数据库更新操作都有时间戳。HBase对每个数据单元，只存储指定个数的最新版本。HBase-概念模型一个表格是一些行的集合，

5、每行包含一个行关键字（和一个可选的时间戳），和一些可能有数据的列（稀疏），如下图：HBase-物理模型在概念上表格是一个稀疏的行/列矩阵，但是在物理上，它们按照列存储，上面“概念模型”中的表格在物理上的存储方式如下所示：ZooKeeperWhatisZooKeeper?一个高效的，可扩展的协调系统WhyisZooKeeper?保证用户读取的数据是最新的当用户正在查看的数据被修改时，保证用户会被及时告知保证来至一个用户的所有请求会被按顺序处理保证所有用户得到的数据是一致的ZooKeeper-DataModelZooKeeper提供的命名空间和一般的文件系统

6、是极为相似的，除了ZooKeeper的文件系统的每个节点（node）既可以包含数据又可以包含子节点ZooKeeper提供暂时节点的概念，这些节点随着创建他们的会话的结束而结束。ZooKeeper允许用户在节点上设置“监视”机制，当节点的内容被改变时，“监视”机制会告知用户PIGPig是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能支持的运算算数符号：+,-,*,/多种数据类型：string,int,float,long等比较运算:==,!=

7、,>,>=,<,<=,eq,neq,gt,gte,lt,lte,matches复杂的数据类型:bag,tuple,map相关运算:FILTER，GROUPBY，ORDER，DISTINCT，UNION，JOIN，FOREACH...GENERATE数据统计:COUNT，SUM，AVG，MIN，MAX等。PIG（Cont.）pig支持的原始类型数据:int,long,float,double,char数组,byte数组pig内部的数据类型:bag:一个tuple的集合,表示方式:{<1,2>,<3,4>}tuple:一个排序的数组,表示方式:

8、.14>map:一个key,value的map数据,表示方式['pig':<'

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 23



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

Hadoop介绍移动云计算服务端技术

Hadoop介绍移动云计算服务端技术

相关文章

相关标签

Hadoop介绍 移动云计算服务端技术

Hadoop介绍 移动云计算服务端技术

相关文章

相关标签

Hadoop介绍移动云计算服务端技术

Hadoop介绍移动云计算服务端技术