Hadoop技术体系介绍.doc

Hadoop技术体系介绍.doc

ID:51673573

大小:574.50 KB

页数:35页

时间:2020-03-14

Hadoop技术体系介绍.doc_第1页
Hadoop技术体系介绍.doc_第2页
Hadoop技术体系介绍.doc_第3页
Hadoop技术体系介绍.doc_第4页
Hadoop技术体系介绍.doc_第5页
资源描述:

《Hadoop技术体系介绍.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、Hadoop体系介绍[在此处键入]目录一、背景4二、什么是Hadoop42.1、apachehadoop项目42.2、hadoop的优点52.3、Hadoop的使用场景6三、Hadoop发展状况及国内外应用情况6四、Hadoop文件系统HDFS74.1、HDFS设计目标74.2、HDFS体系结构84.3、HDFS命名空间94.4、HDFS存储原理94.5、数据存取策略104.6、通讯协议124.7、数据错误和异常124.7、HDFS尚未实现的功能总结13[在此处键入]五、MapReduce、hive和pig145.1、MapReduce145

2、.2、Hive145.3、Pig165.4、Mapreduce、hive和pig对比分析175.4.1、hadoop、hive和pig的性能测试175.4.2、Hive和Pig对比21六、HBASE226.1、HBASE数据模型226.2、HBASE概念视图236.3、HBASE物理视图246.4、HBASE分布式体系结构246.5、Hbase和传统关系数据库的对比分析25七、关于Hadoop使用总结267.1、HDFS267.2、MapReduce、HIVE和PIG277.3、HBASE27[在此处键入]八、关于研究Hadoop的考虑27九

3、、参考文献29[在此处键入]一、背景云计算已经被看作IT业的新趋势,分布式计算开源框架Hadoop作为构建云计算平台的技术之一而被广为关注。在公司,目前Hadoop已经在很多项目中用作海量数据存储、数据检索和统计分析技术。顺应技术发展趋势,掌握热门的新技术为公司关键项目提供技术保障,研究hadoop势在必行。二、什么是Hadoop2.1、apachehadoop项目Hadoop是Apache开源组织的一个分布式计算开源框架,基于Hadoop可以轻松地编写可处理海量数据的分布式并行程序,并将其运行于由成百上千个结点组成的大规模计算机集群上。Ha

4、doop由DougCutting(道格·卡廷)在2004年开始开发并于2005年秋天作为Nutch的一部分被正式引入到Apache。Hadoop由HDFS、MapReduce、HBase、Hive和ZooKeeper等成员组成。其中,HDFS和MapReduce是两个最基础最核心的成员,其结构如下图所示:[在此处键入]图2-1Hadoop子项目组成ØCore:一系列分布式文件系统和通用I/O的组件和接口(序列化、JavaRPC和持久化数据结构),2009年7月core被更名为common。ØAvro:一种提供高效、跨语言RPC的数据序列系统,

5、持久化数据存储。ØMapReduce:分布式数据处理模式和执行环境,运行于大型商用机集群。ØHDFS:分布式文件系统,运行于大型商用机集群。ØPig:一种数据流语言和运行环境,用以检索非常大的数据集。Pig运行在MapReduce和HDFS的集群上。ØHbase:一个分布式的、列存储数据库。HBase使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询(随机读取)。[在此处键入]ØZooKeeper:一个分布式的、高可用性的协调服务。ZooKeeper提供分布式锁之类的基本服务用于构建分布式应用。ØHive:分布式数据仓库

6、。Hive管理HDFS中存储的数据,并提供基于SQL的查询语言(由运行时引擎翻译成MapReduce作业)用以查询数据。ØChukwa:分布式数据收集和分析系统。Chukwa运行HDFS中存储数据的收集器,它使用MapReduce来生成报告。2.2、hadoop的优点Ø可扩展:不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。Ø经济:框架可以运行在任何普通的PC上。Ø可靠:分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性。Ø高效:分布式文件系统的高效数据交互实现以及MapReduce结合Loca

7、lData处理的模式,为高效处理海量的信息作了基础准备。2.3、Hadoop的使用场景Google最早提出MapReduce是为了海量数据分析,作为google[在此处键入]MapReduce的开源实现HadoopMapReduce的最佳使用场景也是海量数据分析。海量数据存储于HDFS中被分割于多个节点,然后由每一个节点并行计算,将得出的结果归并到输出。同时第一阶段的输出又可以作为下一阶段计算的输入,因此可以想象到一个树状结构的分布式计算图,在不同阶段都有不同产出,同时并行和串行结合的计算也可以很好地在分布式集群的资源下得以高效的处理。三、H

8、adoop发展状况及国内外应用情况Hadoop开源项目的主要支持者和贡献者是yahoo和facebook等国外的互联网公司,在国内也有淘宝、百度、腾讯、中移动等公司

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。