大数据处理之Hadoop原理与应用介绍.pdf

大数据处理之Hadoop原理与应用介绍.pdf

ID:48084134

大小:1.58 MB

页数:27页

时间:2019-11-24

大数据处理之Hadoop原理与应用介绍.pdf_第1页
大数据处理之Hadoop原理与应用介绍.pdf_第2页
大数据处理之Hadoop原理与应用介绍.pdf_第3页
大数据处理之Hadoop原理与应用介绍.pdf_第4页
大数据处理之Hadoop原理与应用介绍.pdf_第5页
资源描述:

《大数据处理之Hadoop原理与应用介绍.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、大数据处理之Hadoop原理与应用介绍(1)Hadoop简介(2)Hadoop生态圈(3)HDFS架构图(4)HDFS术语及其核心功能(5)HDFS通讯图(6)HDFSIO流程&故障恢复(7)MapReduce简介(8)MapReduce术语(9)MapReduce通讯图&流程图&故障恢复(10)MapReduce计算流程(11)Hadoop/MR的优点与缺点(12)Pig、Hive介绍&优缺点(13)Hadoop在公司的应用(14)下一代Hadoop2.0&MRv2介绍(15)开发&调试工具&安装部署的一些问题(16)推荐阅读1、Hadoop是

2、什么:开源、可靠、可扩展的分布式并行计算框架2、组成:HDFS、MapReduce、Common、YARN3、理论基础:Google三大论文4、语言:JavaC++、python、PHP…5、Hadoop解决的问题:假设:硬件错误,网络异常是常态适用业务场景:一次写、多次读、高吞吐、高延时目标:在PCServer集群上进行海量数据存储与计算6、Hadoop是大数据解决方案的唯一选择?IBM(InfoSphereBigInsights)、EMC(PivotalHD)、Cloudera(Impala)、MS(Polybase)、TeraData(SQ

3、L-H)、SAP、Oracle、Intel、HP、…ZooKeeperPig(数据流)Hive(SQL)SqoopR统计MahoutAvroMapReduce(任务调度/执行系统)(序(分Hbase(列式数据库)列化布中式间锁服HDFS件)务(Hadoop分布式文件系统))NameNode:FS的核心,提供整个FS的目录信息,各文件的分块信息及位置信息,并管理各个DataNode。DataNode:DFS中的每一个文件,都被切分成若干数据块,每一个数据块都被存储在不同的服务器上,这种服务器称为数据服务器Block:每个文件都会被切分成若干个块(默

4、认64MB),每一个块都有连续的一段文件内容,是存储的基本单位。Packet:客户端写文件的时候,不是一个字节一个字节写入FS的,而是累积到一定数量后,往FS写入一次,每发送一次的数据,都称为一个数据包。Chunk:在每一个数据包中,都会将数据切成更小的块(512B)每一个块配上一个奇偶校验码(CRC),这样的块,就是传输块。SecondaryNameNode:备用的主控服务器,在身后默默的拉取主控服务器的日志,等待主控服务器挂掉后上位。Namespace:hdfs支持传统的层次型文件组织,与大多数其他文件系统类似,支持用户的create、del

5、ete、move、rename等操作。Shell:hadoop包括一系列的类shell命令,可以直接和hdfs及其它hadoop支持的FS交互。Replication:每个文件的block大小和replication因子都是可配置的,replication因子可以在文件创建的时候配置,也可以以后修改,HDFS中的文件是writeonce,readmany,并且严格要求在任何时候只有一个writer。Rackaware:在大多数情况下,replication因子是3,hdfs的存放策略是将一个副本存放在本地机架上的节点,一个副本放在同一机架上的另一

6、个节点,最后一个副本放在不同机架上的一个节点。机架的错误远比节点的错误少,这个策略极好的保证了数据的可靠性和有效性。Fsimage&EditLog:Namenode会将HDFS的文件和目录元数据存储在一个叫fsimage的二进制文件中,每次保存fsimage之后到下次保存之间的所有hdfs操作,将会记录在editlog文件中,当editlog达到一定的大小(bytes,由fs.checkpoint.size参数定义)或从上次保存过后一定时间段过后(sec,由fs.checkpoint.period参数定义),namenode会重新将内存中对整个H

7、DFS的目录树和文件元数据刷到fsimage文件中。Namenode就是通过这种方式来保证HDFS中元数据信息的安全性。Clusterbalance:如果某个datanode节点上的空闲空间低于配置的阀值,那么就会启动一个计划自动的将数据从该datanode搬移到空闲的datanode,以维持集群间存储的负载均衡,也有balance脚本供手动执行平衡。Trash:删除文件并没有立刻从hdfs中删除,hdfs将这个文件重命名,并转移到/trash目录,用于恢复,/trash可设置保存时间,默认该功能并未开启。DFSClient崩溃?租约:当客户端需

8、要占用某个文件时,与NameNode签订的一个短期合同超过租约期没有续约,则终止其租约,避免资源被长期霸占DataNode奔溃?客户端读

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。