Hadoop大数据开发与性能调优实战培训课程Hadoop组件详解.ppt

Hadoop大数据开发与性能调优实战培训课程Hadoop组件详解.ppt

ID:51177328

大小:2.45 MB

页数:59页

时间:2020-03-19

Hadoop大数据开发与性能调优实战培训课程Hadoop组件详解.ppt_第1页
Hadoop大数据开发与性能调优实战培训课程Hadoop组件详解.ppt_第2页
Hadoop大数据开发与性能调优实战培训课程Hadoop组件详解.ppt_第3页
Hadoop大数据开发与性能调优实战培训课程Hadoop组件详解.ppt_第4页
Hadoop大数据开发与性能调优实战培训课程Hadoop组件详解.ppt_第5页
资源描述:

《Hadoop大数据开发与性能调优实战培训课程Hadoop组件详解.ppt》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、Hadoop之HDFS和MapReduce掌握mapreduce原理和开发123理解HDFS原理3应用举例讲解培训目标123存储并管理PB级数据处理非结构化数据注重数据处理的吞吐量(时间不敏感)HDFS适合做什么?4应用模式为:write-once-read-many存取模式123存储小文件(不建议使用)大量的随机读(不建议使用)需要对文件的修改(不支持)HDFS不适合做什么?Hadoop的特点扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据并且线性扩展。成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数

2、据。这些服务器群总计可达数千个节点。高效率(Efficient):通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。可靠性(Reliable):hadoop能自动地维护数据的多份副本,并且在任务失败后能自动地重新部署(redeploy)计算任务。Hadoop集群的物理分布HDFSNamenode是整个文件系统的管理节点。它维护着整个文件系统的文件目录树,文件和目录的元信息以及每个文件对应的数据块列表。接收用户的操作请求。NN包括:fsimage:元数据镜像文件。存储某一时段NameNode内存元数据信息。edits:

3、操作日志文件。fstime:保存最近一次checkpoint的时间以上这些文件是保存在linux的文件系统中SecondaryNameNodeHA的一个解决方案。但不支持热备。执行过程:从NameNode上下载元数据信息(fsimage,edits),然后把二者合并,生成新的fsimage,在本地保存,并将其推送到NameNode,同时重置NameNode的edits。合并策略是根据时间和根据editslog变换大小。默认是安装在NameNode节点上,可以通过配置启动在其他节点。DataNode一个Block(数据块)在DataNode以文件存储在磁盘上,包括两个文件,

4、一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器,或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳,则认为该节点不可用并把失效节点上的block备份到其他机器上面,保证副本数为3。Block文件切分成块(默认大小64M),以块为单位,每个块有多个副本存储在不同的机器上,副本数可在文件生成时指定(默认3),因为硬件错误是常态。

5、因此需要冗余。NameNode是主节点,存储文件的元数据如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表以及块所在的DataNode等等DataNode在本地文件系统存储文件块数据,以及块数据的校验Block的副本放置策略第一个副本:放置在上传文件的DN;如果是集群外提交,则随机挑选一台磁盘不太满,CPU不太忙的节点第二个副本:放置在于第一个副本相同的机架的节点上第三个副本:与第二个副本不同集群的节点更多副本:随机节点HDFS读写流程HDFS读写流程读文件流程client端发送读文件请求给namenode,如果文件不存在,返回错误信息,

6、否则,将该文件对应的block及其所在datanode位置发送给clientclient收到文件位置信息后,与不同datanode建立socket连接并行获取数据。写文件流程client端发送写文件请求,namenode检查文件是否存在,如果已存在,直接返回错误信息,否则,发送给client一些可用datanode节点client将文件分块,并行存储到不同节点上datanode上,发送完成后,client同时发送信息给namenode和datanodenamenode收到的client信息后,发送确信信息给datanodedatanode同时收到namenode和data

7、node的确认信息后,提交写操作。15HDFS为了做到可靠性(reliability)创建了多份数据块(datablocks)的复制(replicas),并将它们放置在服务器群的计算节点中(computenodes),MapReduce就可以在它们所在的节点上处理这些数据了。数据损坏处理当DN读取block的时候,它会计算checksum;如果计算后的checksum,与block创建时值不一样,说明该block已经损坏。client读取其它DN上的block;NN标记该块已经损坏,然后复制block达到预期设置的文件备份数;

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。