Hadoop大数据开发与性能调优实战培训课程Hadoop组件详解.ppt

ID：51177328

大小：2.45 MB

页数：59页

时间：2020-03-19

Hadoop大数据开发与性能调优实战培训课程Hadoop组件详解.ppt_第1页

Hadoop大数据开发与性能调优实战培训课程Hadoop组件详解.ppt_第2页

Hadoop大数据开发与性能调优实战培训课程Hadoop组件详解.ppt_第3页

Hadoop大数据开发与性能调优实战培训课程Hadoop组件详解.ppt_第4页

Hadoop大数据开发与性能调优实战培训课程Hadoop组件详解.ppt_第5页

资源描述：

《Hadoop大数据开发与性能调优实战培训课程Hadoop组件详解.ppt》由会员上传分享，免费在线阅读，更多相关内容在应用文档-天天文库。

1、Hadoop之HDFS和MapReduce掌握mapreduce原理和开发123理解HDFS原理3应用举例讲解培训目标123存储并管理PB级数据处理非结构化数据注重数据处理的吞吐量（时间不敏感）HDFS适合做什么？4应用模式为：write-once-read-many存取模式123存储小文件(不建议使用)大量的随机读(不建议使用)需要对文件的修改(不支持)HDFS不适合做什么？Hadoop的特点扩容能力（Scalable）：能可靠地（reliably）存储和处理千兆字节（PB）数据并且线性扩展。成本低（Economical）：可以通过普通机器组成的服务器群来分发以及处理数

2、据。这些服务器群总计可达数千个节点。高效率（Efficient）：通过分发数据，hadoop可以在数据所在的节点上并行地（parallel）处理它们，这使得处理非常的快速。可靠性（Reliable）：hadoop能自动地维护数据的多份副本，并且在任务失败后能自动地重新部署（redeploy）计算任务。Hadoop集群的物理分布HDFSNamenode是整个文件系统的管理节点。它维护着整个文件系统的文件目录树，文件和目录的元信息以及每个文件对应的数据块列表。接收用户的操作请求。NN包括：fsimage:元数据镜像文件。存储某一时段NameNode内存元数据信息。edits:

3、操作日志文件。fstime:保存最近一次checkpoint的时间以上这些文件是保存在linux的文件系统中SecondaryNameNodeHA的一个解决方案。但不支持热备。执行过程：从NameNode上下载元数据信息（fsimage,edits），然后把二者合并，生成新的fsimage，在本地保存，并将其推送到NameNode，同时重置NameNode的edits。合并策略是根据时间和根据editslog变换大小。默认是安装在NameNode节点上，可以通过配置启动在其他节点。DataNode一个Block（数据块）在DataNode以文件存储在磁盘上，包括两个文件，

4、一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳DataNode启动后向NameNode注册，通过后，周期性（1小时）的向NameNode上报所有的块信息。心跳是每3秒一次，心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器，或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳，则认为该节点不可用并把失效节点上的block备份到其他机器上面，保证副本数为3。Block文件切分成块（默认大小64M），以块为单位，每个块有多个副本存储在不同的机器上，副本数可在文件生成时指定（默认3）,因为硬件错误是常态。

5、因此需要冗余。NameNode是主节点，存储文件的元数据如文件名，文件目录结构，文件属性（生成时间,副本数,文件权限），以及每个文件的块列表以及块所在的DataNode等等DataNode在本地文件系统存储文件块数据，以及块数据的校验Block的副本放置策略第一个副本：放置在上传文件的DN；如果是集群外提交，则随机挑选一台磁盘不太满，CPU不太忙的节点第二个副本：放置在于第一个副本相同的机架的节点上第三个副本：与第二个副本不同集群的节点更多副本：随机节点HDFS读写流程HDFS读写流程读文件流程client端发送读文件请求给namenode，如果文件不存在，返回错误信息，

6、否则，将该文件对应的block及其所在datanode位置发送给clientclient收到文件位置信息后，与不同datanode建立socket连接并行获取数据。写文件流程client端发送写文件请求，namenode检查文件是否存在，如果已存在，直接返回错误信息，否则，发送给client一些可用datanode节点client将文件分块，并行存储到不同节点上datanode上，发送完成后，client同时发送信息给namenode和datanodenamenode收到的client信息后，发送确信信息给datanodedatanode同时收到namenode和data

7、node的确认信息后，提交写操作。15HDFS为了做到可靠性（reliability）创建了多份数据块（datablocks）的复制（replicas），并将它们放置在服务器群的计算节点中（computenodes），MapReduce就可以在它们所在的节点上处理这些数据了。数据损坏处理当DN读取block的时候，它会计算checksum；如果计算后的checksum，与block创建时值不一样，说明该block已经损坏。client读取其它DN上的block；NN标记该块已经损坏，然后复制block达到预期设置的文件备份数；

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 59



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

Hadoop大数据开发与性能调优实战培训课程Hadoop组件详解.ppt

Hadoop大数据开发与性能调优实战培训课程Hadoop组件详解.ppt

相关文章

相关标签