HDFS高可用性方案.ppt

HDFS高可用性方案.ppt

ID:55796010

大小:2.04 MB

页数:20页

时间:2020-06-07

HDFS高可用性方案.ppt_第1页
HDFS高可用性方案.ppt_第2页
HDFS高可用性方案.ppt_第3页
HDFS高可用性方案.ppt_第4页
HDFS高可用性方案.ppt_第5页
资源描述:

《HDFS高可用性方案.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、HDFS高可用性方案大数据高可用性方案:一。副本技术方案:主要介绍HDFS。二。纠错码技术方案:主要介绍HDFS-RAID。1.集群高可用方法一:副本技术主要代表方案:GFS/HDFS、Glusterfs复制卷和RAID1。Glusterfs复制卷方法如下图所示:1.1副本技术的功能副本(Replication)就是对原始数据的完全拷贝。功能:(1)通过冗余的文件数据,可以十分有效地提高文件的可用性;(2)副本还可以选择性地放在合适的存储节点上,通过路由协议配合,可以实现数据的就近访问,提高系统性能。2.集群高可用方法二:纠错码技术主要代表方

2、案:HDFS-RAID、AZURE、QFS、ISILON等。我们将以HDFS-RAID为主来说明。2.1HDFS-RAID总体架构HDFSRAID的实现不再HDFS上直接修改,而是在HDFS之上增加了一个包contrib。2.1HDFS-RAID基本功能1Raid数据的管理DRFS的管理包括DFS中哪些文件需要进行raid化,查询raid文件状态等,由RaidShell通过RPC与集群中的RaidNode通信,完成操作。2Raid数据读写DRFS包装了DFS的读(只是读)请求,当发生block丢失或损坏,DRFS会捕获异常,并向RaidNod

3、e发送RPC对失效的数据进行恢复。2.1HDFS-RAID工作原理(1)HDFS-RAID中包括RaidNode、NameNode和JobTracker三个主节点。数据raid化有两种:1.通过raidFile命令触发;2.周期扫描policy配置,根据新的配置信息进行相应的raid化。2.1HDFS-RAID工作原理(2)raidFile命令处理流程:2.1HDFS-RAID工作原理(3)流程说明:1.检查delay时间,到时间方执行;2.参数处理,包括path路径校验,codec设置等;3.查询path路径状态,分为local(本地)和d

4、ist(远程)两种模式;4.根据参数构造一个新的raid-policy,等待TiggerMonitor线程下次处理该policy。2.1HDFS-RAID工作原理(4)新policy处理流程:RaidNode上有一个守护线程riggerMonitor周期性地从configManager中获取policy列表,对每个policy进行如下处理:1.如未执行过,立即处理;如已处理,过滤其path中尚未处理的file;2.如果是local模式,对列表中的file执行RaidNode.doRaid();3.如果是dist模式,构建一个raidjob,就

5、是一个待raid文件path构成的sequence文件,RaidNode.doRaid()对该文件中的filepath进行raid。2.1HDFS-RAID工作原理(5)RaidNode.doRaid()的主要流程如下::2.1HDFS-RAID工作原理(6)流程说明:1.获取文件block和delay信息,如果block数<3或未至delay时间,则不进行raid;2.如果已到达delay时间且block数>2时则进入步骤3;3.检查相应的parity文件是否存在,如存在,检查parity文件的更新时间是否与源文件一致,如是,则认为该源文件

6、已经raid且是最新,不进行raid。4.如果parity文件不存在或不是最新,则生成parity文件,生成方法说明如后,并设置parity文件的更新时间与源文件一致。5.检查policy文件的最终状态,是否与源文件一致。通过则raid完成。2.1HDFS-RAID工作原理(7)生成parity文件的Encoder过程:2.1HDFS-RAID工作原理(8)Encoder流程说明:1.由于编码过程会比较长,所以先生成™p文件;2.构建™p文件path;3.通过ErasuedCode(主要有XOR算法和RS算法)来编码到™p文件;4.删除原有的

7、parity文件;5.将™p文件重命名为parity文件;6.删除™p文件。2.1HDFS-RAID工作原理(9)发现错误时Decoder修复过程:2.1HDFS-RAID工作原理(10)修复流程说明:1.根据文件中出错的位置,计算出错的block,该block所在的stripe,以及在stripe中的位置,计算parity文件相应block的位置2.读取源block数据和parity数据,读取方式与编码时类似;3.通过ErasuredCode将源block和parity数据的进行解码,生成丢失的block数据。2.2HDFS小结集群存储系统

8、中,采用纠删码可以提供比副本机制更高的可靠性,并且所需的存储空间开销更小。纠删码能提供很高的容错性和很低的空间复杂度,但编码方式较复杂,需要大量计算,性能稍差。12

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。