宏杉科技iddc与craid技术

宏杉科技iddc与craid技术

ID:16437665

大小:1.67 MB

页数:13页

时间:2018-08-09

宏杉科技iddc与craid技术_第1页
宏杉科技iddc与craid技术_第2页
宏杉科技iddc与craid技术_第3页
宏杉科技iddc与craid技术_第4页
宏杉科技iddc与craid技术_第5页
资源描述:

《宏杉科技iddc与craid技术》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、MacroSANIDDC与CRAID技术杭州宏杉科技有限公司13/131.典型案例某用户配置了16块1TB磁盘做RAID5,承载其在线关键业务。运行3年后,磁盘开始陆续损坏,发现其重建过程漫长。在其业务未中断的情况下,完成一次重建所需时间长达5天,这种情况还不是最糟的。更糟的是,在某次重建过程中,重建进程完成到60%时,重建过程被异常中止,RAID组fail,整个数据卷损坏,数据丢失。经检查发现,在重建过程中,该RAID组中的另一块磁盘发生了读错误,导致磁盘failed,被RAID组踢出。通过这个案例我们可以看出几个问题

2、:1、磁盘属于消耗品,发生老化后,会产生潜在故障盘或假象故障盘;2、故障盘或假象故障盘都将导致RAID组重建;3、大容量磁盘RAID重建时间过长,重建过程风险巨大;4、潜在故障盘将导致RAID重建失败;什么是假象故障磁盘简单的说,假象故障磁盘就是在使用中发生错误告警,但返厂后经检查发现该磁盘没有任何物理损坏,检测为正常的磁盘。为什么会有假象故障磁盘通常是与设备运行环境有关的,比如磁盘受到外力导致的振动达到一定程度,就会造成磁盘工作失灵,这种失灵往往在消除振动后可以恢复。l磁头在盘面的水平方面振动,会导致磁头与磁道偏离,磁

3、头与目标磁道位置偏离过大,超过了伺服机构能响应的允许值,此时磁头根本无法定位,造成工作失灵;l磁头在与盘面垂直方向的振动,导致磁盘盘面与磁头距离的变化,磁头和盘片的间隙过大,造成磁头感应到的信号电压不足,磁盘无法读/写;什么是潜在故障磁盘13/13简单的说,潜在故障磁盘就是已经存在损坏扇区,但在设备运行状态中却显示为正常的磁盘。为什么会有潜在故障磁盘由于磁盘本身属于易耗品,存储设备长期在线运行后,根据业务类型及机房环境不同,磁盘会出现不同程度的老化。这些老化磁盘中可能会存在不同程度的损坏扇区,而损坏扇区在没有IO读写触发

4、的条件下,通常不会被存储设备感知。这种未被感知,但又存在一定损坏扇区的磁盘,就是潜在故障磁盘。一般情况下,潜在故障磁盘在非RAID环境中可能会导致磁盘中的部份文件埙坏或丢失。若存在于配置了RAID组的存储环境中,其危险性将及有可能会乘以N倍的数量放大。故障磁盘的危害l冗余RAID组重建频繁:存储设备长期在网运行后,由于机械设备老化,磁盘假象故障发生的机率增加,并且会有越来越多的潜在故障磁盘转化为故障磁盘,这些磁盘的陆续损坏导致了频繁的RAID组重建。传统存储设备的RAID组重建过程中,会大量消耗读写性能,尤其对于大容量磁

5、盘,重建时间过长。因而往往会影响到用户业务的正常访问,且易出现冗余RAID组重建失败,发生数据丢失的事故。l冗余RAID组重建失败:根据冗余RAID组原理,特别是采用积偶效验算法的RAID组,如RAID5、RAID6,在进行RAID组重建时,需要读取该RAID组中其它成员成盘上的所有数据,来计算被替换故障磁盘的数据。对于长期在网运行,磁盘老化较严重的设备,往往会隐藏着一定的潜在故障磁盘,一旦这些磁盘在重建过程中转化为故障磁盘,该RAID组会立刻失效,重建失败,导致该RAID组所有数据丢失。1.问题与挑战随着云时代的到来,

6、数据量越来越多,磁盘容量越来越大,发生磁盘损坏的比率也越来越大,如何解决磁盘故障对存储带来的危害成为重要课题目。问题:1、磁盘属于消耗品,一般3年左右,发生机械老化;2、发生老化后,会产生潜在故障盘或假象故障盘;3、故障盘或假象故障盘都将导致RAID组重建;4、大容量磁盘RAID重建时间过长,重建过程风险巨大;5、潜在故障盘易导致RAID重建失败;挑战:1、变被动重建为主动检测;13/132、提高RAID容错度;3、降低磁盘误判;4、提高错误修复效率;5、减少数据丢失风险;1.磁盘维护新方式-IDDC主动式磁盘诊断中心基

7、于多年存储维护经验的深刻理解,MacroSAN开发了一套可以在不增加任何附加投资的条件下,最大化提高磁盘及RAID组安全性的,智能存储磁盘维护检测修复工具。IDDC:InitiativeDiskDiagnosisCenter,主动式磁盘诊断中心该诊断中心包含了4个模块(磁盘检测、快速修复、坏块复位、磁盘诊断),它可以通过预先设置的策略定期对磁盘进行错误检测,用于发现磁盘中是否存在错误码。再根据错误码叛断磁盘错误类型,并进行相应的坏块修复、磁盘迁移或磁盘修复等操作,以提早处理磁盘潜在故障隐患,降低RAID组重建损坏机率,提

8、高设备稳定性。l磁盘检测:Ø对所有磁盘进行周期性全盘检测,提前发现故障;Ø支持磁盘检测速率动态调整,不影响应用性能;Ø发现问题的磁盘交由诊断中心统一处理;l快速复位:结合CRAID的局部重建机制,可快速修复磁盘逻辑错误,降低全盘重建机率。13/13l坏块修复:经过检测的磁盘发现存在坏块(扇区)后,会触发磁盘自身的re

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。