欢迎来到天天文库
浏览记录
ID:59252518
大小:15.38 KB
页数:4页
时间:2020-09-08
《Sqlserver2008“3+1”数据库群集故障处理报告.docx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、Sqlserver2008“3+1”数据库群集故障处理报告故障发生时间:2016年5月25日00:10:00故障解决时间:2016年5月28日16:00:00故障发生的地点:中学集团外国语学校四楼教育数据中心故障处理相关人员:高工、王工、周工故障发生的现象:2016年5月25日凌晨数据库群集依赖的EMC存储的二块电池模组中的一块发生故障,随之群集节点2(DATABASE2)脱机不可用数据库实例2(SQLSERVER2)向群集节点4(DATABASE4)进行迁移。2016年5月25日王工重启服务器节点2、2016年5月26
2、日高工重启服务器节点3(当时是可用状态,重启的过程中数据库实例3(SQLSERVER03)服务转移到节点4),之后在群集管理器当中节点2、3都是脱机不可用状态、同时也无法联机。故障处理步骤:1、2016年5月25日王工重启服务器节点2,节点2脱机不可用,数据库实例2(SQLSERVER2)转移到节点4(DATABASE4)上提供服务2、2016年5月26日高工到达现场,首先检查当前可用的三个节点(DATABASE1DATABASE3DATABASE4),以及三个实例(SQLSERVER01SQLSERVER2SQ
3、LSERVER03),再次手工对所有数据库进行备份操作3、重点对节点2(DATABASE2)进行操作1)备份节点所有关键配置(系统、服务、网络、MPIO等)2)偿试在群集服务上加载节点2,并进行群集节点配置验证(主要是在存储和网络二项上通不过,验证加载不了磁盘)3)根据经验调整节点2心跳、管理和数据三块网卡的NETBIOS设定,主要是除数据卡上启用NETBIOS功能外、其他都禁用,同时使用PING–S172.30.100.50172.30.100.21(x)等来测试网络可用性4)使用nettime检测四个节点与域控之间的
4、时间同步,节点1的时间同步有问题(暂未处理)5)从群集服务中退出节点2,在节点2上执行DOS命令clusternode/forcecleanup,以及在PowerShell中执行clear-clusternode命令,再添加到群集服务验证时报磁盘空间不足的错误6)偿试将节点为2上的群集功能删除,同时对照节点1上的功能来添加系统功能,再添加群集服务验证时还是报磁盘空间不足的错误7)请求公司同事周工的帮助,检查发现应该是iSCIS服务有问题,节点2上有二个DGCRaid5的磁盘,一个已添加一个未添加,后删除已添加的将未添加的
5、加入,这时在节点为的磁盘功能上出现问题,本应群集服务同一时间只在一个节点上可用的磁盘在节点2和节点4上都可用8)此时怀疑EMC磁阵电池组故障导致群集服务有问题,所以在群集服务中对四个点的存储服务进行验证,此时报大量的节点加载磁盘有问题9)为了验证是否是磁阵的问题手工对实例3(SQLSERVER03)进行迁移,将实例3从节点3迁移到节点4上,检查确认无误10)重启节点311)重启后的节点3与之前的节点2问题一致,此时十分肯定是由于磁阵的问题引起群集服务故障,猜测可能当前可用的节点1和节点4都有同样的问题,所以接下来的在问题
6、解决好之前节点1和节点4不能做任何操作12)在肖老师的协助下协调了EMC的工程师上门检查,由于时间很晚,无法获得备用电池组进行更换13)EMC工程师检查认为不可能是电池的问题引起群集故障,建议我们重装EMC存储多路径管理工具POWERPATH14)EMC工程师协助安装POWERPATH时出现乱码的错误,经过多次的偿试后建议我们还是重装节点2的操作系统4、时间到了2016年6月27日1)首先对节点2和节点3进行备份,做好重装的准备2)EMC的工程师上师更换电池模组3)偿试再次安装POWERPATH时没有任何问题,能够正常安
7、装4)由于不想完全重新安装配置节点2和节点3,主要是担心重装后还是挂不上节点,所以请求公司的同事周晓帮忙一起处理5)高工和周工同时一人处理一个节点,偿试各种办法和查找各种可能,节点2和3基本上就剩下操作系统没有重装6)在此情况下向用户方请求再重启一个节点(节点1DATABASE1)来验证更换电池后是否是问题都解决了,还是所有节点重启后都无法挂载到群集服务上。如果是都无法挂载到群集服务上也就意味着当前的群集服务已经损坏,一切都需要从头再来。7)用户方同意晚上7点过后重启节点1(DATABASE1)来进行验证8)重启节点1后
8、发现一切正常,实例可以在节点1和节点4之间进行迁移,同时重启后对节点1进行群集验证不再报任何的错误,说明更换电池模组后问题都解决了9)此时为了更保险,节点4还是坚持没有重启10)在节点1上再增加一个实例2(SQLSERVER2)的转移节点,将实例2单独转移至节点1上运行,实例1和实例3转移至节点4上运行11)此时节点
此文档下载收益归作者所有