欢迎来到天天文库
浏览记录
ID:33802162
大小:56.51 KB
页数:5页
时间:2019-03-01
《系统出现宕机的解决方案》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、HPTntegrity,9000服务器-如何处理;问题;如何处理HP服务器系统宕机的故障;解决方案;系统宕机,分为几种情况:1・系统不能启动机器宕掉后重新加电可以启动系统自己重启。相比第一种情况,后两种情况处理起来容易一些。机器不能启动时,先检查启动停在了什么位置。从时间顺序分为:不能加电;加电后自检失败,不能进入BCII或者EFI;可以进入BCH或者EFI,但是不能启动系统。1)不能加电按power钮没有反应,或者是按完power钮听到风扇转动但是马上乂停掉。这种情况,在MP卡里用PS命令查看机器状态,看看是不是有某
2、些备件出了问题。比如BPS、FAN、CELL、SYSBoard等等。并且检查机器各个指示灯的状态(前后都要看),看看有哪个灯是黄、红或者不亮。检查MP日志,分析值得怀疑的问题。如果前两项工作不能确定问题,就做最小化测试。cpu、memory>bps>板卡。最坏的结果可能是做了最小化测试也不能确定出是什么备件的问题。这项工作最好交给HP响应屮心的工程师处理。2.加电后自检失败,不能进入BCH或者EFI。1.注意观查自检是停到什么地方的,或者是自检到什么位置后又自动重启了。例如,自检反复进行,到CPU自检时就重启了。通过记
3、录consoleH志,來找到自检反复进行的规律。反正机器已经不能用了,要是看不清楚就停掉它,然后重新启动,这样你会看到非常清晰的过程日志。然后记住自检的第一条是什么,再找到下一条相同的信息,它前面的就是重启前的信息了。1.检查MP日志,如果报错信息能和自检停止的设备对应上,那问题就诊断出來了。如果不能对应,就要具体分析两者之间的关系。例如,自检在CPU处重启了,而MP报的是I/O的错误。那很有可能是CPU的自检已经结果了,而I/O的自检不能开始。这样也可以判断出是I/O出现的问题。通常情况下,MP日志会报岀具体出错的备
4、件。换了再说!2.如果不能确定问题,还是要做最小化测试。但是最小化测试也要有目的性。不能和前面提到的供电问题等同。通过自检和MP日志,首先要确定一个大方向,比如怀疑可能是CPU,也或者是内存,也可能是I/O和CPU。这时候做最小化测试是可以进入BCH或者是EFI的。这种情况下,把怀疑的备件一个一个的加回來,直到问题又出现,这样故障点就找到了。Z所以要确定大方向,就是要在最小化成功后,尽快的把问题备件找到。3•可以进入BCII或者EFI,但是不能启动系统。这种情况,可能是软件,也可能是硬件问题导致的,处理起来,稍复杂一些
5、。我们以根有mirror为例。1.如果两条引导路径都找不到那就可能是I/O的硬件问题了。用SEA(PA)或者是MAP(IA)来查看所有的硬盘的路径。如果找不到了,那肯定是硬件问题。如果可以找到,但是和配置信息中的引导路径不同。可能是用户自己修改了引导路径,也或者是由于硬件问题导致路径地址发生变化。这时请检查block图。如果引导硬盘的槽位地址和block中的地址不同,那么考虑scsi链路的硬件问题(diskmidplanc,corei/o都可能有问题,corei/o的可能性很大)。如果硬盘地址和block相同,而配置引
6、导路径不同,那么显然是配置错误,修改好它就可以。1.如果有一条引导路径找不到看看从另外的路径上能不能启动。如果另外的路径能启动,那么就是找不到路径的这块盘有问题,或者是diskmidplane有问题。做个交叉测试,确定是硬盘的问题还是diskmidplane的问题。2.如果两条路径都可以找到分别从不同的路径引导。如果其中一个可以成功,用交叉测试的办法来确定是硬盘还是diskmidplane问题。如果两条路径都不能启动,那么通常报错会是一样的。可能的原因是i/o硬件问题、软件问题。i/o硬件问题拔掉所有的外设后重启。如果
7、拔掉外设后启动成功,就要定位是哪一个外设引起的。经常出现的情况是,scsi设备或者是光纤设备有问题。如果还不能启动,做最小化测试。这种最小化测试,范围定在与i/o有关的设备就可以了。例如,corei/o、板卡等。软件问题通常有几种情况:内核文件问题、文件系统问题、系统数据问题。内核文件问题,问清楚用户之前做过什么操作并尝试从备份内核启动。如果失败,尝试用光盘恢复内核。最后的办法就是备份带恢复。文件系统问题,会在启动时报出详细的错误,比如某个文件系统满、文件系统检查失败,文件系统丢失等等。这种情况下,进入单用户状态去解决
8、。需要注意的事,如果是文件系统检查失败,不要轻易做fsck-ofull操作。如果是/usr这种比较重要的文件系统,可以尝试用只读方式mount,赢得备份机会。例如,由于/usr文件系统自检失败,导致系统不能启动。这时首先进入单用户,用mount-0ro把/usr挂载上。用剩余空间新建LV,把/usr的数据复制到新LV上。修改mou
此文档下载收益归作者所有