移动智能网平台故障浅析.doc

移动智能网平台故障浅析.doc

ID:52381913

大小:62.50 KB

页数:4页

时间:2020-03-27

移动智能网平台故障浅析.doc_第1页
移动智能网平台故障浅析.doc_第2页
移动智能网平台故障浅析.doc_第3页
移动智能网平台故障浅析.doc_第4页
资源描述:

《移动智能网平台故障浅析.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、移动智能网平台故障浅析【摘要】设备单磁阵硬盘故障导致整个磁阵存储失效,导致SCP与数据库库连接失败,智能业务触发业务阻塞,故障处理过程及故障原因进行分析。【关键词】智能网签约SCP数据库连接1告警信息及影响范围08:00智能网平台SC卩设备CP过负荷,告警属二级告警,智能网平台的SCP1与数据库连接状态正常,无异常告警,现场设备状态检查及设备运行指示灯止常,无告警指示,经测试影响部分用户做被叫接续,后续处理过程中影响5万用户业务使用。2处理过程(1)经测试发现到一号通及彩铃的呼损越来越多,考虑到严重影响业务,基本处于业务全阻状态,在SCP

2、设备上用ROOT用户执行su-zxinlO命令,系统无响应。(2)查看系统发现有异常多归属zxinlO用户的进程,正常运行时系统只有20个左右,但当时观察到有数百个。使用“毗用户执行强制停止并重启双机的命令,停止后双机无法启动。重启SCP1后双机仍无法正常启动,操作过程屮观察到SCP2设备自行重启。(3)查看设备运行状态,与其连接磁阵设备无任何指示灯告警。多次尝试SCP设备和数据库进行重新挂接均失败,重新启动SCP后与数据库挂接仍旧失败,智能网平台所带业务全部中断,影响同振、一号通、彩铃业务正常使用,用户不能做被叫或彩铃不能正常播放,大约

3、影响5万用户业务使用。(4)多次尝试SC卩设备和数据库进行重新连接均出现失败,中兴公司据此判断可能HP磁盘阵列原因导致连接失败,同时发现Sybase数据库无法止常启动,建议检查磁阵。(5)检查与SCP连接的HP-DS240设备,分析设备运行log日志,发现DS2405的1块硬盘有报错,vgsybase无法激活,与SCP无法挂接判断原因一致。1)/var/opt/resmon/log/event.log中DS2405slot3槽位的硬盘c4L2dO每天在23:00-24:00左右报一次错,无影响业务。2)/var/cmcluster/zxi

4、nlO/zxinlO.cntl.log有业务进程10报警进入sleeping状态,错误信息逐步累积,严重影响CP过负荷以致影响部分业务,直到6月4日早上,导致过多的进程占用了CTU和内存资源,系统临近崩溃。(6)判断出故障后决定更换设备硬件,停业务更换了故障硬盘,存储恢复。业务可以在备机SCP2±正常启动,SCP2与HP-DS2405存储恢复访问,业务恢复。(7)SCP1挂接数据库仍然失败,中兴及惠普工程师对SC卩1与数据库连接失败原因分析,最终确定系统文件cron,allow文件丢失导致失败,重新装载数据后恢复止常,SCP2与IIP磁阵

5、止常连接。3原因分析3.1磁阵一块硬盘故障影响整个存储系统分析HP-DS2405的一块硬盘导致存储访问异常进行了简单的分析,DS2405是低端存储,使用Arbitratedloop或PrivateLoop仲裁环。这种拓扑的特点是“串行”的,即所有的设备都串在这个环上,同时只有2个port可以通信,而且只有抢到“仲裁权”的port.可以通信。这是一种低级别的拓朴,缺点是如果同一个loop上的一个设备损坏,其他设备就受到影响。DS2405设备每1块硬盘盘实际上都是这个Loop上的1个设备。此次硬盘故障怀疑是硬盘故障点影响了仲裁功能,但还没有彻

6、底损坏,并没有被DS2405标记为坏盘,导致与SCP设备连接状态正常,但是设备负荷过大导致业务处理能力下降。1块硬盘故障时其他盘的访问并没有受到影响,业务受到影响是因为过多的进程因为此故障盘10异常进入sleeping状态,占用了过多的CPU和内存,导致业务异常。3.2SCP1启动异常原因分析SCP1上启动异常是cron,allow文件丢失导致,cron,allow文件文件是crontab即hpux下的“计划任务”使用的文件,其中规定了可以执行crontab的用户列表,只有在这个列表里的用丿勺才有权限执frcrontaboH卩UX操作系统

7、本身用不到crontab,默认这个文件是空的。启动脚本会切换用户并调用crontab,但在查看cronallow时文件丢失,所以业务用户无法执行crontab启动失败。cron,allow只会在丿占动时被查看,crontab计划任务运彳亍后就不再查询cron,allow,作用类似汽车上的“启动机”,所以如果在运行中删除不影响业务。4总结及建议(1)HP-DS2405已经在网运行10年,稳定性和兀余性已经无法满足重要业务的需要,建议对硬件进行更新升级,搭建容灾存储,实现容灾存储同步,故障时倒换到容设备。(2)完善HP-DS2405备份策略,

8、缩短用户数据备份周期,把智能网和IILR用户数据全备份,1周1次备份,做好数据分类以便应急使用。(3)加强设备告警巡视及设备log日志的分析,故障隐患及时处理。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。