欢迎来到天天文库
浏览记录
ID:51216198
大小:1.10 MB
页数:23页
时间:2020-03-20
《网络故障与排查思路及方法.ppt》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、故障诊断与排查谢茂楠2021年9月1日1掌握学习的金钥匙-全身心的帮助他人,成就他人2互联网的便利3场景141、遇到故障我要怎么去思考,怎么去处理?2、在处理故障的过程中我需要关注什么?课程的目标5熟悉故障处理流程掌握故障诊断的方法与步骤课程的主要内容6概念及目的故障排查流程故障定位核心思想定位角度分析诊断工具诊断的原则OSI七层网络模型处理网络故障1、概念与目的7概念运维故障诊断是以业务系统相关的硬件、网络、服务器、系统、应用及业务使用等为知识基础。从故障现象出发,以诊断工具为手段获取诊断信息,确定故障点,查找问题的根源,排除故障,恢复目的有三方面的目的
2、:确定业务系统的故障点,寻找业务系统运行的方法;发现业务系统规划和配置及使用过程中欠佳之处,改善和优化业务系统的性能;观察业务系统的运行状况,及时预测业务系统使用质量,并合理调配资源。2、故障排查流程82.2.1识别故障现象9⑴故障现象发生时,正在运行什么进程?业务有什么反应⑵这个进程以前运行过没有?⑶以前这个进程的运行是不是可以成功?⑷这个进程最后一次成功运行是什么时候?⑸从最后一次成功运行起,哪些进程发生了改变?2.2.2对故障现象进行描述10对故障现象的详细描述显得尤为重要,如果仅凭用户对故障表面的描述,有时并不能得出结论。这时就需要我们亲自操作运行
3、一下导致故障的程序,并注意相关的出错信息;可以参考以下几个建议:⑴收集相关故障现象的信息内容,并对故障现象进行详细描述,在这个过程当中要注意细节,因为问题一般出在小的细节方面。⑵把所有的问题都记录下来。⑶不要匆忙下定论。2.2.3列举可能导致故障的原因11应当列举可能的原因:服务器硬件(网卡、内存、硬盘)网络(交换机、路由器、网线)操作系统(内核配置、防火墙)应用程序(配置参数、版本变更)等2.2.4缩小故障原因的范围12可根据出错的可能性把这些原因按优先级别进行排序,一个个先后排除。不要根据一次测试,就断定某一点是运行正常还是异常。另外,也不要在自己认为
4、已经确定了的第一个错误上就停下来,应该把自己所列出的所有可能原因全部检查一遍为止。2.2.5.制订并实施排障计划13当确定了导致问题产生的最有可能的原因后,要制定一个详细的故障排除操作计划。在确定操作步骤时,应尽量做到详细,计划越详细,按照计划执行的可能性就越大。一旦制定好计划,就要按步骤实施这个计划。2.2.6.排障结果的评估14故障排除计划实施后,测试是否实现了预期目的。当排错行动没有产生预期的效果时,我们首先应该撤销在试图解决问题过程中对系统做过的修改,如果保留了这些修改,则可能会导致出现另外一些人为故障。2.3故障定位核心思想15搜集现象的各个方面
5、,分析现象找到核心,分段排查,缩小范围,定位故障点,最快解决故障,最终想方法防止同类或者相似故障的发生,提升系统稳定性与效率2.4定位角度分析16故障的内容(单个业务模块、部分业务模块、所有业务模块)故障频率(偶尔、经常、一直)故障范围(单台、部分、所有、内网、外网)物理环境(网络设备供电情况、网络设备连接情况)2.5诊断工具17硬件工具网络工具:测线仪系统测试工具:笔记本、手机硬件工具:硬件诊断卡软件工具网络工具:pingtracertetstatarpipconfigrouteprint,wireshark,tcpdump,lanSee数据
6、库工具:Idera.SQL.Check、sqlserverstudio、,toadfororacle内存分析工具:windbg2、httpwatc日志分析工具:秋氏iis日志分析工具http分析工具:httpwatch、谷歌浏览器2.6诊断的原则182.6.1.排除用户错误在开始排除故障时,应该确认用户的操作是否完全正确,用户很容易犯错误而误认为是局域网出了问题。2.6.2确定故障的范围通常,业务系统的问题可以限定一天什么时候出现。一旦确定了故障的范围,试着重现故障的症状,如果可能,可以尝试严格按照发现故障人的操作步骤进行故障症状重现,要注意有些故障症状只
7、有在特殊的环境下才能重现。2.6.3考查整个业务系统中涉及到的软硬件或者人为操作的变化比如网络、服务器硬件、软件版本、软件升级发布、人为的操作、业务变更等变化2.6.4替换故障设置19值得说明的是:⑴只有在找到能够正常工作的设备的条件下,才可以替换发生故障的同类设备。⑵在对设备进行替换之前,要确保局域网现用配置文件的可恢复性。⑶每次只可以替换一个设备。在替换第二个设备之前,必须确保前一个设备的替换已经解决了相应的问题。2.6.5.寻求技术支持20⑴收集相关设备信息为了更有效地诊断故障,应该尽可能提供与故障相关的信息。这些信息包括软件的版本号、操作系统的版本
8、、设备的型号以及设备的序列号等。⑵排除与设备无关的因素为了更快地分
此文档下载收益归作者所有