欢迎来到天天文库
浏览记录
ID:1344910
大小:42.00 KB
页数:8页
时间:2017-11-10
《第十九章 故障及问题管理》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、第十九章故障及问题管理1、故障是系统运转过程中出现的任何系统本身的问题,或者是任何不符合标准的操作、已经引起或可能引起服务中断和服务质量下降的事件。2、故障处理是指发现故障之时为尽快恢复系统IT服务而采取必要的技术上或者管理上的办法。3、故障的特征:影响度、紧迫性、优先级4、故障管理目标:尽可能快地恢复服务级别协议规定的水准,尽量减少故障对业务运营的不利影响,以确保最好的服务质量和可用性。5、常见故障:硬件及外围设备故障(主机宕机、设备无故报警、电力中断、网络瘫痪、打印机无法打印)。应用系统故障:服务不可用、无法登录
2、、系统出现bug请求服务和操作故障:忘记密码、未做来访登记6、故障管理包含了:1、故障监视2、故障调研3故障支持和故障处理4、故障终止P441页图:还包括:故障分析定位故障处理跟踪7、故障接触的人员:1、故障现场接触人员2初级支持人员3高级支持人员8、故障原因分类:⑴ 主要3类:技术因素、应用性故障、操作故障⑵扩展到7类:按计划的硬件、操作系统的维护操作时引起、应用性故障、人为操作故障、系统软件故障、硬件故障、相关设备故障、自然灾害。9、监视的项目及监视方法:人员、规范操作的执行、硬件和软件是故障监视的重点所在。1、
3、对系统硬件及设备的监视包括:各主机服务器及其主要部件、专门的存储设备、网络交换机路由器等。监控方法:主要是采用通用或者专用的管理监控工具,它们通常具有自动监测、跟踪和报警的若能。2、以软件的监视主要针对:其应用性能、软件bug和变更需求。监控方法:也可以采用管理监控工具,但通常应用系统的缺陷由专门的测试工程师负责监视,或者使用过程中由用户发现并提出。3、需要监视的人员包括:系统操作员、系统开发工程师、用户、来访者,甚至包括系统所在机房的清洁工和运输公司的职工。要对他们与系统的接触过程中的行为进行跟踪和记录,防止或者及
4、早发现非标准的操作带来的系统故障或服务故障。10、故障的信息来源:服务台、系统、用户和其他IT部门故障调研过程:故障信息搜集、故障查明和记录(确认影响、问题管理、密切跟踪进展)。11、故障定位分析:中央处理器的故障定位、外围设备的故障定位、电源部件的故意定位12、故障得到解决后,服务台应该确保哪些工作?1、有关用于解决故障的行为的信息是准确易懂的。2、根据故障产生的根本原因对其进行归类。3、客户口头同意故障解决方案和方案执行的最终结果。4、详细记录了故障控制阶段的所有相关信息:客户是否满意和满意度如何、处理故障所花费
5、的时间、故障终止的日期和时间。13、服务台负责跟踪和监督所有故障的解决过程,在这个过程中,服务台要做到哪些要求?1、监督故障状态和故障处理最新进展及其影响服务级别的状况。2、特别要注意故障处理责任在不同专家组之间转移。3、更多地注意高影响度故障4、及时通知受影响的用户关于故障处理的最新进展。5、检查相似的故障。14、主机故障恢复措施:(根据所提供的备份类型不同)热重启T、暖重启2-3T、冷重启10-100T。15、数据库故障主要分为事务故障、系统故障(软)和介质故障(硬)。事务的故障由系统自动完成,恢复步骤如下:1、
6、反向扫描日志文件,查找该事务的更新操作。2、对该事务的更新操作执行逆操作,也就是将日志记录更新前的值写入数据库。3、继续反向扫描日志文件,查找该事务的其他更新操作,并做同样处理。4、如此进行下去,直到读到了此事务的开始标记,事务故障恢复就完成了。系统故障的恢复是由系统在重新启动时自动完成。步骤如下:1、正向扫描日志文件,找出故障发生前已经提交的事务,将其事务标识记入重做(redo)队列。同时找出故障发生时尚未完成的事务,将其事务标识记入撤销队列(undo).2、反向扫描日志文件,对每个undo事务的更新操作执行逆操作
7、,也就是日志记录中更新前的值写入数据库。3、正向扫描日志文件,对每个redo事务重新执行日志文件登记的操作,也就是将日志记录中更新后的值写入数据库。介质故障的恢复方法是重装数据库,然后重做已完成的事务,具体步骤如下:1、装入最新的数据库后备副本,使数据库恢复到最近一次转储时的一致性状态。2、装入相应的日志文件副本,重做已完成的事务。介质故障的恢复需要DBA的介入,DBA只需重装最近转储的数据库副本和有关的各日志文件副本,然后执行系统提供的恢复命令,具体的恢复操作仍由DBMS完成。16、网络故障恢复措施:(当遇到线路故
8、障或是网络连接问题时,需要利用备用电路或者改变通信路径等恢复方法,具体的途径如下)1、双主干2开关控制技术3路由器4通信中件17、问题概念:是存在某个未知的潜在故障原因的一种情况,这种原因会导致一起和多起故障。18、已知错误是指问题经过诊断分析后找到故障产生的根本原因,并制定出可能的解决方案时所处的状态。18、问题控制流程是一个有关怎样有效处理
此文档下载收益归作者所有