欢迎来到天天文库
浏览记录
ID:10026901
大小:27.50 KB
页数:6页
时间:2018-05-21
《it运维服务危机管理研究 》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、IT运维服务危机管理研究IT运维服务危机管理研究IT运维服务危机管理研究IT运维服务危机管理研究 复杂性随着知识产权事业的高速发展,专利信息化水平不断提高,服务器设备、存储、网络交换机、数据库、中间件等系统不断增加,IT运维规模越来越大,在一定程度上增加了运维的复杂性,另外还涉及不同厂商、不同品牌等,IT环境结构庞大、复杂,各业务系统调用接口众多,从而导致故障定位困难。先兆性IT系统发生故障时,会有一定的先兆性,例如:设备硬件异响、内存、CPU使用率高、监控指标达到预警值等,需要运维人员根据经验、能力敏锐察觉设备故障先兆表现,及时发现问题,快
2、速定位,把问题解决在萌芽状态。突发性IT运维中,也会有一些突发性故障,例如机房停电、漏水、消防火警等,对于这类紧急情况的处理需要按照应急预案进行操作。需要运维人员沉着冷静,正确应对。突发性故障如果不能及时响应,正确应对,造成的危害将是灾难性的。这就要求必须提前制定相应的应急预案。 服务台故障报修量经过统计近几年服务台故障报修数量:2013年8万件,2014年9万件,2015年突破9万,2016年将近10万。如图1所示看出随着设备使用年限的增长,已进入故障高发期。机房动力环境机房动力环境包括空调、UPS、消防、门禁、新风机等,其中空调故障占%,
3、UPS故障占%,外围保障占10%。机房动力环境故障主要集中在空调故障,空调故障有可能导致机房高温,造成服务器设备宕机,进而影响业务系统,空调故障危害性大,影响面广,是机房动力环境需要重点关注的对象。IT业务系统IT业务系统包括服务器、网络、小机、安全设备、主机、数据库、中间件、存储等。根据IT工作的特点,可以将IT业务系统故障分为两类:硬件和软件。一种是服务器、网络交换机等硬件设备故障,另一种是数据库、中间件等软件故障。IT业务系统故障主要集中在硬件故障,经过统计数据发现,硬件故障占85%,软件故障占15%。其中硬件故障又细分为电源、硬盘、内存
4、、其他几类,分别占45%,35%,3%,17%。在硬件故障中,电源和硬盘为主要故障占80%。 应急预案根据各自业务特点制定了相应的应急预案,在危机发生时运维人员能够做到有预案可依,正确应对,把危机带来的危害降到最低。例如机房动环部分有停电应急预案、漏水应急预案、消防应急预案,IT系统部分有E系统应急预案、S系统应急预案、存储应急预案、网络应急预案等。另外,针对节假日期间,还制定了非工作时间重大事件处理流程,以方便值班人员在故障发生时,可以遵循相应的规则操作,解决问题。建立联动机制为了更好地应对IT运维服务危机,建立了联动机制,危机发生时,适时
5、启动更好的解决问题。有些故障比较复杂,可能涉及多方面业务,例如网络、存储、应用等,需要协作共同定位排查问题,解决故障。针对这种情况,建立了总值班人制度,由总值班人进行统一沟通、协调、汇报。危机恢复后及时总结当IT运维故障处理完毕后,及时对问题进行分析总结,找到事发原因,形成分析报告,为今后避免此类情况再发生打下基础。 引用4R危机管理模型构建一个完整的危机管理架构进行支撑,构建信息中心IT运维服务危机管理体系,包括危机缩减、危机预备、危机反应、危机恢复4个方面。危机缩减在4R模型中,危机缩减是整个危机管理过程的核心,对于组织来说,如果能够将危
6、机风险解决在萌芽状态,有效阻止危机潜在的诱因继续发展扩大,就能够在危机全面形成前将其控制,把危机带来的危害降到最低。危机缩减主要是未雨绸缪,进行预防,把相关工作布置在危机发生之前,危机缩减在危机管理中是关键的一环,该阶段也是解决危机最有效果的。IT运维服务危机缩减管理主要包括进行风险评估、加强风险缩减。在信息中心日常IT运维中,应采取一系列措施,降低风险发生的机率,根据风险评估表,制定有效的应对方法,确保该风险能够降低到组织可以接受的水平。危机预备危机预备是危机管理过程的关键,针对各种危机情况,提前做好预防,在危机来临时,可以进行主动的,有准备
7、的应对,更好地消除危机。所以,在信息中心IT运维服务危机管理时,应重视预防,坚持预防为主,防治结合的原则。IT运维服务危机可以提前进行预防,不管人为因素或突发事件引起的危机,都可以提前制定应急预防,并进行定期演练,这样在一定程度上对危机进行防范,最大程度控制危机,减轻危机对组织带来的不利影响。IT运维服务危机预备管理包括4个方面:组建危机管理团队、完善危机预警系统、强化危机管理预案、定期开展容灾演练。危机反应IT运维服务危机反应阶段是指当危机发生后,危机管理团队马上进行评估,确定危机的级别及影响范围、程度,根据相关应急预案进行处置,该阶段是解决
8、危机的重要环节,在IT运维服务危机反应阶段应做到准确、快速、及时、有效,把危机带给组织的冲击降到最低,减轻损失。IT运维服务危机反应管理包括快速识别确
此文档下载收益归作者所有