分级处理 it故障 运维管理从容不迫

分级处理 it故障 运维管理从容不迫

ID:6670272

大小:26.00 KB

页数:5页

时间:2018-01-21

分级处理 it故障 运维管理从容不迫_第1页
分级处理 it故障 运维管理从容不迫_第2页
分级处理 it故障 运维管理从容不迫_第3页
分级处理 it故障 运维管理从容不迫_第4页
分级处理 it故障 运维管理从容不迫_第5页
资源描述:

《分级处理 it故障 运维管理从容不迫》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、分级处理IT故障运维管理从容不迫任何计算机系统都有出现故障的时候,可能发生在测试阶段,也可能发生在系统刚刚上线,还可能发生在已经稳定运行很多年的系统上,又可能发生在系统一个小小的升级之后。而这些系统出现故障所带来的负面影响则可大可小,小到一个终端的软件无法使用,大到整个系统瘫痪,所有业务不能办理。由此便有了IT故障处理分级的运作形式,将问题或故障做到先后有序,将IT运维故障划分为普通、急、紧急……依靠这套省力的约定建立故障处理流程,是解放IT支持部门最有效的法则。  当计算机故障升级到“核灾难”  佩特罗夫是原苏联一位年轻军人、计算机工程师。1983年9月26日晚上,他正在莫

2、斯科附近的某个导弹中心值班,他回忆说:“忽然,我面前的计算机屏幕变成了刺眼的红色,刺耳的警报声也随之响起,声音大得简直能把死人都从坟墓里吓醒。这是计算机预警系统发出美国向苏联实施核进攻的警报,美国人向我们发射核武器了!”一般人认为,计算机按事先编制的程序工作,它提供的信息应是绝对可靠的,计算机不会玩花招,但这次出现的情况却不是这样。警报还在不断地响,佩特罗夫没有被吓呆,而是在积极思考。根据他掌握的情况来判断,他认为,美国没有理由在当时对苏联发动核攻击,唯一的可能是计算机出错。导弹中心接到佩特罗夫的报告后,急如星火地派人对计算机进行紧急检修。结果证明,错误警报的发出完全是由计算

3、机的故障造成的,计算机在这起故障中,充当了挑起核战争的罪魁祸首。  上面这个真实存在的计算机故障被列为IT界十大故障之首。虽然这起故障最终没有引发全世界的“灾难”,但是不是今后的数十年之后,就会完全避免此类事件发生呢?这引起了我们深深地思考。  作为国内领先的IT运维产品和服务提供商的红蚁软件认为:“无论从技术角度出发,还是就业务角度而言,我们都需要对经常发生的IT故障进行各种考虑和权衡。在看起来似乎无法立即解决所有故障的情况下进行正确的权衡,则是IT运维人员成功的关键。这意味着要首先确定有哪些系统出现问题,会波及到核心业务的停滞范围,以及理解并确定如何在出现故障的时候按照紧

4、急度权衡,从而避免影响面最大的灾难事件发生。”  红蚁运维的技术专家以一家正在实施BTIMIT综合管理系统的银行IT系统为例,为我们说明了故障和灾难的区别。例如,对于一般的电脑系统故障,信科部或业务部门通过通常的措施(如激线、重组、重起、切换、脱机交易、冲证等)在短时间内能够恢复对外的服务,对银行业务和客户利益没有造成重大影响,此类事件称之为故障。如果信息中心发生严重故障,导致管辖内大部分或全部的业务无法进行,且在一天内仍无法恢复正常对外服务,此类故障则要称之为“灾难”了。  故障优先级的两大核心要素  确定优先级需要综合考虑突发事件对业务的影响情况、恢复服务对业务的紧迫性、

5、突发事件的大小、范围和复杂程度以及当前可供突发事件处理的资源等等。在定义优先级之前,我们必须清楚它与两个最重要的因素有关,即:影响度、紧急度。其中,影响度是衡量故障影响业务大小程度的指标,通常相当于故障影响服务质量的程度,它一般是根据受影响的人或系统的数量来确定的。而紧急度是评价故障和问题危机程度的指标,是根据客户的业务需求和故障或问题的影响而制定的。因此,如何设定优先级,这需要根据影响程度和紧急程度的评估和数据收集工作,之后才是制定故障的处理顺序。  一般来说,当IT出现故障时,首先要记录与故障有关的客户和用户的信息,如姓名、工作地点和联系电话等等,先对故障进行“初步归类”

6、,然后再进行初步处理。在对故障进行归类后,如果没有成功地将故障与问题或先前知名错误(知识库)进行匹配,下一步就是确定故障的优先级了,以确保对应的负责人给予故障必要的注意。当IT运维部门必须同时处理数个故障的时候,由于受到了时间、资源和人力等限制而无法立即解决全部问题时,此时就要排定处理的先后次序,即确定每个故障的优先级。但当出现故障后,没有用户会说他的问题可以放到以后解决。相反,他们总是认为自己的问题才是最需要优先解决的。因此,企业最好的IT运维方式,是通过服务台机制、或是历史的积累,以及业务部门负责人的认定之后,才能根据统计一些量化的指标来决定优先级。  当然,不同的企业所

7、定义的故障优先级是不同的。例如:制造企业的ERP系统的故障的紧迫性和影响度就非常之高,有些故障或问题会直接影响业务运作,或影响公司的对外服务水平,或有法律上的风险。因为这会影响对客户承诺的送货时间,价格数据有误等等,这些故障或问题需要IT支持部门马上做出支持,以便最大限度地降低对业务运作的影响。  定义告警事件优先级有效地处理故障  企业的IT管理部门就是为企业提供IT后勤服务,而IT运维软件又是为企业的IT管理部门提供后勤服务的,而这恰恰是很多未能推进IT运维监控工作的企业最容易忽视的地方。这些企业依

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。