山东移动IT应急容灾体系建设

山东移动IT应急容灾体系建设

ID:46091958

大小:65.63 KB

页数:4页

时间:2019-11-20

山东移动IT应急容灾体系建设_第1页
山东移动IT应急容灾体系建设_第2页
山东移动IT应急容灾体系建设_第3页
山东移动IT应急容灾体系建设_第4页
资源描述:

《山东移动IT应急容灾体系建设》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、山东移动IT应急容灾体系建设建设IT应急(容灾)系统似乎是一件不讨好的事,花费很多钱只是为了预防“万一”。“万一”不岀现,大量的投入看起来就浪费了,但是又不得不预防“万一”。最坏的情况是,尽管花了不少钱,但真正出现“力•一”的时候,应急系统却没有发挥作用。“三多一小”的应急体系山东移动的BOSS应急体系建设,概扌舌起來就是“三多一小”,即多级冗余,数据为先;多级预案,逐步升级;多级联动,重点保障。多级兀余,数据为先。要做到多级兀余,一是主机和磁盘阵列的兀余配置,主机的电源、内存、磁盘、光纤卡、网卡等都是冗余的,冗余的网卡、光纤卡要确保连

2、接在不同的交换机上。二是机房、空调、电源的冗余,电源要配独立的双UPS和双电源线接入。三是物理传输路由的冗余,兀余光纤传输要來口不同的物理路由。卩L

3、是数据中心的兀余,三个中心互为灾备,任何一个瘫痪,都可以由另外两个数据中心接管。多级预案,逐步升级。一级为业务应急预案,在业务本地运行模式下,系统出现故障时启动,以实现对业务的影响最小或者没有影响。通过业务部署、业务兀余处理模块等多种方式实现。二级为本地接管预案,在单点故障或设备主动维护时,BOSS各个业务系统均实现木地HA(高可用性)接管,关键系统如营业、计费、漫游、接口都实现了自动接管

4、。三级为容灾切换预案,山东移动建设了负荷分担、互为备份的三中心容灾体系,数据库层采用1对2的架构,采用“存储底层同步复制+定时快照复制”技术,防止数据的物理或逻辑错误。四级为备份恢复系统,它提供牛产数据快照及磁帯备份,日常全备和增量备份均直接通过远程SAN备份到异地屮心,用于严重事件的应急恢复工作。从第一级到第四级预案,故障带来的损害程度逐渐壊人,处理吋间也逐步增长,当然对业务的影响程度也逐渐增人。根据事件发生的性质和影响程度,优先采用影响业务小的预案,并视情况逐步升级应急预案,目的是使事件对业务的彩响减少到最低。多级联动,重点保障。建

5、立完善的应急管理制度,才可以保证在遇到突发事件时,应急管理组织体系能够有效运转。经过几年的实践,山东移动建立了应急监测预警机制、信息沟通机制、应急决策和协调机制、分级负责与响应机制。理顺了业务与IT部门在应对突发事件屮的关系、应急指挥和实施部门的关系、综合应急部门和支持厂商的关系,建立了信息统一、管理对接、资源共享、协同有力的应急管理机制,调动各方面应急管理的积极性。一方面,梳通内部流程,打通省W间、账务中心与其他部门间的通道;另一方面,梳通厂家支持流程,与支持厂商建立合作关系,从而构建了“省-市-合作伙伴”多级联动的应急保障体系。不同

6、业务及系统的应急代价是完全不同的,同时带来的应急手段差异也很大,需要以“最小的代价”进行系统的“最快应急”。对开户、缴费、业务变更等关键业务,山东移动口主独立开发了单独的关键业务保障小系统,独立于BOSS系统外,同时和BOSS系统建立自动接口,确保紧急情况下可以启用该系统,进行最关键业务的办理。在系统界常、版木上线、木地接管、容灾切换的过程中,可以启用关键业务保障子系统,进而打造一个关键业务不间断的BOSS系统。成功落地的云计算山东移动BOSS系统的核心业务都是构建在EMC公司的设备和软件之上,包括EMCSymmetrixDMX存储阵列

7、、SRDF/快照等。按照惯例,运营商一般将系统架构设计和建设主要交给厂商/系统集成商来主导,山东移动在BOSS应急体系建设屮坚持口己主导,与厂商进行互动,充分利用厂商技术、产品、服务和经验,进行自主创新,取得了良好的效果。山东移动的“多中心业务容灾”模式,就是在应急系统架构上的一个自主创新。具体做法是,将容灾机房和生产机房混合部署。例如,A、B、C三个机房,每个机房都有完整的BOSS系统,各自承担一部分地市的业务。C机房最大,对A和B机房同时进行灾备,任何一个机房出现严重问题,其他网个机房能够接管全部的业务。“多中心业务容灾”的关键在于

8、,根据多年系统维护经验,提出对业务处理进行纵向拆分。业务处理纵向拆分,就是山东移动根据对业务应用的思考,自己做出的决定,目的是将故障对客户的影响减少到最低。这也是实现多屮心良好运转的前提。这样,山东移动就将业务处理分布到三个数据中心,每个中心平时均有完整的BOSS系统,承担一个区的业务。当一个系统发生故障时,影响的只是该区域,而且可以切换到别的区域系统上应急处理。相比之下,横向拆分,是指让全省所有用户运行一个系统,例如全省的营业系统、全省的账务系统,当一个系统发生故障时,会影响到全省。这样做也有利于提高应急平台的可用性。当业务处理系统处

9、于“正常状态”时,业务负载均衡,应急系统处理压力不大,业务服务响应速度很快。而当某个数据中心的业务系统处于“应急状态”时,只需要数据中心的相关业务资源进行应急切换即可,可以很快做出应急响应。在具体拆分业务处

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。