三地互动防停机

时间:2022-10-25 10:58:11

遍布城市每一个角落的ATM机给我们带来了方便。是什么保证了ATM机可以7×24小时运转?是金融机构的容灾系统。

三地容灾的架构

该金融机构容灾系统的设计,主要针对日常生产情况下的数据安全和两个主要方面的停机风险:计划内停机和计划外停机。计划内停机是指由于系统升级、应用升级、设备维护保养等因素所引起的停机。而计划外停机是指由于供电失效、空调失效、通信失效、设备失效、暴风雨、地震、计算机病毒、恐怖活动等因素所引起的停机。

基于上述这种不停机建设目标和规划,企业为容灾系统确定目标:针对目前系统潜在的中断风险(灾难),提供预防机制,提高系统连续运行能力;对无法抗拒的严重灾难,提供系统恢复机制,将引发的业务损失降低到可接受的程度;实现关键业务系统及其关联系统的数据安全;减少计划停机次数/时间,消除对核心数据的争用;将异地中心接管业务的时间控制在可以接受的范围内;实现异地中心的软硬件设备和数据的复用。

我公司在上述容灾系统的总体目标要求下,进行系统的设计。根据客户现有的业务运营和网络铺设条件,在总体设计上,该金融机构采用了三地数据复制的容灾方式:在浦东建立业务生产中心;在浦西建立数据的本地镜像中心,存储浦东数据的镜像版本;同时,浦西作为数据的转发中心,将建立浦西到北京的数据复制链路,将生产数据在浦西的镜像,通过异步方式传输到北京灾备中心。

按照这种设计框架,当浦东生产中心发生严重故障时,北京的备用生产系统可以完全接替生产中心的应用系统,而RTO(Recovery Time Object,衡量容灾系统两个主要指标之一,代表了当灾难发生后系统恢复的时间)与RPO(Recovery Point Object,衡量容灾系统另一个主要指标,代表了当灾难发生后允许丢失的数据量)也维持在可接受的范围内。

业务持续计划

三地容灾的架构仅仅是该企业信息处理中心灾难备份项目的基本框架。由于客户的各主要应用具备相当的复杂度和相关性,每一类应用的紧迫程度不一样,恢复应用所需要的资源也不一样,如果没有一个预先制定并经过验证的业务持续计划和紧急事件响应计划,在意外事件发生后,几乎无法保证灾后恢复工作可以按部就班地有序进行,也无法保证系统在预定的时间内恢复运作。正是基于这一情况,客户数据处理中心已经开始着手制定完善的业务持续计划。

业务可持续性管理方法论提供了逻辑结构,来确保专业人员能够始终如一地在最短的时间内提供最好的业务可持续管理方案。业务持续计划BCP的开发可以分为项目启动、业务分析、方案设计、和实施执行四个主要阶段。

项目启动阶段对业务连续性项目进行前期的项目准备和评估,制定详细的项目目标、项目组织团队、项目进度计划以及针对不同阶段问题的项目管理和项目成本核算,通过上述手段保证业务连续性项目的成功。

分析阶段包含“风险分析”、“业务影响分析”、“业务持续性策略制定”、“可恢复性评估”等步骤。此阶段提供对灾害、潜在业务损失、各种影响及现行恢复能力等方面的定性及定量的分析评估,为BCP方案设计阶段提供详细的指导。

方案设计阶段包含“DRP技术方案设计”和“紧急响应策略制定”。此阶段根据分析阶段的结果来制定出企业的容灾方案和恢复策略,规划及设计出为实现企业业务持续所必需的行动与解决方案,以达到企业在组织、流程及技术层面的恢复需求。

实施执行阶段由“测试演练及培训”、“BCP方案维护”和“BCP执行策略”组成。此阶段将执行业务连续性计划的测试演练和BCP认知培训,并在此基础上,制定责任明确的BCP方案维护和更新制度,保证BCP方案的长期有效性,并且按照BCP执行策略的要求建立有效的紧急通讯体系和公共发言人制度,保证灾难发生时能够得到相关人员及时响应。

通过三地容灾架构和业务持续计划在技术和管理两个层面上的充分保障,企业应用系统的持续运行能力大大提高,最终可以为广大用户提供更稳定持续的服务。

上一篇:泰坦为什么一定会沉没 下一篇:移动、安全、融合构成移动边缘