论给平安保险再上保险容灾在保险

时间:2022-08-12 09:45:28

论给平安保险再上保险容灾在保险

保险为我们可能遇到的各种灾难提供保障,但是,保险数据遇到了灾难该怎么办?特别是实施了数据大集中之后,潜在的风险对数据的威胁更大。如何给保险数据上一个保险是迫切需要的。

从数据到应用

平安保险在2003年基本完成了容灾系统的IT基础架构建设,包括建立了数据级容灾系统的基础架构,在上海备份中心建立了重要生产系统的数据复制环境,采用Oracle的DataGuard技术,实现了生产系统数据的实时复制,全国130余个生产数据库实施了数据级容灾。平安保险的数据级的容灾环境,已经实现如下目标:各系统平均数据丢失时间小于8小时,最大数据丢失时间小于24小时;支持本地生产系统的集群切换,数据复制的启动、停止、异常中断等不影响生产系统的正常运行,数据复制异常时能够通过Openview报警。

平安保险领导层认识到,虽然已经建立了基本的容灾系统,具备了基本的容灾能力,但缺乏相应的综合灾难恢复计划,也没有针对灾难发生后的应对、决策、详细的灾难恢复步骤。一旦灾难发生,如何能够最大程度地减少损失,以最快的速度恢复系统运行,保护公司利益?2004年,平安保险启动业务系统容灾项目。该项目完成后,保证在灾难发生后规定时间范围内,上海灾备中心恢复关键业务系统的应用,使业务正常运作。

在实践中选择厂商

容灾系统和一般的业务系统有一个巨大差别:业务系统是每天工作必不可少的一部分,而容灾系统是为灾难准备的。灾难当然不是经常有,容灾系统建设的问题也就不容易发现。选择一个好的厂商,就放心了一半。

惠普凭借成熟的BCP/DRP方法论,对平安保险IT架构和灾难恢复需求的了解,以及经验丰富的实施顾问,被平安保险选为平安灾难恢复计划(DRP)咨询项目合作伙伴。

在为平安保险设计的方案中,涵盖高可用容灾系统平台的软硬件技术介绍、日常运作流程设计、突发事件管理、大型灾难的应对计划与策略、业务持续性管理团队建设和咨询等诸多方面的服务,可以帮助客户从技术、流程、人员三方面提高业务持续能力,保证企业IT 系统的正常运作和发展。

平安保险从三个方面进行业务连续系统的建设:

1. 通过多种技术手段实现关键业务远程灾难恢复,包括数据的远程复制、关键业务应用程序的紧急切换、关键业务的连续运行; 建立一个业务连续团队,进行人员选择,制定相关的角色和职能,做相关技术和流程培训等,使得有合格的人员和严格的制度,保证业务连续系统作用的有效发挥; 建立一套行之有效的业务连续计划,包括多个关键流程,如:灾难信息通知流程、灾难界定与决策流程、紧急应对和业务切换流程、紧急运行管理流程、系统恢复和业务回切流程等,这些将使得业务连续成为有章可循、易于操作的系统。

平安保险采用的业务连续/ 容灾解决方案是端到端的整体解决方案,不但涵盖从服务器、存储系统、光纤网络互连设备到软件、数据库等全部IT相关范围,还包含了人员组织建设、人员培训与容灾知识普及、灾难恢复流程设计和演练等内容,同时平安保险还重视实施完成之后的持续关注,并可根据业务的实际需要,定期对容灾系统进行灾难演习,防患于未然。

只建项目是不够的

DPR项目在2004年6月启动,2005年1月21日验收。项目内容包括灾难风险评估、业务影响分析、灾难恢复策略设计、详细方案设计、容灾方案实施、灾难恢复计划开发以及最后的灾难恢复测试和演习等。

平安保险拥有众多应用系统,总数超过100个,其中关键业务系统超过50个。这导致业务影响分析和灾难恢复计划设计复杂。业务影响分析阶段,通过对30个业务部门的68位员工的访谈和协商,与业务部门一起制定了各个业务系统的灾难恢复时间指标(RTO)和灾难恢复数据指标(RPO),最终RTO和RPO得到业务和IT部门双方的认可。在灾难恢复计划开发阶段,克服了系统多、时间紧、人手紧缺的困难,惠普技术人员和平安项目组一起按时完成了DRP的开发。

容灾系统是建设好了,该怎样检验容灾系统是否达到预定的目标呢?容灾演习是对容灾项目建设是否成功的检验标准,也是对容灾维护管理流程和文档检测的重要手段。通过演习及时发现问题,并确保各相关部门的配合和人员的操作准确无误。2004年11月13和11月27日,平安保险举行了两次整合测试,在2004年12月11日~12月12日举行了第一次灾难恢复演习。灾难恢复演习中,平安参加人员超过100个,其中IT人员超过70个,用户测试人员超过30个,整个演习超过28个小时,顺利实现了业务系统从华南(深圳)数据中心切换到华东(上海)数据中心。演习的成功举行,标志着平安在全国各大保险公司中率先完成IT灾难恢复计划。

值得一提的是,在惠普咨询专家的帮助下,平安保险还建立起一整套完整的容灾系统的管理机制,建立了相应的组织机构、管理制度和操作规程、灾难的预防措施,以及灾难恢复计划的测试、试运行和维护等。为了保障容灾系统长期、稳定、有效地运行,惠普还为平安保险提供了后期的培训、测试和支持服务。

平安保险实现了该项目的总体目标:灾难恢复时间指标(RTO):现灾难后3~5天内恢复关键业务系统80%的处理能力;灾难恢复数据指标(RPO):各系统平均数据丢失时间小于8小时,最大数据丢失时间小于24小时。

记者手记

为提高IT系统的可靠性,IT系统的容灾建设已相当普遍。随着许多企业实施业务系统大集中,针对IT系统的高可靠性和容灾能力的需求日渐突出。然而,目前大多数容灾系统建设还存在诸多问题,不仅有技术层面的缺陷,也有流程和人员方面的不足。这些问题可能导致的直接后果就是当灾难发生时,根本无法实现应用系统的快速恢复,甚至可能导致业务运转的长时间灾难性中断。

特别对于保险公司来说,数据的安全性以及业务的连续运营的要求更高。虽然各保险公司十分重视灾备系统的建设,陆续完成了基本容灾系统的IT基础架构建设,但如果没有相应的灾难恢复计划,也没有针对灾难发生后的应对、决策、详细的灾难恢复步骤,容灾系统将难以发挥真正功效。

上一篇:求职面试经验盘点 下一篇:16字要诀,助你面试成功