地震应急系统数据存储容灾备份机制的研究

时间:2022-07-23 07:42:12

地震应急系统数据存储容灾备份机制的研究

摘要:文章从磁盘阵列、双机热备份、AIX系统克隆等三个方面介绍对地震应急指挥系统数据存储容灾备份机制的研究。指出在当前架构下其容灾备份机制的合理性,找到数据快速恢复的有效方法,为尽快解决系统运行故障,杜绝数据丢失现象的发生提供保障。

关键词:容灾备份;磁盘阵列;双机热备份;系统克隆

中图分类号:TP311文献标识码:A文章编号:1009-3044(2011)31-7692-03

The Research on Backup System for Data Storage Disaster Recovery of Earthquake Emergency Command System

HE Lin, PAN Dan, DING Juan, LIU Shi-jing

(Anhui Seismological Bureau, Hefei 230031, China)

Abstract: The article introduced the research on Backup System for Data Storage Disaster Recovery of Earthquake Emergency Command System through three points such as RAID, hot backup with dual computers and AIX system clone. It pointed out the rationality of the backup system, found the effective method to data fast recovery, and provided the protection of solving system problems quickly and avoiding the happening of data loss.

Key words: backup system for disaster recovery; RAID; hot backup with dual computers; system clone

地震应急指挥系统是个庞大的技术系统,其建设的目的是为政府进行地震应急、抗震救灾提供各种必要的技术手段。在地震发生时,系统在基础数据库和现场信息的支持下,迅速判断地震的规模、影响范围、人员伤亡和经济损失等情况,提出一系列科学有效的救灾方案和调度方案,协助指挥人员实施各种地震救灾行为,最大限度减少震时的混乱和人员伤亡。

系统整体由十几个相关子系统构成,其子系统间逻辑关系错综复杂,而数据库平台在整个系统中却占据着非常重要的地位,为各系统正常运行的根本基础。地震应急基础数据、应用系统的用户数据、系统所产生的事件日志文件、系统的中间计算数据和最终计算结果等都完整无缺的保存在数据库平台里,一旦数据库发生故障,出现数据丢失的情况,系统的损失是无法想象的。因此,建立科学有效的数据存储容灾备份机制对整个技术系统是至关重要的。

在硬件架构上,地震应急指挥系统主要由一台磁盘阵列、两台数据库服务器、六台应用服务器构成,还包括交换机、防火墙等辅助设备,其网络连接图如图1所示设计。我们将所有的数据均保存在磁盘阵列中,通过两台数据库服务器上的oracle平台对其进行管理与维护,保证数据的安全性。其他应用系统均被安装在应用服务器上,通过oracle客户端对数据进行读取,计算结果又重新存储回磁盘阵列中。磁盘阵列和数据库服务器构成地震应急指挥系统中数据存储的重要硬件部分,其容灾备份机制设计的合理性是保证应急系统高效稳定运行的基础。

1 磁盘阵列的备份与恢复

1.1 RAID

RAID是“Redundant Array of Independent Disks”的缩写,中文意思是独立冗余磁盘阵列,有“价格便宜且多余的磁盘阵列”之意。冗余磁盘阵列技术诞生于1987年,由美国加州大学伯克利分校提出,就是将多块独立的硬盘(物理硬盘)通过阵列控制器结合成虚拟单台大容量的硬盘(逻辑硬盘)使用,提高传输速率和提供容错功能是其最大的优点。

1.1.1 RAID方式的比较

组成磁盘阵列的不同方式称为RAID级别。我们常见的RAID方式有五种,分别是RAID0、RAID1 、RAID3、RAID5和RAID10。对五种RAID形式的存储方式和优缺点进行比较后,我们发现:RAID0将数据分块存储在各个磁盘上,是各种方式中最快、最有效率的阵列类型,但是不支持容错功能,一旦有磁盘出现损坏,其数据将无法恢复;RAID1将阵列分为两部分,相互之间完全备份,这样能解决数据恢复的问题,但是磁盘利用率非常的低,造成资源的极大浪费;RAID3将数据分条存储在各个磁盘里,并产生奇偶校验,一并存储在磁盘内,这样可以抵抗其中一个磁盘出错而不丢失任何信息,数据传输方面也有着很好的优势,但是随机存储性能差,磁盘出错会对磁盘性能产生重大影响;RAID5和RAID3极为相似,都是数据分条,奇偶校验产生冗余,但是它不采用一个固定的硬盘来存储奇偶校验值,所有的数据和校验值都分布在所有硬盘上,有着最高的信息处理读取率和经济实用性;RAID10可以抵抗多个磁盘的同时出错,但是所有的存储器必须按照特定的方式并行安装,使用成本非常昂贵。

1.1.2 RAID5+热备盘

通过五种RAID方式的比较,结合地震应急指挥系统的实际情况,我们的磁盘阵列决定采用RAID5的存储解决方案。RAID5是一种存储性能、数据安全和存储成本兼顾的存储方法,它不对存储的数据进行备份,而是把数据和相对应的奇偶校验信息存储到组成RAID5的各个磁盘上,并且保证奇偶校验信息和相对应的数据分别存储于不同的磁盘上。当RAID5的一个磁盘数据发生损坏后,阵列可以利用剩下的数据和相应的奇偶校验信息去恢复被损坏的数据。

此外,我们在RAID5的基础上,增加了两块热备盘,如果阵列中有一块磁盘坏了,热备盘将顶替它,和原来阵列中的磁盘实现数据同步,保证阵列的完整性。如果将坏磁盘从阵列中取出,新磁盘插入该位置,则热备盘将会自动将数据同步到新磁盘上,完成同步后,热备盘将从阵列中退出,还原成热备状态。

RAID5+热备盘的方式能保证同时有两块磁盘出现损坏的情况不会对数据库造成影响。如果磁盘发生损坏,只需用好磁盘去替换坏磁盘即可,磁盘阵列会利用存储在其它磁盘的数据和相应的奇偶校验信息去自动恢复数据,这为数据存储故障的快速修复提供了坚实的硬件保障。

2 数据库服务器双机热备份

数据库服务器为整个地震应急指挥系统提供数据支持服务,通过数据库服务器的oracle平台可直接读写存储于磁盘阵列中的数据,其工作的稳定性决定着地震应急指挥系统高效运行的程度。我们采用两台IBM P520小型机作为数据库服务器。小型机和普通的服务器(也就是常说的PC-SERVER)是有很大差别的,更重要的一点就是小型机的高RAS特性(Reliability,Availability,Serviceability高可靠性、高可用性、高服务性)。在保障数据库系统稳定的问题上,我们则采用最简单最流行的双机热备份技术。

双机热备份技术是一种软硬件结合的较高容错应用方案。该方案是由两台服务器系统和一个外接共享磁盘阵列及相应的双机热备份软件组成。在这个容错方案中,操作系统和应用程序安装在两台服务器的本地系统盘上,整个网络系统的数据均通过磁盘阵列集中管理和数据备份。数据集中管理是通过双机热备份系统,将数据直接从中央存储设备进行读取和存储,并由专业人员进行管理,极大地保护了数据的安全性和保密性。用户的数据存放在共享磁盘阵列中,当一台服务器出现故障时,备机主动替代主机进行工作,保证网络服务不间断。我们在两台服务器上分别部署了Oracle 10g和Oracle 10g RAC,实现了数据库集群系统配置。双机热备份的方法从根本上保证了数据库系统出现故障时,备用服务器照常运行,避免了对数据库数据造成的伤害。

应急系统所使用的Oracle RAC数据库为高可用性集群数据库。Oracle RAC允许多个实例同时访问同一数据库(存储器)。它通过允许系统进行扩展,提供了容错、负载均衡的性能效益,同时由于所有节点访问同一数据库,因此一个实例的故障不会导致无法访问数据库。Oracle RAC的核心是共享磁盘子系统。集群中的所有节点必须能够访问集群中所有节点的所有数据、重做日志文件、控制文件和参数文件。数据磁盘必须在全局范围内可用,以便允许所有节点访问数据库。每个节点拥有自己的重做日志和控制文件,但是其他节点必须能够访问这些文件,以便在系统故障时恢复该节点。Oracle RAC采用了高速缓存合并技术,在RAC中,数据是带锁传递的,节点间数据请求时,发出请求的节点可以不必等待数据写入磁盘再进行读取。

在使用Oracle 10g RAC时,多个节点使用相同的磁盘集来存储数据。利用Oracle RAC,数据文件、重做日志文件、控制文件和归档日志文件保存在原始磁盘设备的共享存储器、NAS、SAN、ASM或集群文件系统中。Oracle的集群方法利用了集群中所有节点的集体处理能力,同时提供了故障切换安全性,保障了数据库系统的稳定运行。

3 AIX系统克隆

我们的数据库服务器采用IBM小型机自带的AIX系统。AIX操作系统是IBM公司专为IBM eServer® pSeries和RS/6000服务器而开发的操作系统,是Advanced Interactive eXecutive(高级交互执行体)的简写,是UNIX操作系统的一种,与HP-UX、Sun Solaris和SCO UNIX一样,都是UNIX操作系统的一个实例。

AIX系统采用逻辑卷管理策略,它最大的优点是能够动态地增加文件系统的空间,而且文件系统的空间不受具体某个硬盘大小的限制。在AIX系统中,文件系统是建立在逻辑卷上的,逻辑卷是属于一个卷组的,卷组是由实际的物理磁盘组成,逻辑卷在实际物理硬盘中可以不连续,它能够跨越多个物理硬盘而存在。系统管理员可以动态地改变逻辑卷的大小,逻辑卷还可以被镜像,所以在AIX系统中可以动态地增加文件系统的空间,拷贝文件系统。在AIX系统中,卷组是最大的存储单位,系统管理员能够很容易地向卷组中添加硬盘,还可以动态地重新分配一个卷组中所有逻辑卷空间。AIX系统中的存储管理是由逻辑卷管理器(Logical Volume Manager,简写为LVM)完成的。

在AIX系统中,可以通过克隆系统操作将现有rootvg卷组下所有数据备份到另一个内置硬盘中,从而避免系统损坏后复杂的修复工作。

运行SMIT快捷路径:smit alt_clone

按回车键后显示如图2。

在“Target Disk(s) to install”中按F4选择目标盘。

在“Set bootlist to boot from this disk on next reboot?”中按F4选no。

设置完后按回车完成操作。

在进行恢复工作时,需要使用bootlist命令修改引导设备。但修改引导设备操作必须慎重,且在使用命令过程中不能直接关掉机器电源或重新启动系统。如果引导设备列表中指定设备不能用于引导,会使系统启动失败。

通过对AIX系统数据的克隆操作能保证AIX系统发生故障的情况下用最短的时间对系统进行恢复,同时防止硬盘毁坏带来的损失,保证数据库服务器的正常运行。

4 小结

从以上三个方面,我们可以深入了解到地震应急指挥系统中磁盘阵列、数据库系统、AIX系统的数据存储容灾备份的相关技术方法。在当前架构下,我们所采用的数据备份恢复机制是科学有效的,能实现在系统出现故障时迅速恢复数据库,为地震应急指挥系统的稳定运行提供真正保障,避免系统突发性故障带来的巨大损失。

参考文献:

[1] 王立波,李晓芬.服务器存储方案的设计与实现[J].中国电子商务,2011(3).

[2] 程聪.Linux下高效构建RAID[J].网管员世界,2011(6).

[3] 周成.磁盘阵列(RAID)及其相关知识介绍[J].电脑入门,2011(5).

[4] 陈郁周.融合通信系统双机热备份的研究[J].电信科学,2011(6).

[5] 兰陵.实战克隆AIX系统[J].网管员世界,2011(1).

上一篇:学用SnagIt 速成抓图高手(续) 下一篇:一种基于JADE的数字图像盲水印算法