时间:2022-09-22 03:26:56
摘要:为确保数据的高可用性,该文从硬件状态检测、系统启动顺序、系统停止顺序和AIX系统性能检查四个方面简要介绍了ORA? CLE集群的日常维护和保养方法。
关键词:ORACLE;集群;维护
中图分类号:TP311文献标识码:A文章编号:1009-3044(2012)06-1223-02
近年来,为了满足网络用户更高级的应用需求,为各个信息系统提供统一、安全、稳定的网络环境,单位部署了基于ORACLE集群的软件平台。要充分发挥软件平台的应用效能,需要定期对ORACLE集群进行巡检和维护保养,以确保数据的高可用性。
1硬件状态检测
1)定期检查机房环境,零地电压要小于1伏特,温度控制在20-23摄氏度,湿度控制在40-50%。
2)定期查看小型机前面板信息指示灯,橙色为报警。
3)定期检查电源线、网线、光纤线等线缆有无破损或虚接。
2系统启动顺序
AIX+HACMP+ORACLE RAC系统是多主机和多种设备的互联,系统的启动、停止都有一定的顺序。系统的启动应按照先外设后小机,先集群软件后应用软件的顺序开启。
1)启动设备。打开磁盘阵列、光纤交换机、HMC等设备的电源。通过HMC启动小型机。
2)检查系统状态。以root用户登录小机,用如下命令检查系统情况:
#psef |grep clu
#psef |grep crs
#lsvgo
3)启动HACMP。可使用快速路径#smitty clstart启动,也可使用#smitty hacmp -> System Management (C-SPOC) -> Manage HAC? MP Services -> Start Cluster Service进行启动。
4)HACMP启动后,查看系统启动日志,激活的VG和系统PV信息:
#tailf /var/hacmp/log/hacmp.out
#lsvgo
#lspv
显示结果中我们安装HACMP时预设的PV状态应为concurrent,表示HACMP启动正常。
5)HACMP正常启动后,CRS会自动启动(通过设置#/etc/init.crs enable来实现)。通过以下命令检查CRS是否已经启动:
#psef |grep crs
#/opt/oracle/product/10.2/crs/bin/crs_stat -t
如果CRS已启动,不可重复启动,否则会导致机器宕机。如果CRS没有启动,可通过以下命令启动CRS:
#/opt/oracle/product/10.2/crs/bin/crsctl start crs
或者#/etc/init.crs start
3系统停止顺序
系统停止的顺序和系统启动的顺序正好相反。需注意的是系统停止前需先检查一次主机的运行状况,确认主机有无硬件问题。
1)停止CRS。使用以下命令停止CRS:
#/opt/oracle/product/10.2/crs/bin/crsctl stop crs
使用#psef |grep crs,确认CRS已经停止。
2)停止HACMP。可使用快速路径#smitty clstop停止,也可使用#smitty hacmp -> System Management (C-SPOC) -> Manage HAC? MP Services -> Stop Cluster Service进行停止。停止后,查看HA日志:#tailf /var/hacmp/log/hacmp.out。
3)检查系统运行状况。主要使用以下命令进行相关检测:
#errpt |more查看错误日志
#lsvg查看卷组状况
#lspv查看硬盘状况
#lslv查看逻辑卷状况
#lsfs查看文件系统状况
#dfg查看磁盘空间使用情况
4)确认系统状况以后,使用#shudownF关闭主机。5)关闭HMC。
6)关闭其他设备。
4 AIX系统性能检查
AIX系统性能检查,除了上面介绍的一些命令外,还有:# topas查看主机综合性能
#sar 2 10分析cpu工作情况
#svmon监控cpu和内存工作情况
#iostat监控硬盘I/O工作情况
# errptdH查看硬件错误信息
# errptdS查看软件错误信息
#lscfgv查看硬件资源
#netstatin显示网络接口信息
#netstatrn显示接口路由表信息
5 HACMP的维护
HACMP除了启动、停止外比较常用的命令还有状态查询和切换。
状态查询命令:#smitty hacmp -> System Management (C-SPOC) -> HACMP Resource Group and Application Management -> Show
the Current State of Applications and Resource Groups。
资源切换命令:#smitty hacmp -> System Management (C-SPOC) -> HACMP Resource Group and Application Management -> Move a Resource Group to Another Node / Site -> Move a Resource Group to Another Node ->选择需切换的资源组->选择需切换的主机。
6 ORACLE RAC的日常管理
ORACLE RAC的日常管理分为:集群软件crs的维护和数据库层面的维护。ORACLE集群软件crs只有在ORACLE的RAC架构下才会使用。crs的命令存放在crs的home路径下的bin目录下(/opt/oracle/product/10.2/crs/bin)。经常使用以下命令:
#./crs_statt查看crs状态
#./crsctl check crs检查crs相关服务状态
#./ocrcheck验证存储设备是否可用
数据库层面的维护,在oracle用户下执行
#suoracle
$sqlplus /nolog
SQL>conn / as sysdba
使用以下SQL命令检查数据库状态:
SQL>select instance_number, instance_name, host_name , version, status from gv$instance;
只有SQL语句的结果显示OPEN状态,数据库才是可用状态。
参考文献:
[1] [EB/OL].www.省略/pls/db102/portal.all_books.
[2] [EB/OL].www.省略.
[3]张晓明.大话ORACLE RAC:集群、高可用性、备份与恢复[M].北京:人民邮电出版社,2011.