一)双机热备软件(http://www.expresscluster.net.cn/)HACMP概述:
HACMP是IBM公司为RS/6000和SP系统设计的一套高可靠性软件。它基于AIX操作系统,性能稳定,能够在多台小型机上工作,当某台小型机出现故障时,可以由其它小型机迅速接管该机上的业务,避免了因系统宕机给业务带来重大损失。但是在具体接管工作中,HACMP对网络拓扑和资源组要求非常严格,一点错误都有可能导致接管失败,严重地影响到了系统的可靠性。笔者就单位的双机热备所引起的错误及解决方法做一初步分析。
(二)双机热备软件HACMP现状介绍:
我单位的两台H85小型机安装了HACMP软件采用双机热备模式(即一台主机,一台备机),共享1个7133磁盘阵列,分别通过四对光纤跳线与CISCO6509主交换机(以下简称主交换机)相连,主机上跑着生产系统, 另外一台作为备机在主机出现故障时,马上接管主机业务后向客户端提供可靠性服务。生产系统采用客户端服务器模式,大量数据以oracle数据库存储在7133磁盘阵列上。
(三)双机热备软件HACMP可能产生的错误现象之一
备机死机的原因是主机在释放资源时,没有正常关闭oracle数据库,反而第二次打开了数据库,当备机接管资源时,又第三次打开了数据库,造成了资源冲突,导致了备机宕机。至于应用服务中的关闭脚本选错问题,可能是以前调试设备时误操作所致。
(四)双机热备软件HACMP可能产生的错误现象之二
备机接管主机应用后,基于小机上的生产系统在客户端不能访问,具体表现在在客户端启动生产系统时,发生“无法与远程数据库连接”的错误提示。
(五)双机热备软件HACMP的结论:
由双机热备引起的故障多种多样,具体问题需具体分析,经常查看错误日志是一个判断错误范围的好方法,除确保双机热备设置正确外,两台小机保持系统上的一致也是一个不可忽视的问题。