IBMEXP300400下双机热备解决方.doc
文本预览下载声明
IBM EXP300/400下双机热备解决方案一:概述: IBM EXP300/400是IBM公司在SCSI产品上的主力存储设备,它采用独的RAID卡的方式,有效的保障了数据的安全性。在双机热备方案是稳定性领先业内其它磁盘阵列及磁盘柜方式,主要的优点表述如下: 双机双RAID卡方式可以有效的避免一个RAID卡或一个磁盘阵列控制器损坏带来的数据丢失,安全性比同类产品要高。 同时IBM的Server RAID卡同其它RAID卡不同,其它厂商的RAID卡在做双机的情况下可以在两台服务器上同时看到EXP300/400上的磁盘,这样现在市场上的大部 分双机热备软件就可以支持它。但它带来的问题依然严重,一方面是硬件的兼容情,其它厂商的RAID卡同EXP300存储一点兼容性方面的问题。另一方面这 种RAID方式不能使用RAID的Hot Spare功能,因为当一块EXP300/400磁盘柜上的磁盘发生故障时,Hot Spare会起做用,但是此时由于两块RAID同时控制磁盘柜,这时极容易发生磁盘柜死锁的故障。但IBM的EXP300/400和IBM的Server RAID卡配合就不会出现这种情况。原因是,IBM的Server RAID在双机使用中只能允许一台服务器看到磁盘阵列的硬盘,另一台看不到,这样就不会出现上述的故障。 所以说,IBM的产品系列有着较高的可用性及安全性,但由于存在这种两台主机只能由一台主机看到磁盘柜的原因,所以市场上大部分双机热备软件不能支持IBM EXP300/400这样的系统。 现在市场上可以支持此系统的只有MS Advance Server Windows2000版本,但微软的产品在支持上又存在成本高,各种检测功能不全的现象,从使这样一套优秀的产品不能发挥其应有的作用。 二PlusWell容错产品的特色 一):基于IBM的产品特色,我们将容错软件基本特性在本软件中充份体现:可以被PlusWell软件保护的资源有: 1:卷(Volume) 2:IP 地址 3:共享文件 4:管理器服务器名称 5:应用程序(数据库) 6:用户自定义软件 二):心跳故障检测Heartbeat ? HA容错软件在集群节点间保持着间歇的通信信号,也叫做心跳信号,是错误检测的一个机制。即通过每一个通信路径,在两个对等系统之间进行周期性的握手,如果连续没有收到的心跳信号到了一定的数目, HA 容错软件就把这条路径标示为失效(红色)。 如果你只定义了一条通信路径,当 HA 容错软件把这唯一的一条通信路径标为失效时,? HA容错软件便立即开始恢复过程。然而,如果你有冗余路径,? HA容错软件能够通过第二条路径确定是系统故障还是只是通信路径有问题。如果 HA 容错软件开启优先级第二的通信路径并收到了心跳信号,它就不开始failover恢复,只需要把第一条通信路径标成红色(失效),作为信号告诉你需要修复 有故障的路径。 一般情况下 HA容错软件 只在下列事件发生时,启动系统恢复功能: 所有的通信路径故障。如果所有节点都没能收到心跳信号, 把所有通信路径都标为失效,? HA 容错软件开始安全检查。 安全检查失败。当所有通信路径故障时, HA容错软件向整个网络发出安全检查信号。如果信号指出配对系统还“活”着的时候, HA容错软件不启动Failover。如果安全检查没从配对节点返回信号, HA容错软件就开始Failover。同时可以以多种方式mail,传真或其它的手段通知用户来处理应急事务。 通信路径 HA容错软件支持在节点之间和心跳通讯中,使用如下通讯路径: (1) socket,即套接字。你使用任何的网络硬件接口,只要它能够支持TCP/IP的通讯协议。这样的硬件包括:以太网、快速以网。 (2)串行口 在 HA容错软件配置中, 你应当配置有一个串行口通信路径。串口通信路径需要利用RS232的拟调解线路来与 HA容错软件系统相连接。 ? HA 容错软件假定当通过心跳信号检测其它服务器失败时,则认为此服务器是关闭的。因此,为了避免不必要的失效切换,最好建立两种以上独立的物理路径,使用至少两种心跳。 例如,如果两个服务器被一个串口连接起来,并且,从属服务器来的心跳信号无法被主服务器所检测到,则下面之一是可能引起这一现象的原因: 服务器的RS-232卡或者端口失败 电缆失效 主服务器暂时挂起 主服务器失败 失效切换只可能在最后一种情况下才发生。因此,节点间的多种通信路径可以帮助避免不必要的失效切换。 三:软件拓扑
以下是结合IBM EXP300产品的拓扑结构:
说明: I、共享的磁盘柜方式 HA容错软件的LUN切换 ?HA容错软件的
显示全部