一、Steeleye LifeKeeper 技术简介及其应用 ( 共享磁盘阵列柜方式 )
(一)Steeleye LifeKeeper 原理
1、Steeleye LifeKeeper 定义、特性、资源保护
LifeKeeper For Windows 提供了一个完全容错的软件解决方案,并提供数据、应用程序和通信资源的高度可用性。 LifeKeeper 不需要任何特别的容错硬件。你可以集合使用二到三十二个结点。并访问特定地点的配置数据。然后, LifeKeeper 会自动地提供错误检测和多层现场恢复。在出现故障的情况下, LifeKeeper 会将保护资源自动转换到一个根据优先权而设定的系统。在实际进行切换用户时, 会经历一个十分短暂的休眠,但是,当系统完成了切换操作后,LifeKeeper 会在所选择的系统上自动地恢复操作。
可以被 LifeKeeper 保护起来的资源是:
卷( Volume )
IP 地址
共享文件
LAN (局域网)管理器服务器名称
应用程序
定义的用户
MSCS 应用程序
2 、心跳故障检测 Heartbeat
LifeKeeper 在集群节点间保持着间歇的通信信号,也叫做心跳信号,是错误检测的一个机制。即通过每一个通信路径,在两个对等系统之间进行周期性的握手 , 如果连续没有收到的心跳信号到了一定的数目, LifeKeeper 就把这条路径标示为失效(红色)。
如果你只定义了一条通信路径,当 LifeKeeper 把这唯一的一条通信路径标为失效时, LifeKeeper 便立即开始恢复过程。然而,如果你有冗余路径, LifeKeeper 能够通过第二条路径确定是系统故障还是只是通信路径有问题。如果 LifeKeeper 开启优先级第二的通信路径并收到了心跳信号 , 它就不开始 failover 恢复,只需要把第一条通信路径标成红色(失效),作为信号告诉你需要修理一下有故障的路径。一般情况下 LifeKeeper 只在下列事件发生时,启动系统恢复功能:
所有的通信路径故障 . 如果所有节点都没能收到心跳信号 , 把所有通信路径都标为失效 ,Lifekeeper 开始安全检查。
安全检查失败。当所有通信路径故障时, LifeKeeper 向整个网络发出安全检查信号。如果信号指出配对系统还“活”着的时候, LifeKeeper 不启动 Failover 。如果安全检查没从配对节点返回信号, LifeKeeper 就开始 Failover 。
因而,为了减少由于潜在的通讯错误所引起的不必要的系统切换,建议您使用不同介质的多条通信路径。
通信路径
LifeKeeper 支持在节点之间和心跳通讯中,使用如下通讯路径:
(1) socket , 即套接字。你使用任何的网络硬件接口,只要它能够支持 TCP/IP 的通讯协议。这样的硬件包括:以太网、快速以网、令牌环网以及 FDDI 或 CDDI 。
(2) 串行口 在 LifeKeeper 配置中, 你应当配置有一个串行口通信路径。串口通信路径需要利用 RS232 的拟调解线路来与 LifeKeeper 系统相连接。
(3) 共享磁盘 你可以定义一个共享磁盘分区来作为 LifeKeeper 的通讯中介。可以只使用小至 1MB 的分区,当然,也可以使用更大的空间。
LifeKeeper 假定,当通过心跳信号检测其它服务器失败时,则认为此服务器是关闭的。因此,为了避免不必要的失效切换,最好建立两种以上独立的物理路径,使用至少两种心跳。
例如,如果两个服务器被一个串口连接起来,并且,从属服务器来的心跳信号无法被主服务器所检测到,则下面之一是可能引起这一现象的原因:
服务器的 RS-232 卡或者端口失败
电缆失效
主服务器暂时挂起
主服务器失败
失效切换只可能在最后一种情况下才发生。因此,节点间的多种通信路径可以帮助避免不必要的失效切换。
(二) Steeleye LifeKeeper 配置示范
软件、硬件配置
a 、软件: Steeleye LifeKeeper 及 Recovery Kit
b 、硬件:服务器可以是任何 Iel 基础上的平台, Server 的型号、配置不必一致,只需硬件平台能保证运行;磁盘阵列正常使用。
1 、 Steeleye LifeKeeper 运行机制
I 、共享的 SCSI 和 LifeKeeper 软件锁定
LifeKeeper For Winddows 软件锁定: LifeKeeper 管理共享磁盘上的数据,以防止多个服务器在同一时间访问数据。 LifeKeeper 在逻辑设备级(卷)上控制对数据的访问,并让 Windows 软件或硬件 RAID Corollers 管理物理级。有了 Lifekeeper For Windows 来管理对共享数据的访问,用户就可以不必担心群中的其它服务器访问数据时,可能会带来的数据访问冲突。 LifeKeeper 自动在被应用程序定义为共享资源的磁盘卷上设置锁定。当被保护的应用程序由一个服务器被移动 / 转换到另一个服务器时, LifeKeeper 控制这些锁定,以保证激活服务器对共享卷的访问。
在主系统发生故障的情况下, 次节点系统将能够在磁盘上建立 SCSI 锁定,并在备份的系统上将资源投入使用。
Local Recovery (局部恢复)
LifeKeeper 在快速检查( Quickcheck )和深入检查( deepcheck )的时间间隔执行预先定义的行为,以察看资源本身是否失效。如果快速检查和深入检查均局部告失败,系统将尝试局部恢复资源。如果尝试成功,资源将不会向下一优先级的节点进行失效切换( failover )。如果局部恢复尝试失败,系统将向下一优先级的节点进行失效切换。
例如,你可以在 LifeKeeper 服务器上配置多块 NIC 卡,当定义的 NIC 发生故障时,你就可以配置将 IP 资源切转到另一个 NIC 上,从而避免不必要的失效切换。
Failover (失效切换)
指定主要的节点或资源失败时,重新恢复资源的过程。一个失效切换通常是没有事先计划的,它将发生在一个被从属系统所检测到并确定为失败的情况下。
[ 1 ] [ 2 ] [ 3 ] [ 4 ] [ 5 ] |
|
|