LifeKeeperfornt技术白皮书.docx

上传人:b****5 文档编号:29810972 上传时间:2023-07-27 格式:DOCX 页数:19 大小:31.12KB
下载 相关 举报
LifeKeeperfornt技术白皮书.docx_第1页
第1页 / 共19页
LifeKeeperfornt技术白皮书.docx_第2页
第2页 / 共19页
LifeKeeperfornt技术白皮书.docx_第3页
第3页 / 共19页
LifeKeeperfornt技术白皮书.docx_第4页
第4页 / 共19页
LifeKeeperfornt技术白皮书.docx_第5页
第5页 / 共19页
点击查看更多>>
下载资源
资源描述

LifeKeeperfornt技术白皮书.docx

《LifeKeeperfornt技术白皮书.docx》由会员分享,可在线阅读,更多相关《LifeKeeperfornt技术白皮书.docx(19页珍藏版)》请在冰豆网上搜索。

LifeKeeperfornt技术白皮书.docx

LifeKeeperfornt技术白皮书

一、SteeleyeLifeKeeper技术简介及其应用(共享磁盘阵列柜方式)

(一)SteeleyeLifeKeeper原理

1、SteeleyeLifeKeeper定义、特性、资源保护

LifeKeeperForWindowsNT提供了一个完全容错的软件解决方案,并提供数据、应用程序和通信资源的高度可用性。

LifeKeeper不需要任何特别的容错硬件。

你可以集合使用二到十六个NT结点。

并访问特定地点的配置数据。

然后,LifeKeeper会自动地提供错误检测和多层现场恢复。

在出现故障的情况下,LifeKeeper会将保护资源自动转换到一个根据优先权而设定的系统。

在实际进行切换用户时,会经历一个十分短暂的休眠,但是,当系统完成了切换操作后,LifeKeeper会在所选择的系统上自动地恢复操作。

可以被LifeKeeper2.04保护起来的资源是:

Ø卷(Volume)

ØIP地址

Ø共享文件

ØLAN(局域网)管理器服务器名称

Ø应用程序

Ø定义的用户

ØMSCS应用程序

2、心跳故障检测Heartbeat

LifeKeeper在集群节点间保持着间歇的通信信号,也叫做心跳信号,是错误检测的一个机制。

即通过每一个通信路径,在两个对等系统之间进行周期性的握手,如果连续没有收到的心跳信号到了一定的数目,LifeKeeper就把这条路径标示为失效(红色)。

如果你只定义了一条通信路径,当LifeKeeper把这唯一的一条通信路径标为失效时,LifeKeeper便立即开始恢复过程。

然而,如果你有冗余路径,LifeKeeper能够通过第二条路径确定是系统故障还是只是通信路径有问题。

如果LifeKeeper开启优先级第二的通信路径并收到了心跳信号,它就不开始failover恢复,只需要把第一条通信路径标成红色(失效),作为信号告诉你需要修理一下有故障的路径。

一般情况下LifeKeeper只在下列事件发生时,启动系统恢复功能:

Ø所有的通信路径故障。

如果所有节点都没能收到心跳信号,把所有通信路径都标为失效,Lifekeeper开始安全检查。

Ø安全检查失败。

当所有通信路径故障时,LifeKeeper向整个网络发出安全检查信号。

如果信号指出配对系统还“活”着的时候,LifeKeeper不启动Failover。

如果安全检查没从配对节点返回信号,LifeKeeper就开始Failover。

因而,为了减少由于潜在的通讯错误所引起的不必要的系统切换,建议您使用不同介质的多条通信路径。

3、通信路径

LifeKeeper支持在节点之间和心跳通讯中,使用如下通讯路径:

(1)socket,即套接字。

你使用任何的网络硬件接口,只要它能够支持TCP/IP的通讯协议。

这样的硬件包括:

以太网、快速以网、令牌环网以及FDDI或CDDI。

(2)串行口在LifeKeeper配置中,你应当配置有一个串行口通信路径。

串口通信路径需要利用RS232的拟调解线路来与LifeKeeper系统相连接。

(3)共享磁盘你可以定义一个共享磁盘分区来作为LifeKeeper的通讯中介。

可以只使用小至1MB的分区,当然,也可以使用更大的空间。

LifeKeeper假定,当通过心跳信号检测其它服务器失败时,则认为此服务器是关闭的。

因此,为了避免不必要的失效切换,最好建立两种以上独立的物理路径,使用至少两种心跳。

例如,如果两个服务器被一个串口连接起来,并且,从属服务器来的心跳信号无法被主服务器所检测到,则下面之一是可能引起这一现象的原因:

Ø服务器的RS-232卡或者端口失败

Ø电缆失效

Ø主服务器暂时挂起

Ø主服务器失败

失效切换只可能在最后一种情况下才发生。

因此,节点间的多种通信路径可以帮助避免不必要的失效切换。

(二)SteeleyeLifeKeeper配置示范

磁盘阵列

LifeKeeper

应用系统

WindowsNTServer

硬件平台

NTServer2

NTServer1

LifeKeeper

应用系统

WindowsNTServer

硬件平台

HeartbeatConnections

TCP/IP

注解;支持的数据库系统:

NTSQLServer、Sybase、Orcale等;支持的群件:

lotusNotes、ExchangeServer等;其他:

SAPR/3。

STEELEYE除了提供以上的恢复工具包外,还提供了一个用

户自定义接口,使您的应用也能处于LifeKeeper的保护之下

 

软件、硬件配置

a、软件:

SteeleyeLifeKeeper2.04及RecoveryKit

b、硬件:

服务器可以是任何Intel基础上的平台,Server的型号、配置不必一致,只需硬件平台能保证NT运行;磁盘阵列正常使用。

1、SteeleyeLifeKeeper运行机制

I、共享的SCSI和LifeKeeper软件锁定

LifeKeeperForWinddowsNT软件锁定:

LifeKeeper管理共享磁盘上的数据,以防止多个服务器在同一时间访问数据。

LifeKeeper在逻辑设备级(卷)上控制对数据的访问,并让WindowsNT软件或硬件RAIDControllers管理物理级。

有了LifekeeperForWindowsNT来管理对共享数据的访问,用户就可以不必担心群中的其它服务器访问数据时,可能会带来的数据访问冲突。

LifeKeeper自动在被应用程序定义为共享资源的磁盘卷上设置锁定。

当被保护的应用程序由一个服务器被移动/转换到另一个服务器时,LifeKeeper控制这些锁定,以保证激活服务器对共享卷的访问。

在主系统发生故障的情况下,次节点系统将能够在磁盘上建立SCSI锁定,并在备份的系统上将资源投入使用。

II、LocalRecovery(局部恢复)

LifeKeeper2.04在快速检查(Quickcheck)和深入检查(deepcheck)的时间间隔执行预先定义的行为,以察看资源本身是否失效。

如果快速检查和深入检查均局部告失败,系统将尝试局部恢复资源。

如果尝试成功,资源将不会向下一优先级的节点进行失效切换(failover)。

如果局部恢复尝试失败,系统将向下一优先级的节点进行失效切换。

例如,你可以在LifeKeeper服务器上配置多块NIC卡,当定义的NIC发生故障时,你就可以配置将IP资源切转到另一个NIC上,从而避免不必要的失效切换。

III、Failover(失效切换)

指定主要的节点或资源失败时,重新恢复资源的过程。

一个失效切换通常是没有事先计划的,它将发生在一个被从属系统所检测到并确定为失败的情况下。

IV、ACS(管理员可配置的迁回)

AdministratorConfigurableSwitchback(ACS)允许LifeKeeper管理员通过命令行或GUI界面来指定资源,其所在LK节点发生故

障而后又恢复正常,该资源将被自动地切换回到原来节点上。

可能的值是Intelligent(智能的)和Automatic(自动的)。

如果选择Automatic,那么,一旦发生故障的节点回到服务状态时,被配置失效切换的层次都将被切换回到该节点上。

如果策略是Intelligent,即使当发生故障的节点回到服务状态时,被配置失效切换的层次也会留在它们被失效切换到的节点上,等待由管理员决定合适的时间进行切换。

V、Switchover(正常切换)

指用一个有顺序的方式关闭资源,然后将它们恢复到一个备份系统的过程。

这通常发生在当你处于维护或者测试模式中的情况下。

这时,没有任何东西失败。

2、工作方式

I、Active/Standby

AppA

 

AppA

Standby

Active

NTServer2

NTServer1

DiskArray

 

RS232

TCP/IP

在一个激活/备用对中,主节点处于处理状态,从属节点处于备用状态,以防主节点上发生失败。

备用系统可以是一个小一点、性能低一点的系统,但是,当主节点失败时,它必须有保证资源可达性的处理能力。

例如,假设NTServer1是主“激活”节点,NTServer2是次“备用”节点。

如果NTServer1发生故障了,它的被保护资源由NTServer2节点来恢复。

当节点NTServer1恢复后,资源可以被NTServer1重新获得。

然而,当NTServer2节点失败时,NTServer2节点上并没有需要被NTServer1节点恢复的资源。

II、Active/Active

DiskArray

M:

\

NTServer1

NTServer2

AppA

onW:

AppB

onM:

W:

\

AppB

onM:

AppA

onW:

RS232

TCP/IP

在一个激活/激活对中,两个节点都是激活的处理器,但是它们也可分别作为其对应节点上的资源和资源层次的从属节点。

在激活/激活的图表中,有两个主要应用:

APPA处于Volumew中,并且在NTServer1上激活。

APPB存储在VolumeM上,并且在NTServer2上激活。

在这一配置中,NTServer1应该是VolumeW:

资源的主节点,NTServer2应该是VolumeM:

\资源的主节点。

当NTServer2失败时,LifeKeeper应该将VolumeM:

\转换到NTServer1上去。

如果系统资源是足够的,这一转换不会影响到已经在NTServer1上运行的APPA,转换只是简单地将NTServer2上的被保护应用程序(APPB)加到NTServer1的运行负载上去。

 

III、N-Way(N=3,N=4……N=16)

服务器A

Server3

AppA

AppB

AppC

Active

Active

DiskArray

服务器B

服务器C

AppA

AppB

AppB

AppC

AppC

N-Way配置是激活/激活或激活/备用的一个有三到十六个服务器的扩展。

服务器A被配置为服务器B和服务器C的备份。

而且,服务器A可以被配置为除了服务器B和服务器C的其他服务器做备份。

当任何一个服务器发生故障时,被保护的应用程序被从该服务器上转到备用的服务器上。

在N-WAY配置中,可以配置CascadingRecovery(层叠恢复)。

当主节点发生故障时,层叠恢复允许多个从属节点被按照一定的优先级次序恢复一个资源或层次。

对于在一对节点上的资源恢复,如果节点A发生故障了,资源将会失效切换到节点B上;如果节点B再发生故障而节点A仍然不可用,资源将会失效切换到节点C上。

多个从属节点被指定一个恢复优先级。

在上面的例子中,节点A有最高的优先级,节点B有第二优先级,而节点C有最低优先级。

LifeKeeper按优先级次序测验节点来决定在失效切换时哪一个服务器将进行工作。

二、STEELEYELifeKeeperwithExtendedMirroring技术简介及其应用(支持非共享磁盘阵列的扩展方式)

(一)STEELEYEExtendedMirroring原理

1、STEELEYEExtendedMirroring简介

STEELEYE扩展镜像是一种软件产品,专为WindowsNT系统设计的客户/服务器环境下一种有效、高性能的高可用性解决方案。

单独使用STEELEYE扩展镜像软件,无需较贵的RAID磁盘子系统,无需考虑小型计算机系统接口(SCSI)对缆线长度的限制,去除了单点故障(磁盘阵列子系统)。

集群计算机环境所要考虑的主要问题是系统总开销,而使用STEELEYE扩展镜像软件的STEELEYELifekeeperForWindowsNT是解决这个问题的首选方案。

公司只需最小的硬件集成便可以得到低价、高可用性的方案。

STEELEYE扩展镜像软件在局域网的服务器之间提供完全基于软件的镜像。

一个服务器被指定为主服务,另一个为从服务器。

客户只能对主服务器上的镜像卷进行读或写,从服务器上相应的卷被锁定以防对数据的存取,除非在主服务器上检测到故障状态。

这是实现一个高性能方案要考虑的一个重要问题,因为数据的完整性是主要因素。

尽管STEELEYE扩展镜像软件可以单独使用,但是与STEELEYELifeKeeperforWindowsNT配合使用会显著增强它的功能。

2、STEELEYEExtendedMirroring特性

在STEELEYE扩展镜像环境下,一个镜像是主服务器上的一个卷,其内容与从服务器上的相关磁盘通过LAN同步。

STEELEYE扩展镜像软件使卷镜像的创建更为容易。

在卷镜像建立后,主服务器和从服务器上的驱动器已经同步,并且两个服务器都已启动运行,出现下面的事件:

Ø最初的镜像建立后,系统禁止所有用户存取从镜像卷,不允许对从服务器上的镜像卷读和写。

主服务器镜像则可以进行读和写操作。

Ø到达主服务器的所有镜像和非镜像卷的读操作被传递给卷后,可以无干扰的正常完成。

对从服务器上镜像卷不能以Standby模式读,例如,从服务器尚未承担主服务器发生故障时的角色。

Ø无论何时主服务器收到一个写请求,系统首先决定这个请求是否针对某个镜像卷。

如果不是,写操作可以完全正常的完成。

如果主服务器写请求是针对镜像卷的,那么请求首先被送到从镜像卷去。

从系统在自己的镜像卷上执行写请求后,向主系统发送写回状态。

主服务器在收到这个写回状态前不做任何写操作。

Ø当从系统返回一个成功状态时,主系统在自己的镜像卷执行写操作,并返回到请求方。

如果从系统执行镜像卷写操作时发生错误,那么从系统上的写操作将被中止,主系统结束自己的镜像卷写请求,镜像状态从Normal变为Broken。

3、STEELEYELifeKeeperwithExtendedMirroring特性

STEELEYELifeKeeperForWindowsNT与STEELEYE扩展镜像软件互有优点,两者的结合给用户提供了不少好处。

ØSTEELEYELifeKeeperForWindowsNT的自动检测与恢复功能和STEELEYE扩展镜像软件的卷镜像功能相辅相成,使STEELEYELifeKeeper

系统配置中,无需昂贵的RAID磁盘子系统。

Ø使用扩展镜像的LifeKeeper由于数据被镜像到另一个系统上去,因此STEELEYELifeKeeperForWindowsNT与STEELEYE扩展镜像软件的结合去除了RAID磁盘子系统中单点故障的可能性。

Ø因为没有共享SCSI缆线的长度限制,STEELEYE扩展镜像软件使用户能够将LifeKeeper服务器放置在局域网上任意处,这使带有STEELEYE扩展镜像功能的STEELEYELifekeeperForWindowsNT有可能在独立楼房中通过对服务器的定位来达到灾难恢复的目的。

(二)STEELEYELifeKeeperwithExtendedMirroring配置示范

NTServer2

NTServer1

TCP/IP

RS232串口

镜像盘

LifeKeeperWith

ExtendedMirroring

应用系统

WindowsNTServer

硬件平台

LifeKeeperWith

ExtendedMirroring

应用系统

WindowsNTServer

硬件平台

HeartbeatConnections

 

注解;支持的数据库系统:

NTSQLServer、Sybase、Orcale等;支持的群件:

lotusNotes、ExchangeServer等;其他:

SAPR/3。

STEELEYE除了提供以上的恢复工具包外,还提供了一个用户自定义接口,使您的应用也能处于LifeKeeper的保护之下。

 

使用带有STEELEYE扩展镜像功能的STEELEYELifeKeeperforWindowsNT来进行配置,其中NTServer1是主服务器,NTServer2是从服务器。

当一个客户向NTServer1上的镜像卷发出写命令,STEELEYE扩展镜像软件保证写命令通过网络送给NTServer2,NTServer2上的写操作成功完成时,NTServer1上的写操作才能完成。

因此,两处系统能够同时更新,因此主、从服务镜像卷中的数据一致性得以保证。

软件、硬件配置

1、软件:

STEELEYELifeKeeper2.04及RecoveryKit

2、硬件:

服务器可以是任何INTEL基础上的平台,两台Server的型号、配置不必一致,只需硬件平台能保证NT运行

1、STEELEYELifeKeeperwithExtendedMirroring运行机制

I、通讯路径

“Heartbeat”是服务器间发出的周期性检测信息,它允许STEELEYELifekeeperForWindowsNT决定服务器的状态。

当一个服务器向另一处服务器发送一个“Heartbeat”消息,并且在规定时间段里没有得到任何回应时,发送消息的服务器开始评测接收消息的服务器是否正在发生故障。

多种“Heartbeat”检测信号保证故障检测的可靠性,以防止不必要的资源服务切换。

STEELEYELifeKeeperForWindowsNT为STEELEYE扩展镜像提供下列途径上的“Heartbeat”通信:

(1)Socket(TCP/IP)

(2)RS-232TTY通信端口(Communicationsport)

STEELEYE扩展镜像软件消除了共享SCSI的需要。

II、主服务器发生故障

客户向NTServer1上运行的一个程序发送一个请求,而NTServer1出现写错误时,使用带有STEELEYE扩展镜像功能的STEELEYELifekeeperForWindowsNT能够检测出系统失败。

然后,STEELEYELifeKeeperForWindowsNT执行恢复规则,试图关闭NTServer1上的应用,并且在NTServer2上重新启动它们。

NTServer2现在承担主服务器的角色,镜像卷地址从NTServer1转移到NTServer2上去,这个转换过程对用户来说是透明的,客户一般不会发现系统曾经发生这样的故障。

一旦系统发生的故障被被纠正过来,管理员必须重新同步镜像卷。

重新同步这些卷并被锁定,目的是不接受任何客户的存取。

在这个过程中,非镜像应用不会受到影响,因此这些应用可以毫无干扰的继续运行。

系统管理员可以选择何时对镜像卷进行同步,通过提供选择时间的灵活性达到对整个系统的影响减为最小。

重新同步主服务器和从服务器上镜像的时间依赖于卷的大小。

一般情况下,在100MB以太网上,恢复1Gigabyte(GB)的数据只需要10分钟。

III、从服务器发生故障

当从系统发生故障时,受影响的镜像卷标志为Broken。

有必要纠正这些故障,并重新同步有关的卷。

当从系统发生故障时,任何写请求不会送给从系统。

当从服务器发生故障后再次恢复时,扩展镜像管理器用来重新同步主镜像卷和从镜像卷。

 

2、工作方式

I、Active/Standby

Active

RS232串口

Standby

镜像盘

LifeKeeperWith

ExtendedMirroring

应用系统

WindowsNTServer

硬件平台

 

LifeKeeperWith

ExtendedMirroring

应用系统

WindowsNTServer

硬件平台

AppA

AppA

TCP/IP

HeartbeatConnections

 

IV、Active/Active

AppA

AppB

 

Active

 

Active

LifeKeeperWith

ExtendedMirroring

应用系统

WindowsNTServer

硬件平台

镜像盘

LifeKeeperWith

ExtendedMirroring

应用系统

WindowsNTServer

硬件平台

AppB

AppA

RS232串口

TCP/IP

HeartbeatConnections

 

LifeKeeperWithExtendedMirroring具有以上两种工作方式,可支持两个NTServer系统。

三、LifeKeeperForWindowsNT2000年问题安全测试报告及测试步骤

目的和范围

本文件涉及的产品是STEELEYE公司的LifeKeeper。

LifeKeeper(2.04)是一个为WindowsNT4.0和MP-RAS3.02系统提供高可用性的软件工具。

LifeKeeper能够为系统资源(例如应用程序、数据库、IP地址等)提供成熟的恢复和切换能力。

本文件内容仅作提供信息之用,如有改变不再另行通知,而且本文件不影响STEELEYE的产品规范或保证。

本文件信息的提供基于以下前提-----即使STEELEYE得知使用的信息具有造成损害的可能性,由于使用本信息造成间接、直接、特殊以及由此而生的其他损害,STEELEYE也概不负责。

四、LifeKeeper与同类产品的性能评测比较

1、LifeKeeper与MicrosoftWindowsNTCluster的比较

特征/功能

LifeKeeperLifeKeeper

NTCluster

软件工作环境

微软独有的软件环境

NT和UNIX解决方案共用相同的集群结构

必须使用NT及SQLServer企业版

NT4.0serverandWorkstation

硬件工作环境

双节点集群

支持多节点集群

支持共享SCSI环境(磁盘阵列柜)

支持非共享SCSI工作环境(扩展镜像)

应用

保护SQLServer、MSExchange

保护Sybase、Oracle、Informix、SAP、Notes

Exchange等数据库和群件

集群特征

Active/Active(相互备援)

保护NTFS文件系统

保护FAT、HPFS文件系统

多条局域心跳通信路径

并行应用恢复

自动回切

2、LifeKeeper与VincaCo-StandbyServer的比较

LifeKeeper

Co-Standby

容错方式及容错级别

支持共享磁盘阵列和扩展镜像两种方式且Lifekeeper真正实现了用户硬件或软件发生故障时,系统级别、应用级别上的在线热切换。

仅支持扩展镜像方式,除实现硬盘镜像功能外,在用户的应用网卡、操作系统、数据库发生故障时,并不能实现切换。

镜像方式

对磁盘逻辑分区镜像

对物理磁盘镜像

切换机制的周全程度

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > 计算机软件及应用

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1