易腾双机热备软件方案HA方式.docx

上传人:b****5 文档编号:5115195 上传时间:2022-12-13 格式:DOCX 页数:16 大小:792.55KB
下载 相关 举报
易腾双机热备软件方案HA方式.docx_第1页
第1页 / 共16页
易腾双机热备软件方案HA方式.docx_第2页
第2页 / 共16页
易腾双机热备软件方案HA方式.docx_第3页
第3页 / 共16页
易腾双机热备软件方案HA方式.docx_第4页
第4页 / 共16页
易腾双机热备软件方案HA方式.docx_第5页
第5页 / 共16页
点击查看更多>>
下载资源
资源描述

易腾双机热备软件方案HA方式.docx

《易腾双机热备软件方案HA方式.docx》由会员分享,可在线阅读,更多相关《易腾双机热备软件方案HA方式.docx(16页珍藏版)》请在冰豆网上搜索。

易腾双机热备软件方案HA方式.docx

易腾双机热备软件方案HA方式

 

易腾共享群集软件3.0

技术白皮书

 

上海希望信息技术有限公司

葛俊

 

第一章

信息高可用性概述

一、高可用性需求

随着信息化建设的不断推进,企业的信息化已经非常普遍,各个企事业单位的活动越来越多的依赖于其关键的业务信息系统,这些业务信息系统对整个机构的运营和发展起着至关重要的作用。

如果一些关键应用一旦发生宕机故障或应用停机,将给企业带来巨大的经济损失,并且由于业务的不可用而影响了企业的信誉,致使客户对企业失去信任,所造成的危害是致命的。

非正常的服务终止时间的长短会对用户造成不同的损失,或者说用户对服务停止所能承受的时间是不同的。

通常取决于应用的类型,如果能够在几秒钟内修复错误,不会对一个在线联机事务(OLTP)处理系统构成影响,但是对火箭发射等实时应用,哪怕只停止一秒都是不可忍受的。

由于系统的任何一个部件都可能发生故障,因此系统设计师在构建系统时需要能够预见到系统可能会发生的各种故障,并进行软硬件的部署,在这些故障后发生能够迅速纠正。

可见,对那些需要保障信息安全和提供不间断的信息服务的企业而言,业务系统的容错性和不间断性显得尤为重要。

如何保障各种关键应用持续运营,达到永续经营的良性循环,已成为当今企事业单位和IT领域急需解决的关键问题。

二、服务宕机的必然性

通常企业构造服务的硬件环境为单一服务器配置模式,一旦因为计划中宕机和计划外宕机,便会引起服务终止。

计划中的宕机通常指完成系统升级、应用迁移、部件更换等操作引起的宕机,这些计划中的宕机是企业维护服务正常工作不可避免的工作项目,虽然可以人为地采取一些措施减少损失,但依然会造成服务的终止。

计划外宕机通常是由于系统出错造成的。

错误包括硬件、软件、系统和网络,或是系统运行外部环境原因等,这些情况包含了:

硬件故障、操作系统崩溃死机、硬盘满、电压不稳、跳电、电源损坏、网络故障、软件漏洞(Bug)、应用出错。

同样人为失误造成的故障也称为出错。

当然,并非所有的出错会造成宕机,也不是所有的意外宕机都是由于部件出错造成的,灾难或其他意外情况同样会造成服务终止。

计划外宕机通常会导致非常严重的后果,比如酒店的入店和结帐系统故障,所有的客户将无法check-in和check-out;医院的电脑系统出错,将导致患者无法结账、医生无法得到患者信息,甚至无法进行手术;银行的记帐系统因电脑出错,客户将无法提现和存款。

总之,机会外宕机所造成的损害将非常大。

有些环境下,系统停止服务将导致事务处理无法进行,必将导致客户对企业信任度降低,甚至会给客户带来不可挽回的损失。

三、高可用性解决方案

通常,对于服务因错误造成的不可避免终止,企业都会安排相关的管理人员进行定时的监控,一旦发现服务不可用,便会立即进行处理排错。

这是非常原始的高可用解决方案,存在诸多问题,譬如及时性问题,一旦错误在深夜发生,而人工不可能24小时监控;再譬如处理时间长短不可控,一旦错误造成的原因非常复杂,排错非常困难,需要非常长的时间,那么服务的终止将非常长。

在排错过程中,人为操作失误将可能导致系统的永久瘫痪。

另一方面,为了维持系统的高可用性而配备操作人员,劳务费用也非常昂贵。

目前,市场上提供多种高可用性解决的软件解决方案。

主要分为双机和多机的解决方案,主要原理是在提供硬件冗余的系统基础之上,运行高可靠性软件而构成。

高可用性软件自动检测服务的运行状态,一旦服务在主机上出现故障,高可用性软件将自动地把服务转到另一台服务器上,从而让服务持续可用。

对系统应用状态的监控和服务故障的恢复,由高可用软件自动完成,减少了人员的负担。

四、高可用性工作原理

(一)、高可用硬件配置

高可用环境中,硬件是要求冗余的,包括两台服务器(我们称这种环境为双机容错),而部署多机高可用集群环境时,服务器则是多台,每台服务器拥有足够的I/O能力、内存容量、系统硬盘空间、网卡部件,使得配置能够在使用中符合系统的需求,并能够最大限度的降低系统停机时间。

存储系统通常也必须是冗余的,例如,将数据存放在RAID5磁盘阵列中。

当一个硬盘发生错误时,数据仍然可以正常访问,而且可以从其他硬盘中恢复出这个硬盘的内容(称为RAID重建)。

图1高可用系统的硬件拓扑结构

高可用系统的硬件拓扑结构如图1所示。

服务器:

主服务器和备份服务器运行同一版本的操作系统,但其硬件配置可以不一致,主服务器为提供服务的服务器,备份服务器平时不提供服务,只有主服务器出现问题时,其能够接替主服务工作的服务器。

私网:

用于在服务器之间传输cluster的信息网络结构,其主要是支持TCP/IP协议的以太网和光纤网。

公网:

供客户端访问服务的网络,客户端可以通过公网访问到每台服务器。

共享存储:

每个服务器都能访问的存储设备,同时也是服务数据存放的地方,一般采用磁盘阵列,为了对数据进行冗余保护,可根据客户需要做不同的RAID级别数据保护。

磁盘阵列的接口形式可以是iSCSI、FC、SAS、NAS等。

(二)、高可用工作原理

每台服务器都接上磁盘阵列,客户的应用程序或数据都放入磁盘阵列中,客户通过浮动的IP地址访问服务。

客户的服务平时在主节点上运行,当主节点出现故障(硬件故障如:

网卡,卷,磁盘等出错;软件故障:

应用不可用)时,第二台备用服务器自动接管其工作(即带入磁盘阵列的卷,接管浮动IP地址,最后启动应用)。

如果第二台备用服务器不可用,其任务被第三台服务自动接管,如此类推。

因此,一台服务器节点出现故障后,其他服务器可接管其服务,从而保证整个系统对外服务的正常,为企业24小时×365天的关键业务应用提供了强大的保障。

(1)心跳信息原理

主备机通过心跳路径,周期性地发出检测数据包。

如果主机出现故障,备机在规定的时间内没有收到来自主机的检测包后,会认为主机可能出现故障;这时备机自动检测设置中是否有第二条心跳途径,试图在第二条和主机建立心跳通信。

如果第二条心跳途径同样失败后,备机则根据已设定的策略,启动备机的相关服务,完成服务的切换。

(2)浮动IP工作原理

浮动IP指客户端访问服务的IP地址,这个浮动IP地址挂载受到高可用软件的控制。

正常情况下,由主服务器对外提供服务,高可用软件把此IP地址挂载到主服务器上。

当主服务器出现故障后,服务发生切换,高可用软件会自动把该IP地址挂载到备份服务器上,用户访问的仍然是浮动IP地址。

所以用户只会在切换的过程中发现有短暂的通信中断,经过一个短暂的时间,就可以恢复通信。

(3)切换条件

●主机的硬件发生故障,譬如主机主板故障、主板掉电。

●主机的操作系统发生故障。

●运行于主机的服务出现故障。

●主机的公共网络发生故障。

当发生以上故障时,高可用软件会及时检测到这些故障,主动把服务切换到相应的备份主机上。

(4)切换过程

服务切换过程主要是把服务从主服务器上切换到备份服务上。

首先,在主服务器上主动释放相应的资源,主要步骤是:

1.执行正常的服务关闭程序,这样可以保证服务的完整性及数据的安全,而且也不会再有其他服务器执行此项服务。

2.释放共享磁盘,以便备份服务器能够访问共享磁盘。

3.释放浮动IP地址,这样便可保证不会再有其他服务器使用此IP地址。

其次,由备份服务器接管相关的资源:

1.获取存有服务的共享磁盘分区并系统检测与恢复,此过程可进一步保证在服务异常中断时共享磁盘的完整性。

2.在备份服务器网络挂载浮动的IP地址,客户端会重新连接到原来的IP地址。

这样,用户再去访问服务时,就没有必要再去重新配置或做修改。

3.重新启动服务。

(5)切换时间影响因素

切换时间受多种因素的影响,主要由3个方面决定:

1.启动服务的实际时间,与环境配置的复杂性和数据库存储数据量相关,往往客户实际配置比较复杂,数据库比较庞大,因而启动服务就比较长;

2.共享磁盘阵列的挂载,当磁盘阵列的文件系统出现问题同时数据比较多时,挂载该分区时做文件系统检测就比较长;

3.停止服务实际时间,其所受各种环境条件的影响和启动服务一样。

第二章

易腾共享群集软件概述

易腾共享群集软件产品(EterneCluster)是来自中国本土的,拥有自主知识产权的多机高可用产品,支持Windows、Linux等操作系统平台,支持几乎所有的存储环境。

具有稳定可靠、易于管理、备援方式灵活多样、节点和任务伸缩性强、保护用户投资、整合和优化用户系统环境、支持包括ISCSI存储环境等特点。

一、软件组成

软件主要分为4大部分构成:

EterneClusterConsole、EterneClusterCore、EterneClusterMonitor、EterneClusterResourceDLL。

(一)、EterneClusterConsole

Console是由是JAVA编写的用户界面,通过该界面可以管理整个cluster的所有节点和服务,同时直观地表示cluster的各个任务运行状态和细节。

(二)、EterneClusterCore

Core是Cluster的核心服务程序。

其负责执行来自Console的命令,协调各个节点的任务分配,传输和接收各个节点的心跳信息,切换和接管任务的管理中心,同时接收来自Monitor定时发送的资源状态信息,并进行解析和进行相关的操作。

(三)、EterneClusterMonitor

Monitor负责监控资源的状态,定时把这些资源的信息传递给Core,同时监控Core运行的状态,一旦发现Core出现问题,会立即重新启动Core,从而保证Core不存在单点故障的可能。

(四)、EterneClusterResourceDLL

ResourceDLL是Eterne提供主要的资源动态连接库,主要包含:

IPAddress、NetworkName、PhysicalDriver、Share、Application、Service,每个资源都有自己的属性、方法、事件。

对于用户的特别服务,Eterne可以为用户提供第三方程序编写DLL服务,在用户提出需求后,由Eterne开发人员为用户开发第三方软件的资源编写。

二、功能特点

(一)、分为两大产品

易腾群集软件分为两大产品:

易腾双机高可用软件(EterneCluster-DN),易腾群集软件(EterneCluster-MN)。

EterneCluster-DN只针对硬件环境为两个服务器+磁盘阵列的双机热备解决方案,性价比很高,EterneCluster-MN是群集多机软件,可以支持最多32台服务器的热备方案。

(二)、应用高可用性

提供高可用性解决方案是易腾群集软件的核心功能,该解决方案提供双机热备系统,也提供多机的高可用解决方案。

其原理都是当一台服务器出现故障时,可以由另一台服务器承担服务任务,从而在不需要人工干预的情况下,自动保证系统能持续提供服务。

(三)、自我修复能力

在集群系统的每一台服务器内,易腾群集软件具有两个核心进程:

Service和Monitor,他们互相监控(如:

系统宕机、网络、SCSI线缆是否断开),如果其中一个进程失败,另一个进程会立即进行恢复,最大程度保证双机热备系统自身健壮,避免双机丢失。

(四)、支持多条心跳路径

支持网卡(私网/公网)、磁盘心跳等多种心跳方式,多重保障心跳检测途径,配置多条心跳路径可以避免系统的单点故障,进一步提高了系统的可靠性。

(五)、资源组管理

无论易腾群集软件的安装还是管理都设计的十分简单和直观,包括辨别关键的资源(例如IP地址)和指定这些资源到一个管理组(ResourcesGroup)。

一旦被指定到一个管理组之后,这些资源就被确认为被管理的资源。

当其中一个服务器失败时,这些资源将迁移到另一个服务器。

易腾群集软件可以单独地在每台服务器上安装和卸载,用户可以自由地从一个组中删除和增加一个服务器,无需全部卸载每台服务器。

(六)、单机热备高可用

在应用软件的检测时间间隔执行检测,以察看资源本身是否失效。

如果快速检查和深入检查均局部告失败,系统将根据用户设定的策略尝试局部恢复资源,实现单机的自动修复,从而达到用户单机系统同样得到高可用级别。

✓本地网卡失败转移

在主服务器上,可以加上另外一个NIC作为主服务器的备份NIC。

当主NIC出现故障时,EterneCluster将可切换的IP地址让由本地的备份NIC接管,本地资源不需要切换,有效的减少的切换时间。

✓核心业务失败

当核心业务出现问题时,EterneCluster会及时侦测到,并重新启动核心业务,从而不需要异地切换。

✓浮动IP失败

当浮动IP被释放或出现问题时,EterneCluster会及时重新带入该浮动IP,实现单机的高可用。

(七)、共享磁盘的锁定

软件管理共享磁盘上的数据,以防止多个服务器在同一时间访问数据。

EterneCluster在逻辑设备级(卷)上控制对数据的访问,管理员可以不必担心群中的其它服务器访问数据时,可能会带来的数据访问冲突。

EterneCluster自动在被应用程序定义为共享资源的磁盘卷上设置SCSI-2/SCSI-3持久保留。

当被保护的应用程序由一个服务器被移动/转换到另一个服务器时,EterneCluster控制这些锁定,以保证激活服务器对共享卷的访问。

在主系统发生故障的情况下,次节点系统将能够在磁盘上建立SCSI锁定,并在备份的系统上将资源投入使用。

(八)、支持多种群集工作模式

不仅支持传统的单活(Active/Passive)、双活(Active/Active),还支持N和N+1多节点集群备份。

目前EterneCluster最多支持32个节点的群集工作模式。

(九)、支持自动迁回

当首选节点发生故障后又恢复正常,如果允许自动迁回,备份节点在指定的恢复时间窗口内将资源组切换回首选节点运行;禁止自动迁回时,资源组将保留在备份结点上,管理员可在合适的时间手工切换。

(一十)、支持无为ARP

当浮动IP切换到其它网卡上挂载时,Cluster会主动进行ARP广播通知客户端该IP的MAC地址发生改变,让客户端主动更新映射关系,这样客户端便会连接到相关的服务上,避免因浮动IP切换造成客户端无法访问的情况。

(一十一)、支持快速切换

针对不需要切换的资源,如中间层程序,IIS服务等应用,Cluster提供本地监控及本机恢复功能(如重启资源和重启服务器),因为这些资源本身无需切换,只要主机备机同时启动即可,这样可以节省切换时间,可以达到2~3秒快速切换实现了应用信息服务系统的永不停顿。

(一十二)、支持多种应用保护

可以保护大量的应用程序和服务,几乎涵盖了目前Windows平台上所有主流的应用和服务,如Oracle、SQLServer、DB2、Sybase、Appache、Samba等,除了这些主流的应用和服务。

(一十三)、支持忽略监控资源

业务应用往往是由很多资源构成一个资源组,资源组中任何资源出现问题,群集软件都会自动重启有问题的资源或把该业务应用切换。

但有时后某个资源需要停下来升级或维护同时也想影响目前业务运行,易腾群集软件提供忽略该资源的监控功能,让用户可以手工停止该资源而不影响整个资源组。

(一十四)、支持双机双柜

配合VeritasStorageFoundationBasic的免费版本的卷管理器的动态磁盘组功能,EterneCluster可很好的支持双机双柜的解决方案。

(一十五)、直观的GUI用户界面

提供直观的GUI用户界面,用户可以交互式地对不同的集群系统进行配置、监控和远程管理,实时地显示出主机系统及服务的状态,大大减少了系统因用户人为的错误而引起的损失,同时基于向导形式的设定界面简化了系统安装,配置工作。

(一十六)、全面支持用户自己开发的应用程序和服务

往往企业希望群集软件能够监控自己开发的应用程序或第三方的应用程序,易腾EterneCluster提供应用程序资源和服务资源,全面支持企业非常方便简单的进行配置,便可以满足企业的需求。

应用程序资源,配置非常的灵活和丰富,满足各式各样的应用软件的需求,譬如用户可以根据需要指定自定义服务或应用程序的运行身份,运行目录,甚至是否是agent方式进行检测运行,定时的监控软件运行状况并汇报给群集软件。

(一十七)、支持网页方式启动GUI

易腾群集软件客户端界面可以装载在远程客户端,不用装载到服务端。

如果服务端装载了客户端软件,管理员可以在任何远程客户端机器(该客户端机器不用安装客户端软件)通过IE输入http:

//:

17550/网页进行远程管理群集环境,进行资源组的操作。

(一十八)、支持域名服务资源

企业在内部建立域名服务器后,往往担心域名服务器出现问题造成内部网络服务器之间无法联系,而普通的双机热备软件是很难进行配置达到热备目的。

易腾群集软件提供域名服务资源,从而轻松实现域名服务的切换和转移。

(一十九)、支持多种应用软件的深入检测

一般的群集软件或双机热备软件提供的应用软件检测仅仅监控应用软件或数据库的进程或线程是否在线。

当应用软件或数据库软件的进程或线程被杀掉或意外退出时,群集软件才能检测到监控的软件出现问题并做出相应的切换或重启策略。

但用户的应用软件或数据库软件往往存在相应的进程或线程虽然在线但实际上已经不可以访问的情况(即软件处于假死状态),此时群集软件还认为被监控的软件运行正常,从而不能做出应用软件的切换或重启让企业的业务恢复正常。

针对这种情况,易腾群集软件提供深入检测功能,让易腾群集软件深入检测应用软件的具体运行状况,而不是简单监控进程,譬如针对数据库软件,易腾群集软件定时访问数据库具体数据作为深度检测,一旦数据库的数据不可访问,那么就认为数据库软件出现问题,从而做出切换或重启策略。

第三章

EterneCluster应用规格

一、软硬件规格

(一)、支持各种类型服务器

支持DELL,HP,PowerLeader,IBM,浪潮,联想等X86架构的所有服务器,各个节点的服务器类型和硬件配置可以不一致。

(二)、支持各种类型的存储设备

可利用SAN,SCSI,NAS既存的资源进行系统配置,支持各种类型的磁盘阵列,包括Infortrend,HP,IBM,SUN,HDS等。

(三)、支持的操作系统平台

目前EterneCluster支持Window系列和Linux系列的操作系统平台,下面是具体支持的操作系统平台:

●Windows系列操作系统

⏹Windows2003系列

⏹Windows2008系列

⏹Windows2012系列

●Linux系列操作系统

⏹RedHatEnterpriseLinux4.0/5.0或以上

⏹SuseLinuxEnterprise10.0/11.0或以上

⏹UbuntuLinux8.0或以上

(四)、提供丰富的应用软件支持

支持多种应用的高可用,并能与重要的应用如数据库:

MicrosoftSQLServer、Exchange2000/2003、Oracle、文件服务器等紧密配合。

EterneCluster支持的应用包括:

✓数据库:

MSSQLServer、Oracle,Sybase等。

✓文件服务器:

NFS,Samba等。

✓WEB应用服务:

IIS,Apache等。

✓邮件服务器。

✓用户自定义。

二、群集规格配置

EterneCluster支持多种类型的配置,主要分为2大类:

双机集群和多机集群。

(一)、双机集群(1-1)配置

简单双机集群是目前大多用户采用的高可用环境,简单的说就是两台服务器加一台磁盘阵列,通过EterneCluster软件实现主从工作方式的双机环境。

主从就是Active-Standby工作模式,容错软件作为不可缺少部分起到监控系统状态并在系统故障时,自动做出相应的反应,保证整个系统提供服务的不间断。

同样双机集群可以实现Active-Active工作模式,即两台服务器分别运行不同的服务,并且互相作为备份,一旦某一台的系统出现故障,另外一台便会自动进行服务的接管。

(二)、多机集群配置

多节点集群在未来会有大量需求,大家对集群的认识目前还在双机环境下。

而实际上,在有多个关键应用都具有高可用需求,在一个机房内建立多个双机系统显然是很浪费的,管理的复杂度又高,多节点集群可以有效的解决这个问题。

对于多节点高可用,可以理解为多机互备,多个服务器连接在一个共享存储设备上,同时运行多个不同应用,在其中任意服务器出现故障时,其它服务器根据备援策略进行接管服务,保证整个集群中的服务都能高可用。

比较常用的多机集群配置主要有3个类型:

1-N、N-1、M-N。

(1)1-N配置

这个配置方式是一个标准的多机配置方案。

在这个cluster中,每台服务器都能运行客户的应用服务,平时仅由主服务器提供应用服务,其余服务器都是备用服务器。

一旦主服务器发生故障,cluster依照切换策略,会把任务切换到顺位的备份服务器中,如果顺位服务器也发生故障,应用服务会继续按照结点优先级切换到下一台,直到服务能够接管。

这种配置方式一般用于那些要保证应用服务100%能够24小时在线的客户环境。

(2)N-1配置

这个配置方式是所有的服务器都在一个cluster中,其中一个服务器作为cluster中其它服务的备份服务器,一旦某个主服务器系统出现故障,任务会按照策略把该服务器的任务切换到该备份服务器。

某种意义而言,其为双机系统的扩展版本,但这种体系结构配置对客户有多个服务的环境是非常优化的系统配置,同时能够让整个集群集中管理并且能够达到高可用。

(3)M-N配置

这个方式中多个生产服务器工作在一个集群中,通过合理定义备援策略,使环境中服务器相互备援,任何一个任务停止工作都将由其它服务器接管任务,是一种设备利用率最佳的部署方式。

该部署方式同样有效的优化了系统结构,需要注意的是在定义备援策略时,仔细分析各服务器处理能力、任务的兼容性问题。

在M-N方式中当主节点发生故障时,允许多个备份节点被按照一定的优先级次序恢复一个资源组。

对于在一对节点上的资源恢复,如果节点A发生故障了,资源将会切换到节点B上;如果节点B再发生故障而节点A仍然不可用,资源将会失效切换到节点C上。

多个备份节点被指定一个优先级。

在上面的例子中,节点A有最高的优先级,节点B有第二优先级,而节点C有最低优先级。

EterneCluster按优先级次序测验节点来决定在故障切换时哪一个服务器将进行工作。

第四章

术语附录

●节点(Node):

运行相同版本操作系统和EterneClusterservice的计算机系统,并对外部client提供特定的服务,如SQL服务和IIS服务等,服务通常可以分为下面两种.

⏹首选节点(PreferredNode):

指集群中指定的运行资源组的首选的节点,往往配置比较好,该节点一般需要配置:

2块网卡,接上盘阵的SCSI或光纤

⏹备份节点(BackupNode ):

备份节点硬件配置可以不同于首选(当然也可以相同),但是要求运行相同的操作系统,同时必须安装和主节点上相同的应用,当首选节点出现故障时能够接管其资源组的工作。

首选节点是相对于一个特定的资源组,如果是多个节点的高可用性方案,就会有多个首选的节点。

那么就可能出现这种情况,对一个ResourceGroup1来说A服务器是首选节点,但是对ResourceGroup2来说A服务器可能就是备份节点.

●浮动IP地址(FloatingIPaddress):

一个服务将其服务通过特定的IP地址来输出,这个IP地址就是浮动IP地址,这个地址将会绑定在提供主服务的服务器的一个正常的公网上,当服务进行切

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 经管营销 > 企业管理

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1