服务器集群解决方案综述.docx

资源描述

服务器集群解决方案综述.docx

《服务器集群解决方案综述.docx》由会员分享，可在线阅读，更多相关《服务器集群解决方案综述.docx（21页珍藏版）》请在冰豆网上搜索。

服务器集群解决方案综述.docx

服务器集群解决方案综述

第一章、计算机集群技术概述

随着计算机技术的发展和越来越广泛的应用，越来越多的依赖于计算机技术的应用系统走进了我们的工作和生活。

在给我们带来方便和效率的同时，也使得各行各业对于计算机技术的依赖程度越来越高。

尽管随着计算机技术以日新月异的速度发展，单台计算机的性能和可靠性越来越好，但还是有许多现实的要求是单台计算机难以达到的。

看看下面的例子：

*某银行需要一台服务器来储存财务数据。

他要求这台计算机即使是在机房坍塌的情况下也能够被各个业务网点访问。

在这些情况下，往往需要将多台计算机组织起来进行协同工作来模拟一台功能更强大解决问题。

这种技术称为集群技术。

目前应用最为广泛的集群计算技术可以分为三大类：

高可用性集群技术、高性能计算集群技术和高可扩展性集群技术。

下面我们将主要介绍高可用性群集系统。

（一）、高可用性集群概述

高可用性集群，英文原文为HighAvailabilityCluster简称HACluster，是指以减少服务中断（宕机）时间为目的的服务器集群技术。

随着全球经济的增长，世界各地各种各样的组织对IT系统的依赖都在不断增加，电子贸易使得商务一周七天24小时不间断的进行成为了可能。

新的强大的应用程序使得商业和社会机构对日常操作的计算机化要求达到了空前的程度，趋势非常明显，我们无时无刻不依赖于稳定的计算机系统。

为了提高整个系统的可用性，除了提高计算机各个部件的可靠性以外，一般情况下都会采用集群的方案。

所谓集群，就是共同为客户机提供网络资源的一组计算机系统。

而其中的每一台提供服务的计算机，我们称之为节点。

当一个节点不可用或者不能处理客户的请求时，该请求将会转到另外的可用节点来处理，而这些对于客户端来说，它根本不必关心这些要使用的资源的具体位置，集群系统会自动完成。

集群中节点可以以不同的方式来运行，这要看它们是如何设置的。

在一个理想的两个节点的集群中，两个服务器都同时处于活动状态，也就是在两个节点上同时运行应用程序，当一个节点出现故障时，运行在出故障的节点上的应用程序就会转移到另外的没有出现故障的服务器上，这样一来，由于两个节点的工作现在由一个服务器来承担，自然会影响服务器的性能。

针对这种情况的解决方案是，在正常操作时，另一个节点处于备用状态，只有当活动的节点出现故障时该备用节点才会接管工作，但这并不是一个很经济的方案，因为你不得不买两个服务器来做一个服务器的工作。

虽然当出现故障时不会对性能产生任何影响，但是在正常运行时的性能价格比并不太好。

从上面的工作方式出发，我们可以把集群分为下面几种（特别是两节点的集群）

主/主（Active/active）

这是最常用的集群模型，它提供了高可用性，并且在只有一个节点在线时提供可以接受的性能，该模型允许最大程度的利用硬件资源。

每个节点都通过网络对客户机提供资源，每个节点的容量被定义好，使得性能达到最优，并且每个节点都可以在故障转移时临时接管另一个节点的工作。

所有的服务在故障转移后仍保持可用，但是性能通常都会下降。

主/从（Active/passive）

为了提供最大的可用性，以及对性能最小的影响，Active/passive模型需要一个在正常工作时处于备用状态，主节点处理客户机的请求，而备用节点处于空闲状态，当主节点出现故障时，备用节点会接管主节点的工作，继续为客户机提供服务，并且不会有任何性能上影响。

混合型（Hybrid）

混合是上面两种模型的结合，只针对关键应用进行故障转移，这样可以对这些应用实现可用性的同时让非关键的应用在正常运作时也可以在服务器上运行。

当出现故障时，出现故障的服务器上的不太关键的应用就不可用了，但是那些关键应用会转移到另一个可用的节点上，从而达到性能和容错两方面的平衡。

（二）、高可用性集群工作原理

下面针对高可用性集群，介绍一下它的工作原理。

在微软的MSCS（MicrosoftClusterServer）术语中，所有的应用程序、数据文件、磁盘、网络IP地址等都被称为资源，一些资源可以组成一个资源组，一个资源组存在于一个节点上，但同时只能在一个节点上，它是MSCS可以进行故障切换（FailOver）的最小单元。

在MSCS中，所有的资源都处于资源监视器的监视之下，资源监视器通过资源动态链接库文件与资源进行通信，这些资源动态链接库会侦测对应资源的状态，并通知资源监视器，之后，监视器再把信息提供给集群服务（ClusterService），缺省情况下，集群服务会启动一个资源监视器来监视节点中的全部资源。

MSCS用依赖性来定义不同资源彼此之间的关系，MSCS会根据资源间的相互依赖关系来决定把这些资源变为在线或者是离线的顺序。

举一个WEB服务器文件共享的例子，文件共享的资源需要硬盘驱动器来存储数据，把这些有关系的资源一起放在MSCS组中，要实现共享，就必须先把硬盘准备好。

同时，为了完成文件共享，我们还需要准备好网络名称以及IP地址。

从上图可以看出，文件共享资源依赖于硬盘资源，网络名称资源依赖于IP地址资源，而对应的WEB服务刚依赖于文件共享和网络名称。

资源的存在可以分为五种状态

1、Offline，资源不能被别的资源或者客户机使用

2、OfflinePending，资源正处于Offline的过程中

3、Online，资源处于可用的状态

4、OnlinePending，资源正处于Online的过程中

5、Failed，资源出现了MSCS无法解决的问题

前面已经提到，MSCS可以从一个节点故障切换到另一个节点的最小单元是资源组。

被定义好的相关的资源放在同一个组中，并建立对应的依赖关系。

以下图为例，如果节点A中的资源组1要移到节点B上的话，资源组1中的资源（资源A，资源B，资源C）也必须从节点A移到节点B才行。

在MSCS的资源中，有一个非常重要的资源，Quorum，它是一个可以被两个节点访问的物理硬盘，用来保存集群的信息。

这些信息是用来维护集群的完整性以及使节点保持同步，特别是当节点不能与另一个节点通信的时候。

Quorum盘在某一时刻只能被一个节点所拥有，并用来决定由哪个节点来拥有集群的所有资源。

Quorum必须位于共享的磁盘子系统中，一般都是使用外接的磁盘柜。

一般情况下，不建议把应用程序和数据保存到包含Quorum的硬盘上。

故障切换（Failover）是指把出现故障的节点上的资源重新定位到另一个可用的节点上。

负责监视资源的资源监视器一旦发现资源出现故障，它就会通知集群服务，集群服务会根据事前定义好的策略触发对应的事件。

虽然发现的是个别资源的故障，但是，集群还是会把整个资源组进行故障切换。

故障切换会在三种不同的情况下发生，人工（一般是因为管理员的请求），自动，或者在特定的时间（由集群管理软件设定）。

自动故障切换又包含了三个阶段：

1、故障发现。

2、资源重新定位。

3、重新启动应用程序（一般是故障切换过程中最耗费时间的）。

当达到资源组的故障切换阀值时，自动的故障切换才会发生，阀值是可以设定的，一般由管理员来设定。

故障恢复（Failback）是一种故障切换的特例，是指发生故障切换之后，把部分或者全部资源组移回它们首选的节点的过程。

首选的节点，就是指集群中指定的运行资源组的道选的节点，如果是多个节点的高可用性方案，就会有多个首选的节点。

当首选的节点出现故障后，对应的资源组就切换到另外的可用节点上，当出现故障的节点恢复正常后，资源组可以自动的切换回首选节点。

如果没有定义首选节点，资源组就不会自动切换回来。

要检查资源是不是可用，资源监视器会向对应的动态链接库发送状态信息的请求，一般会有两种级别的检查，LooksAlive和IsAlive。

LooksAlive级别的检查相对比较简单，每隔一段时间（相对比较短的时间，缺省是5秒），资源监视器会进行一次LooksAlive级别的检查，如果资源没有响应，监视器会向集群服务报告。

IsAlive级别的检查是非常完整的检查，它会彻底检查资源是不是工作正常，IsAlive检查的时间间隔比LooksAlive要长，缺省是1分钟。

结合上面提到的各个要素，高可用性就是通过下面的过程来实现的：

首先，资源监视器根据设定的时间间隔对资源进行LookAlive和IsAlive两种级别的检查，一旦发现某一个资源不可用，就会试图重新启动该资源。

根据阀值的设定，如果在某一时间段内，资源不可用的情况达到了设定的阀值时，就会发生故障切换。

经过故障切换的过程，对应的资源组在另外一个节点上重新启动了，继续为客户机提供服务，对客户来说，工作没有影响，这就完成了一次故障切换。

当出现故障的节点恢复正常以后，如果事先对该资源组设定了首选节点，就会把该资源组移回该首选节点。

经过前面的介绍，我们已经对高可用性的原理有了一些了解，下面，我们具体阐述一下IBMxSeries服务器集群解决方案

第二章、IBMxSeries服务器群集解决方案

（一）、体系结构

如今，计算机解决方案与性能高低之间已经互为代名词．高性能的软件是以硬件平台的能力大小为基础的．而能力的大小可以从两方面进行扩展，垂直的（在一个系统内部）和水平（多系统互连）．实现垂直方向上的性能扩展的关键在于整个系统的均衡设计，包括可扩展的处理器，内存，存储器和输入输出设备等各子系统．为满足日益增长的要求，许多商家已将单处理器系统升级为具有对称多处理器（SMP）的可垂直扩展的大系统．

当运算需求或有效性需求超出SMP系统的能力范围时，许多公司将目光转向群集，以满足商务活动中所要求的有效性，可扩展和可管理性等各项指标．群集被认为是可将原有的系统扩展为更大型系统的行之有效的解决办法．IBM曾推出两组大型处理系统系列：

ScalablePOWERparallel（SP）和zSeries（S390）ParallelSysplex系统．这两组基于群集技术原理的服务器系列，性能可靠，并具有几乎可升级至无限计算能力的扩展性．IBM服务器家族的另一成员iSeries（AS/400），不仅提供了性能可靠的中等规模的服务器平台，而且综合了业界领先的各种解决方案．基于同样的设计原理，以及我们在大型系统方面的经验，IBM正在xSeries服务器上发展新的群集体系结构．

决定整个系统最终性能的关键步骤之一是如何设计系统的体系结构．SMP系统具有集中式的存贮器，这样不仅限制了处理器的扩展能力，而且因为仅有一个操作系统镜像，系统崩溃带来的危险非常巨大．因此，SMP系统很难满足有效性和扩展性两方面的要求．而群集构建于分布式模型的基础之上，不仅提高了整个系统的有效性，而且允许将系统中处理器的数目扩展到上百个之多．IBM的集群技术解决方案着重于三个方面：

有效性、可靠性和可管理性。

持续的可靠性

推动集群技术发展的一个主要动力因素在于人们试图寻找一个具有持续的有效性的技术解决方案。

实现这个目标需要按照以下3个步骤进行：

1．减少故障发生的可能性

2．尽可能减轻故障所引起的负面影响

3．在无需系统停止运行的前提下有计划地修复和升级

提高系统各组成部件的可靠性可以降低故障发生的概率，IBMxSeries服务器在产品设计开发过程中投入了大量的人力及资金，研发出很多的先进技术，以提高服务器整体的可靠性。

为了实现系统不间断运行的目标，IBM提供了大量专门设计的新工具以极大的降低计划与非计划系统宕机时间。

技术包括：

光通路诊断技术有助于迅速定位并替换失效组件；ActivePCI技术允许您无需关闭系统即可添加或替换适配器。

IBM采用增强的内存子系统，在企业级X架构技术模型中扩展了系统高可用性功能。

IBM对子系统的升级使之更加坚固，给您提供更高级别的系统可用性并保证用户可以24×7不间断的进行系统访问。

将以前仅在硬盘驱动器中使用的数据保护技术应用到内存子系统后，使用企业级X-架构技术构建的xSeries服务器提供更高的系统可用性。

nActiveMemory——提供内存热插拔和热添加技术特性。

如果需要替换任何内存或需

要增加更多内存容量，则无需关闭服务器系统即可实现。

nChipKill内存——现在，作为第三代行业标准计算机系统，ChipKill内存提供全新

级别的系统可靠性。

ChipKill内存可以修正在一个芯片组或多个芯片

组的内存DIMM模块的多位错误。

nMemoryProteXion——使用与硬盘驱动器热备份技术类似的冗余数据通道，在出现

DIMM模块芯片组失效时自动重新进行数据路由以保证服务器系统平稳运行。

MemoryProteXion在修正内存错误方面比ECC内存更有效。

专门设计集成MemoryProteXion和ChipKill内存就可以修正服务器系统运行所遇到的几乎任何错误。

n内存镜像——如果有时候服务器运行时出现的内存数据错误太多导致Memory

ProteXion和ChipKill内存无法完全正确修复所有数据时，则内存镜像技术就可以保证系统无差错运行。

内存镜像技术的工作原理与RAID-1磁盘镜像类似：

数据同时写到两个独立的内存卡上，但是从标记为“活动”的内存卡中仅能进行数据读取。

目前以有很多的方案试图减轻故障带来的负面影响。

这些方案通常是利用冗余部件来代替出错部件进行工作，直到故障被修复。

IBM集群解决方案所采用的设计方案着重于避免整个系统的瘫痪，系统在尽量提高单个节点的可靠性的同时可以容忍单个节点的故障，当某个节点上发生故障时，系统将故障局限于这个节点范围内以避免其负面影响继续扩大。

IBM集群系统允许在修复某个节点时，该节点被单独断电并切断与系统其它部分的连接，还允许在整个系统保持运行的状态下替换某个节点或开启节点电源，类似的，当整个系统的某个节点或某一部分的软硬件需要检修或升级时，不需要整个系统停止运行。

近似线形的可扩展性

尽管SMP系统的垂直扩展能够满足某些性能需求，但由于集群所带来的水平扩展会使系统性能具有更强大的可扩展性。

尽管IBM已在企业级的大型集群服务器设计中成功的解决了垂直扩展中的问题，但水平扩展所面临的问题和挑战远不同于垂直扩展所要面对的问题。

延迟短而有高速可靠的通信、共享I/O设备的访问以及最优工作量平衡是实现水平扩展要解决的3个关键技术问题。

当您的业务随着增长而变得日益复杂的时候，您的系统也会变得复杂。

扩展意味着在现有的硬件基础上利用集群件和优化了的应用程序扩大容量，提高性能，上图说明了在增加节点时，集群的处理能力按近似线形的速度增长。

可管理性

尽管集群可以提供非常出色的可扩展性和可靠性，但是否能够高效地管理多个节点仍然是衡量集群功能的重要指标。

管理集群的目的是能够在一个控制点连续监视整个系统的运行情况，并且在故障发生时，能够自动地采取相应措施。

促使联合多个服务器的动机之一就是要提高服务器的可管理性和使用价值，从而降低总体拥有成本。

将服务器和数据集中到一个地点可以极大地提高效率，这在很大程度上要归功于由集中而带来的更出色的管理手段。

随着集群的规模越来越大，并且要包含越来越复杂的资源，IBM致力于运用多年积累的关于集群的经验和技术来提高单点管理的能力。

其中IBM的优势领域包括以下几个方面：

l性能监视和调整

l处理能力规划

l负载均衡和规划

l报警及管理能力

同时IBMDirector系统管理软件工具包，在大多数xSeries服务器中免费提供，用于扩展支持客户管理、客户服务器群集系统和处理功能并减少系统瓶颈。

IBM还不断扩展该软件包以提供广泛的，包括高级系统管理功能的服务器解决方案。

自我管理、自我修复技术是IBMProjecteLiza（电子蜥蜴）新工具的特征，该工具可以使服务器进行主动的自我管理、无需或很少人工干预。

创新的技术例如MemoryProteXion和软件复原技术，以及IBMDirector工具功能的不断增强，都保证了真正的系统可靠性，这也反过来降低技术人员对系统维护所耗费的精力、时间和金钱。

IBM智能化工具帮助您越来越靠近不间断地数据中心运作。

（二）、构建一个群集系统

为了能够从群集技术中获取最大的收益，所有组成模块都应集成化并且标准到位．这些模块包括：

服务器节点

可扩展I/O

企业级存储器

强健的中间件

群集管理

一个群集解决方案应赋予您管理和监督群集的能力，并在您做决定，安装及运行的时候提供相应的服务和帮助．解决方案还应当能完成一般的功能，比如数据库，协同计算，网络服务，服务器联合等．

为了能够在这些活动中给您提供帮助，IBM在全球范围有7个ServerProven解决方案中心．这意味这无论您在世界的哪个角落，您都可以通过家中的电话，从规模较大的独立软件供应商（ISV）那里获得最好的解决方案．

IBMxSeries服务器企业级X--体系结构中的IBMxSeries群集结构部分涵盖了上文中提到的所有构成模块．IBM着眼于以服务器节点，可扩展I/O，群集中间部件和群集管理为技术核心的客户解决方案，并在其间实现有关检修，系统主要应用程序和数据管理的内容．

服务节点

作为IBMxSeries群集结构的组成部分，服务器节点通过高速交换机互相连接成为一个计算机．我们的策略是及时引入新的硬件特性，尽可能同步或超前于其它业界同行．基于IBM对客户的承诺：

提供创新性的技术、灵活的应用程序和新工具，IBM发布了针对Intel架构服务器平台的新一代的创新技术。

该技术称为企业级X-架构技术，IBM利用在大型机与超级计算机实验室所采用的技术，极大的提高IBMxSeries服务器的I/O、内存和系统性能。

新型IBM服务器同时建立了一种“按照服务器处理能力增长付费”的方式，以引导客户购买Intel体系架构的32位或64位高端xSeries服务器系统。

这就意味着为客户提供了顶级的系统可用性、系统的灵活性和高性能，并且可以迅速、方便、低成本的进行系统扩展。

所有这些服务器技术上的优势将继续推动群集在性能上的进一步发展和完善．

可扩展I/O

可扩展系统，无论是在一个系统内部的垂直扩展，还是在群集服务期间的水平扩展，都需要可扩展的I/O，IBM企业级X-架构技术还通过远程I/O功能提供了您初始投资的几乎是无限的扩展能力。

远程I/O技术特性通过使用并已证明的、高速交互网络连接和高达12个PCI与

PCI-X适配卡插槽，在单一系统中三倍提高系统的I/O处理能力。

甚至，两个服务器可以共享一个远程I/O设计结构。

并且，如果服务器组成群集系统，远程I/O特性能够提供更佳的冗余保护和灾难恢复功能，还技术还作为未来InfiniBand技术的实现桥梁作用。

今天IBM的xSeries服务器由于在IBM光纤通道RAID控制器单元，ServerRAID适配器及串行存贮结构（SSA）PCIRAID适配器中使用了智能I/O处理器，所以能够支持可扩展I/O.设计I/O处理器的目的在于要通过它们来完成I/O频繁的任务从而减轻主处理器的工作负担.IBMRAID适配器由高性能的RISC处理器来驱动．IBM将继续努力提高RAID适配器的吞吐速度，并将采用新出现的各种符合工业标准的新技术，如I2O设备驱动支持，更快速的I/O处理器以及性能更强大的PCI的版本．

对那些需要极宽的带宽，较大的布线距离及高有效性的解决方案，IBM光纤通道子系统能够扩展至数百TB的存储量，2Gbps的读写速率，它还支持服务器于存储盘之间最远10公里，这一点更是对数据的安全性提供了额外的保证．最新的IBMxSeries服务器由于实施工业标准，提高了PCI总线的能力使整个系统具有更高水准的性能．其中对64位PCI的支持已在ServerRAID-6和IBM光纤通道子系统中使用，大大提高了数据传输率．

企业级存储器

群集技术的发展对存储子系统的有效性和容量提出越来越高的要求．企业级存储器是一个工业标准术语，30多年来，IBM在发展大型企业计算系统的过程中始终处于企业级存储技术的领先地位．在信息技术的投资增加或信息存储平台联合时，企业级存储器可以满足各种业务的需求．企业级存储器可以将商务活动中所需要的信息汇总在一个地方并共享给其它所有的计算平台，它同时还是提供一种安全有效的管理信息的手段．如果您已经按照传统的方法规划了网络中的小型服务器，企业级存储器可以将分布于各服务器硬盘中的数据存储方式转变为统一存储和管理数据的方式．

创新精神曾使IBM的存储系统部门在硬盘存储和RAID技术方面处于领先地位．如今，这种精神在开发自适应RAID算法的过程中得到了充分体现．自适应RAID算法能在不同的工作负载及系统配置之下，实现智能优化吞吐速率的功能．到目前为止，RAID子系统的固件可以配置RAID阵列，并且在工作负载发生变化时，自动调节参数和算法以优化系统性能．

IBM将继续保持在存储器及存储管理环境方面的领导地位．另外，某些IBM处于领先地位的技术创新，如硬盘驱动器，风扇，电源，硬盘及内存等的预测故障分析（PFA）技术，使IBMxSeries服务器在有效性及可检修方面处于同类产品的领导地位．

强健的中间件

中间件有两个关键要素．首先，中间件要为群集提供基本的服务，如拓扑，事件和组服务等．IBM在DB2通用数据库和Oracle并行服务器的解决方案中，从屡获殊荣的RS/6000S产品系列借鉴了群集技术．IBMxSeries服务器在技术上的兼收并蓄使它提供的扩展能力既能适用于企业界要求而又能经受工业届测试．IBM全力支持目前广泛使用的基于Windows和Linux的群集解决方案，并将与其后继产品继续合作．

其次，所有重要的中间件产品应支持群集结构．这些中间件产品包括数据库-IBMDB2，Web服务器-IBMWebsphere，通讯服务器，交易处理软件及报文排队软件等．IBM除了支持基于Windows和Linux的全线标准中间件外，还与Oracle这样的软件供应商合作，以保证IBMxSeries群集服务器能够完全支持他们的产品．我们在为企业提供解决方案时积累丰富的经验，而上述合作方式则将这些经验应用到了基于Intel处理器的服务器市场

群集管理

随着群集系统复杂性的增加，群集管理成为用户日益关注的焦点问题．pSeries（RS/600）SP的单点控制采用了透视技术，IBM准备借鉴此经验以增加xSeries群集的可管理性．这种技术可以通过一般的图形用户界面（GUI）完成对群集内部所有节点的普通系统管理任务，并在每一节点之间平衡高级系统管理处理器的远程控制能力．而这一点会随着群集和服务器联合规模的日益复杂化而显得愈发至关重要，尤其是在不远的将来，当xSeries和pSeries系统变得更加一体化，并可通过同

展开阅读全文