LPARHA方案描述Word格式.docx
《LPARHA方案描述Word格式.docx》由会员分享,可在线阅读,更多相关《LPARHA方案描述Word格式.docx(19页珍藏版)》请在冰豆网上搜索。
在此之前,运行于多台服务器的工作量,现在可以运行于单台服务器的不同分区上,可以只有一套硬件系统管理,而且也满足于现在的物理需求,空间、电源要求等等,只用考虑----仅仅一台机器。
6同时运行生产和测试环境同一服务器的不同分区可以彼此独立运行,可以在同一服务器的不同分区同时运行生产程序和测试程序。
这可以保证让测试版本的应用程序平滑的过渡到生产应用,因为他们是在同一硬件平台上测试的,这就减少了仅仅为了测试的要求而增加额外的机器。
生产和测试环境可以同时存在运行于同一台服务器而彼此没有接触。
由于逻辑分区的存在,使几种不同的软件或者应用程序版本运行于同一服务器成为可能。
7合并统一操作系统的多套版本从AIX5L版本5.1开始,不同的AIX版本可以存在于同一硬件系统的不同逻辑分区上。
系统提供的这种能力,可以安装不同的操作系统版本,从而满足不同的应用要求。
也可以开发、测试和支持不同的版本的AIX,除AIX操作系统外,逻辑分区也支持Linux操作系统。
8合并要求不同时区设置的应用有许多应用程序依赖于系统时间,系统时间是由系统管理员设置的。
支持不同区域操作的应用通常是运行在不同的操作系统实例上。
即使应用程序本身可以管理不同的时区,但为计划中的维护和系统升级而不影响到区域操作,安排系统停机时间仍然是困难的。
逻辑分区使多种区域的工作量合并到一台单一的服务器。
9隔离应用程序因为逻辑分区是完全彼此独立的,所以运行于不同分区的应用程序和工作负载不会彼此互相干扰。
每一个分区的资源(CPU、内存块和适配卡)仅仅归属于分区本身,如果一个分区的应用程序消耗了所有分配的资源,如CPU,仍然不会影响到运行于其他分区的应用,因为分区的资源是独立的。
10灵活的工作量策略对某些特定的工作负载或者应用可能会改变对资源的要求,对逻辑分区,只是简单的再申请需要的硬件资源到需要改变资源的分区而已。
同非逻辑分区的服务器相比,显然这是很简单的,因为,这不需要硬件资源的升级来匹配这种资源的改变。
11动态逻辑分区(DLPAR)是在单台服务器上管理、协调工作量,逻辑分区给我们提供许多灵活性,因为我们可以将单台服务器划分成多台逻辑服务器,而且每台逻辑服务器都具有自己的资源,然而,逻辑分区也有些限制,如要增加或删除资源,必须停止逻辑分区的运行,然后重新引导分区。
动态逻辑分区,则消除了以上的局限,例如,AIX5.2具有动态增加、删除资源的能力,可以动态的增加、删除CPU、内存和适配卡,而不用重新启动机器。
动态逻辑分区,具有逻辑分区的所有优点,又增加了动态改变系统资源使用的能力。
动态逻辑分区的优点在动态逻辑分区的环境下,给我们提供了更大的灵活性,硬件资源可以按需分配。
12以下详细列举动态逻辑分区的优点:
1)RAS(reliability,availability,serviceability)性能进一步得到提高。
有故障的CPU可以动态删除,另外动态逻辑分区组合CUoD是CPU可动态备份,故障的CPU可以被后备的CPU透明的替换。
2)升级PCI系统主板(带热插拔功能),升级可不需重新启动而又不影响其他的分区
3)转移系统资源到最需要的分区中。
例如,应用程序如耗尽CPU资源,另外的CPU可以动态的分配到此分区
4)通过CUoD功能可动态的激活并使用资源,这些后备的资源,可以在系统管理员认为机器需要更多的处理能力时激活使用,而这些后备资源可以在客户确定要激活时才付费。
5)安装新的操作系统,以供测试。
为了使应用可以跟踪操作系统的更新,可以创建新的分区,供测试使用。
为获得足够的资源,动态逻辑分区使得从运行中的分区释放资源变得更加容易。
6)再分配I/O设备,如光驱、带机。
这些设备可以很快又容易的从一个分区再分配到另一个分区以供安装、备份等用。
7)在系统运行的高峰时刻,可以在分区之间移动CPU,内存,高峰过后则可将这些资源重新转移回去。
8)维护一个空闲的资源池(CPU、内存和I/O),因而新创建的分区可以比较简单的从空闲池中获取资源。
13总结:
LPAR和DLAPR是AIX5L提供的一项新的功能。
任何运行AIX5.2操作系统的逻辑分区都支持动态逻辑分区。
当升级操作系统从AIX5.1到AIX5.2时,没有必要为了使用动态逻辑分区而升级所有的操作系统到AIX5.2,可以在同一台服务器上,同时保留AIX5.1和AIX5.2两套系统。
在AIX5.1和AIX5.2系统中引入逻辑分区和动态逻辑分区的功能,对应用而言并不具有破坏性,应用程序在逻辑分区中的运行,并不要求必须改变。
尽管多数应用并不受动态逻辑分区操作的影响,但某些绑定特定系统资源的应用需要做些改变以适应动态逻辑分区操作。
IBM主机连接及工作状态说明
570A逻辑分区划分数量为两个,每分区可根据实际需要划分处理器个数,原始分区处理器个数不小于一(激活微分区许可证除外),每分区光纤通道适配器两块,千兆以太网卡2快,内存划分同处理器。
570B逻辑分区划分数量为两个,每分区可根据实际需要划分处理器个数,原始分区处理器个数不小于一(激活微分区许可证除外),每分区光纤通道适配器两块,千兆以太网卡2快,内存划分同处理器。
570A的两分区分别同570B的两分区形成两个集群环境,同时使用存储的共享容量,从而作到对不同资源组的高可用。
570A和570B的分区管理交由HMC管理。
IBMHACMP集群
现代企业计算,对高可用性和可靠性的要求非常高,因为重要的企业应用和数据都存储在计算机里,由计算机处理。
一旦系统发生故障,应用停止,数据丢失,将造成巨大损失。
RS/6000,通过基本系统支持,包括动态扩展内核,LVM和JFS,以及HANFS(高可用网络文件系统),特别是HACMP高可用集群方案,和HAGEO高可用异地备援容灾方案,为高可用性计算提供了完美的经济有效的解决方案。
RS/6000的HACMP结构为商用计算机环境提供了高可用性的解决方案,该结构也在各领域广为应用。
HACMP通过多台服务器以集群(Cluster)的方式运行,保证共享数据资源的高可用性。
一旦集群中某一台服务器发生故障,集群中备用服务器将接替其工作,完全不需要人工介入,从而保证整个系统不至因某个单元故障而失败。
HACMP有十分灵活的配置方式,视具体应用的复杂程度不同而采用。
服务器间的接管时间从几秒钟到几分钟,这也与应用的复杂程度不同有关。
HACMP提供了一种预防意外断电和服务器停机的经济有效途径,它的设计以一个集群管理器为中心,该管理器检查网络中各集群成分的状态,与服务器处理机协商并监视其他系统。
一旦确认某台服务器已发生故障,集群管理器便启动一个重新配置过程。
从经济角度考虑,HACMP软件价格便宜;
几台服务器可以各自独立工作,完成不同的应用,
不至于造成备份机的空闲浪费。
其它厂家产品一般只能做到空闲热备份方式,而共同工作方式,提供了比SMP更高的生产效率。
从有效性角度考虑,HACMP可以根据用户的需要进行配置和剪裁,其接管时间为几秒钟到几分钟,不须人工干预,在性能上优于其它类似产品。
HACMP在配置方式的灵活程度和高可用能力上以及价格上都明显优于其它厂家产品,广泛应用在各行各业的重要任务计算环境。
3.4.1HACMP4.4
HACMP4.4可针对基于数据库的应用提供高可用子服务,系统为集群中的每台机器提供系统管理、配置的完整性及控制,以及故障接管和恢复。
HACMP4.4是一个软件产品,用于监测硬盘、硬盘适配卡、网络、网卡和处理器(服务器),以及这些部件的故障恢复。
一个松散耦合的处理器或节点集群,在HACMP4.4软件的配合下,可以通过将控制从一个已发生故障的处理器(服务器)转移到具有冗余能力的备份处理器上,来保持应用的可用性。
HACMP4.4产品在支持广泛的集群配置和处理不同的出错类型方面具有极大的灵活性:
HACMP可以支持多至32个节点(即:
32台服务器)的集群,允许同时存取或非同时存取的配置。
HACMP4.4可以支持整个RS/6000服务器产品系列。
这样,集群系统就无须限定在对称式配置上,支持较低成本的备份机配置,其性能未必要匹配生产机,以便节省投资。
对有些部件的故障,如ATM网卡,则根本无需由另一节点进行出错接管。
HACMP能够监测和恢复在一个主机内部的错误。
由于部件的切换时间比处理器的切换时间更短,因此,停机的时间进一步缩短。
HACMP4.4提供一系列安装和配置工具,使用户可以从一个节点上对整个RS/6000处理器集群进行配置,比逐一配置更为简单。
此外,HACMP还提供一组综合的,数据驱动的出错接管文本程序(script),使得集群的管理和配置工作更容易。
HACMP的工作原理是利用LAN来监控主机及网络、网卡的状态。
在一个HACMP环境中有TCP/IP网络和非TCP/IP网络。
TCP/IP网络即client访问的公共网,该网可以是大多数AIX所支持的网络,如Ethernet,T.R.,FDDI,ATM,SOCC,SLIP,等等。
每个节点上都有至少两块网卡,一块是serviceadapter,提供对外服务,另一块是standbyadapter,它的存在只有clusterManager知道,应用和client并不知道。
非TCP/IP网络用来为HACMP对cluster中的各节点进行监控而提供的一个替代TCP/IP的通讯路径,它可以是用RS232将各节点连接起来,也可以是将各节点的SCSI卡或SSA卡设置成TargetMode方式。
为了简单方便,一般采用RS232串口连接的方式,这也是绝大多数用户采用的方式。
HACMP故障类型:
HACMP将诊测并响应于三种类型的故障:
网卡故障,网络故障,节点故障。
下面就这三种故障分别进行介绍。
网卡故障
前面讲到,HACMP的群集结构中,除了TCP/IP网络以外,还有一个非TCP/IP网络,一般为RS232连接,它实际上是一根"
心跳"
线,专用来诊测是节点死机还是仅仅网络发生故障。
一旦节点加入了cluster(即该节点上的HACMP已正常运行),该节点上的各个网卡、RS232串口和Target-ModeSSA或SCSI就会不断地接收并发送Keep-Alive信号包,K-A的参数是可调的,针对以太网,当处于normal状态时,将每隔0.5秒发送一个K-A包,如果12个包丢失后HACMP确认对方网卡、或网络、或单点发生故障。
因此,有了K-A后,HACMP可以很轻易地发现网卡故障,因为一旦某块网卡发生故障,发往该块网卡的K-A就会丢失。
此时nodeA上的clustermanager(HACMP的"
大脑"
)会产生一个swap-adapter的事件,clustermanager将原来的serviceadapter的IP地址转移到standbyadapter上,同时网上其他节点进行ARP的刷新。
网卡互换(swap-adapter)通常在几秒内就可完成,以太网为3秒,并且这种转换对应用和client来说是透明的,只发生延迟但连接并不中断。
网络故障
如果发往nodeA上的service和standby网卡上的K-A包全都丢失,而RS232上的K-A仍然存在,那么HACMP断定nodeA仍然正常,是网络发生故障。
此时HACMP执行一个network-down的事件的script,通常这个script提供一个用户自行定义其行为的接口,用户可以根据自己的网络结构,用户数,是否有替代路径,使用的通讯软件,应用软件等来自行设计网络发生故障后应采取的行为。
节点故障
如果不仅网络上的K-A全部丢失,而且RS232上的K-A也丢失,那么HACMP断定该节点发生故障,一个node-down事件发生。
此时将有资源的接管发生,即放在共享磁盘阵列上的资源将由备份节点接管,接管包括一系列操作:
Aquiredisks,VaryonVG,Mountfilesystems,ExportNFSfilesystems,AssumeIPnetworkAddress,Restarthighlyavailableapplications,其中,IP地址接管和应用的重启是由HACMP来实现,而其它是由AIX来完成。
当整个节点发生故障时,HACMP将故障节点的serviceIPaddress转移到备份节点上,使网络上的client仍然使用这个IP地址,这个过程称为IP地址接管(IPAT),当一个节点down掉后,如果设置了IP地址接管,网络上的clients会自动连接接管节点上;
同样,如果设置了应用接管,该应用会在接管点上自动重启,从而使系统能继续对外服务。
对于要实现接管的应用,只需在HACMP中把它们设置成“Applicationserver"
,并告诉HACMP启动这个应用的startscript的全路径名和停止该应用的stopscript的全路径名。
由此可见,应用接管的配置在HACMP中十分简单。
资源接管方式:
HACMP有几种工作方式:
空闲热备份:
定义一台机为备份机,处于空闲等待状态,等待接替故障主机的磁盘和应用;
轮换备份:
两台主机各自工作,并定义一台主机为另一台主机的备份机;
共同工作:
支持两台或几台主机通过同时访问同一共享存储设备,进行同一工作,不但保证了高可靠性,也显著提高了生产率。
HACMP的优越性:
尽管许多厂商均拥有类似的高可用性产品,但IBM的HACMP与其相比,有较大优势,具体在于以下几个方面:
a.技术成熟,到目前为止,全球已经有+25,000套HACMP系统装机,是UNIX高可靠性集群系统中最多的,与其它厂家产品相比HACMP具有更长的历史,更多的经验,因此也更加成熟。
b.接管时间短。
接管时间越短也就意味着用户应用中断时间的越短,HACMP的接管时间在中大型数据库环境下为30-300秒,(若采用并行工作模式,接管时间为3-28秒)。
而一般小型应用仅为几秒。
这一指标远高于其它厂家。
c.最多支持32个节点。
可支持8个节点并发访问
d.配置灵活。
共有72种配置方式。
另外组成HACMP的两台机器无需同一机型,甚至可以一台是SMP而另一台是单CPU机器。
HACMP安装和管理可通过菜单方式在一台服务器上完成,实现单点控制。
独特的“快照”功能使集群可以在瞬间改变拓扑结构及工作模式而无需重启动,并使集群的复制变得轻而易举。
此外,用户还可以自定义接管时的额外步骤,以更好地适应应用程序的特殊要求。
e.远程备份容灾能力--HACMP的广域网扩展HAGEO使得分布在不同地域的RS/6000服务器可以互为备份,共享数据通过高速广域网进行同步镜像,当其中一个地方发生灾难时,远程备份机可以继续接管运行
f.易于使用和管理
采用视觉化的操作,可以用鼠标拖放方式定义集群结构
可以用事先定义好的节点配置进行快速简单地安装
可以在线增加节点
可以动态更改节点之间的备份定义
提供‘快照’功能,以跟踪配置,配置更改和进行配置拷贝。
不需对应用进行任何修改而能进行应用失效的侦测。
单或多节点均适用
g.单机可靠性/冗余能力强
单机系统内支持LAN/WAN网卡切换
单机内IP地址切换
单机内双SSA卡切换
由于支持上述功能,出现一块网卡故障或一块磁盘控制卡故障时系统不需要切换,进一步提供系统可靠程度。
h.它可以侦测磁盘、SCSI卡、网卡、CPU、内存、操作系统及应用程序的错误,保证了整个系统无单点故障,并根据故障发生的具体原因做到最恰当的接管,减少不必要的误接管。
HACMPforAIX的特点如下:
1、接管时间在30秒到300秒,视具体应用复杂程度和配置而不同。
2、HACMP在SP主机系统上最多可支持到32个节点。
3、配置灵活,主要包括以下几大类工作方式:
空闲热备份(HotStandby),即定义生产机和备份机,备份机处于空闲等待状态,以便随时接管生产机的任务;
互为备份(MutualTakeover),即集群中的各节点各自执行自己的工作,并且备份可以是相互的;
并行方式(Concurrent)共同工作:
几个节点通过同时访问同一共享存储设备,进行同一工作,不但保证了高可靠性,而且通过各节点均衡分担工作,也显著提高了生产率,并且可以通过增加节点,使系统有非常好的伸缩能力。
4、实现自动接管,不须人工干预。
5、支持单节点运行。
6、支持硬件的RAID磁盘子系统,数据得到进一步保障。
7、支持所有RS/6000机型,并支持混合机型。
功能
优点
横向扩展能力
通过共享群集系统的磁盘和/或处理器资源增加了整体性能和容量,因而将应用程序扩展到了RS/6000服务器之间提供可伸缩的增长,减少重复投资,增加系统可用性可以混合使用单处理器和多处理器以提高应用程序性能和磁盘共享能力
支持多种可用性配置
可以根据环境修改HACMP,提供随业务而变的灵活的解决方案在2到32节点群集器中按备份或交互方式增加可用性
群集管理器
为HACMP群集配置的改变提供建议允许访问群集内的所有共享数据-即使群集中的某个系统失效也可以访问
接管脚本
提供几种不同的方式来定制群集中的接管操作
支持群集管理SMIT和VSM工具
提供常用接口(如拖放式GUI)使得安装和配置高可用系统以及在网络上维护它们更容易可以从群集器的单个系统控制台上进行群集器管理提供综合性的高可用监控实用程序来管理和调试群集使群集硬件和软件资源之间的相互关系可视化
群集单点控制
通过设法减少系统管理错误和使系统任务对于所有的群集器系统只执行一次来增强系统管理提供单服务器映像是群集器看上去像单个系统,进而减少系统管理任务
分布式锁定管理器
允许使用附加的应用程序工具帮助协调并行执行的任务,例如在不同平台上的资源共享允许应用程序在复合群集上并行协调的执行当在并行访问群集中共享常用数据是提供数据完整性
群集节点快照实用工具
保存配置和配置改动以利于克隆附加的群集允许维护多个群集配置
通过共享群集系统的磁盘和/或处理器资源增加了整体性能和容量,因而将应用程序扩展到了RS/6000服务器之间提供可伸缩的增长,减少重复投资,增加系统可用性可以混合使用单处理器和多处理器以提高应用程序性能和磁盘共享能力
提供几种不同的方式来定制群集中的接管操作
支持群集管理SMIT和VSM工具
分布式锁定管理器
群集节点快照实用工具
IBMP5570产品介绍
IBM
p5570中端系统具有卓越的性价比、秉承主机技术的可靠性和可用性功能、灵活的容量升级和创新的IBMVirtualizationEngine™系统技术。
p5-570基于具有同步多线程、独特的可伸缩性和构建块封装技术的IBMPOWER5™处理器,非常适合于服务器整合项目、数据库与应用程序服务、电子商务以及部门或地区服务器的部署。
机柜型p5-570为商业应用程序和高性能计算(HPC)应用程序提供了“动力”,并提供了灵活性、可伸缩性和可靠性功能。
p5570在随需应变的环境中是经济实惠和灵活的服务器。
IBM创新的VirtualizationEngine系统技术和CoD可选功能有助于提高服务器对各种计算需求的响应能力。
这些功能还有助于提高处理器和系统组件的系统利用率,从而允许企业以较小的系统满足他们的计算需求。
通过组合最先进的IBM前沿技术,p5-570提供了企业级的性能和对于不断变化的市场条件的灵活适应能力,从而为公司提供了在当今竞争激烈的随需应变环境中生存所需的关键能力。
模块化构建块提供了灵活的可伸缩性
p5-570由构建块模块封装而成。
每个p5-570模块可以支持多达4个处理器,还有内存、介质、磁盘、I/O适配器、电源和冷却系统以创建均衡的、高性能的机柜系统。
构建块模块通过具有全总线速度的独特电缆系统相连接。
在19英寸的机柜里最多可以将4个模块集成为一个的对称多处理器(SMP)服务器。
客户可以通过提供基础架构(例如:
电源、安装有冷气设备的空间以及机架空间),来经济有效地构建规模正好适合于处理需求的系统,以支持所需模块的数量。
因为构建块体系结构使客户能够扩充的不仅是处理能力,而且还有内存、内部存储器和I/O容量,当计算需求增加时,p5-570服务器可以提供巨大的容量和灵活性,以应对应用程序的无缝扩展。
另外,在单个HPC群集中可以包含多达64个p5-570系统。
为了使IBM服务器的可用性达到极致,可以使用旨在提供近乎不间断可用性的HACMP™软件将p5-570群集化。
IBMVirtualizationEngine技术有助于提高利用率和生产力
eServerp5570服务器的一大特点是为UNIX®
或Linux®
入门级系统带来突破性技术。
IBMVirtualizationEngine系统技术是可选的功能,这种技术包括了许多创新技术,如微分区,它在帮助企业确保应用程序可以持续获得所需资源的同时,还能提高系统的利用率。
微分区通过精细地调优系统来整合多个独立的AIX