PowerHA完全手册文档格式.docx

上传人:b****7 文档编号:22597304 上传时间:2023-02-04 格式:DOCX 页数:127 大小:355.55KB
下载 相关 举报
PowerHA完全手册文档格式.docx_第1页
第1页 / 共127页
PowerHA完全手册文档格式.docx_第2页
第2页 / 共127页
PowerHA完全手册文档格式.docx_第3页
第3页 / 共127页
PowerHA完全手册文档格式.docx_第4页
第4页 / 共127页
PowerHA完全手册文档格式.docx_第5页
第5页 / 共127页
点击查看更多>>
下载资源
资源描述

PowerHA完全手册文档格式.docx

《PowerHA完全手册文档格式.docx》由会员分享,可在线阅读,更多相关《PowerHA完全手册文档格式.docx(127页珍藏版)》请在冰豆网上搜索。

PowerHA完全手册文档格式.docx

比如最近比较热的PowerHA 

HyperSwap®

的数据中心双活的解决方案 

,就是利用HyperSwap版本对存储DS8000容错的扩展支持来得以实现。

我们说的PowerHApureScale,则是和类oracleRAC的IBMDB2pureScale解决方案相配合的高可用性套件,不再是我们通常意义上的HACMP。

由于本文的重点为AIX的本地高可用性,因此除非特别声明,我们缺省说PowerHA时都是指PowerHASystemMirrorStandard的版本。

3. 

HACMP的工作原理

HACMP是HighAvailabilityClusterMulti-Processing的缩写;

也就是IBM公司在P系列AIX操作系统上的高可靠集群软件,配置冗余,消除单点故障,保证整个系统连续可用性和安全可靠性。

HACMP是通过侦测主机及网卡的状况,搭配AIX所提供的LVM等管理功能,在主机、网卡、硬盘控制卡或网络发生故障时,自动切换到另一套备用元件上重新工作;

若是主机故障还切换至备机上继续应用系统的运行。

作为双机系统的两台服务器同时运行HACMP软件;

两台服务器的备份方式大体有二种:

一台服务器运行应用,另外一台服务器做为备份

两台服务器除正常运行本机的应用外,同时又作为对方的备份主机;

两台主机系统在整个运行过程中,通过"

心跳线"

相互监测对方的运行情况(包括系统的软硬件运行、网络通讯和应用运行情况等);

一旦发现对方主机的运行不正常(出故障)时,故障机上的应用就会立即停止运行,本机(故障机的备份机)就会立即在自己的机器上启动故障机上的应用,把故障机的应用及其资源(包括用到的IP地址和磁盘空间等)接管过来,使故障机上的应用在本机继续运行;

应用和资源的接管过程由HACMP软件自动完成,无需人工干预;

当两台主机正常工作时,也可以根据需要将其中一台机上的应用人为切换到另一台机(备份机)上运行。

4. 

HACMP术语:

为方便大家阅读,我们这里简单介绍一下HACMP主要术语。

它们可以分为拓扑组件和资源组件两类。

拓扑组件(Clustertopology)基本上是物理组件。

它们包括:

节点(Nodes):

运行AIX操作系统的Power服务器上的分区或微分区。

实际目前节点现分为2种,一个是服务器节点(Server节点),运行核心服务和共享磁盘的应用的机器;

一个是客户端节点(Client)节点,前台使用集群服务的应用的机器。

比如中间件软件等无需共享磁盘安装在客户端节点的机器上,数据库软件安装在服务器节点的机器上。

像监控节点的信息收集程序clinfo就是只运行在客户节点上。

而对于2个节点的集群,则简化掉这些分别,即节点为二合一。

网络(Networks):

IP网络和非IP网络

通信接口(municationinterfaces):

以太网或令牌环网适配器

通信设备(municationdevices):

RS232或磁盘的心跳机制

拓扑组件示意图

资源组件(Clusterresources)是需要保持高可用性的逻辑实体。

应用服务器(Applicationservers):

它涉及应用程序的启动/停止脚本。

服务IP地址(ServiceIPlabels/addresses):

最终用户一般通过IP地址连接应用程序。

这个IP地址映射到实际运行应用程序的节点。

因为IP地址需要保持高可用性,所以它属于资源组。

文件系统(Filesystems):

许多应用程序需要挂载文件系统。

卷组(Volumegroups):

许多应用程序需要高可用的卷组。

所有资源一起组成资源组实体。

HACMP把资源组当作单一单元处理。

它会保持资源组高可用性。

资源组件示意图

此外,还存在资源组有与其相关联的策略。

这些策略包括:

1.启动策略(Clusterstartup):

这决定资源组应该激活哪个节点。

2.故障转移策略(Resource/Nodefailure):

当发生故障时,这决定故障转移目标节点。

3.故障恢复策略(Resource/Noderecovery):

这决定资源组是否执行故障恢复。

当发生故障时,HACMP寻找这些策略并执行相应的操作。

5. 

实验环境说明:

以双机互备中相对复杂的多业务网络的情况为例,其他类似设置可适当简化。

1) 

机器一览表

节点机器名

操作系统

应用软件

HA版本

host1

AIX6.1.7

ORACLE11g

HA6.1.10

host2

TUXEDO11

2) 

磁盘和VG规划表

磁盘

VG

VGMajorNumber

hdisk2

host1vg

101

hdisk3

host2vg

201

3) 

用户和组规划表

用户

USERID

组ID

使用节点

orarunc

610

dba

601

tuxrun

301

tux

bsx1

302

x

401

orarun

609

4) 

逻辑卷和文件系统规划表

PPsize:

128M

逻辑卷

文件系统

大小(pp)

所有者

用途

ora11runclv

/ora11runc

40

ORACLE客户端软件

tux11runlv

/tux11run

30

tuxedo

Tuxedo软件

bsx1lv

/bsx1

宝信MES应用程序

xlv

/x

宝信x通信软件

ora11runlv

/ora11run

60

ORACLE数据库软件

oradatalv

/oradata

80

数据库

5) 

路由规划表

节点名

目的

路由

default

10.2.100.254

10.2.200

10.2.1.254

10.3.300

6) 

HACMP结构表

集群名:

test_cluster

适配器名

功能

网络名

网络类型

属性

IP地址

MAC地址

host1_tty0

heartbeat

host1_net_rs232

rs232

serial

host1_l2_boot1

boot1

host2_net_ether_2

ether

public

10.2.2.1

host1_l1_boot1

host2_net_ether_1

10.2.1.21

host1_l2_svc

Service

host1_net_ether_2

10.2.200.1

host1_l1_svc1

host1_net_ether_1

10.2.100.1

host1_l1_svc2

10.2.101.1

host1_l2_boot2

boot2

10.2.12.1

host1_l1_boot2

10.2.11.1

host2_tty0

host2_net_rs232

host2_l2_boot1

10.2.2.2

host2_l1_boot1

10.2.1.22

host2_l2_svc

service

10.2.200.2

host2_l1_svc1

10.2.100.2

host2_l1_svc2

10.2.101.2

host2_l2_boot2

10.2.12.2

host2_l1_boot2

10.2.11.2

7) 

HACMP示意图

8) 

实验环境示意图

9) 

应用脚本起停设计

start_host1:

添加网关

运行start_host1_app

stop_host1:

运行stop_host1_app

清理vg进程

start_host2:

运行start_host2_app

stop_host2:

start_host1_app:

确认host2已启动

整理路由

启动主应用程序

启动通信程序

stop_host1_app:

停通信程序

停应用主程序

清理路由

start_host2_app:

如在host1机器上执行stop_host1_app

起Oracle数据库及listener

如在host1机器上执行start_host1

stop_host2_app:

停数据库及listener

第一部分--规划篇

万事开头难,对于一个有经验的HACMP工程师来说,会深知规划的重要性,一个错误或混乱的规划将直接导致实施的失败和不可维护性。

HACMP实施的根本目的不是安装测试通过,而是在今后运行的某个时刻突然故障中,能顺利的发生自动切换或处理,使得服务只是短暂中断即可自动恢复,使高可用性成为现实。

2.1. 

规划前的需求调研

在做规划之前,或者说一个准备实施HACMP来保证高可用性的系统初步设计之前,至少需要调查了解系统的以下相关情况,这些都可能影响到HACMP的配置。

Ø

应用特点

对负荷的需求,如CPU、内存、网络等特别是I/O的负载的侧重。

对起停的要求,如数据库重起可能需要应用重起等等。

对于自动化的限制,如重起需要人工判断或得到命令,需要在控制台执行。

网络状况和规划

包括网段的划分、路由、网络设备的冗余等等在系统上线前的状况和可提供条件,以及实施运行过程中可能出现的变更。

操作系统情况

目前IBM的HACMP除了AIX,还支持Linux。

目前新装机器都是AIX5.3,即使安装HA5.4也没有问题。

但如果安装可能是在老机器上进行升级,需要仔细了解操作系统版本及补丁情况。

主机设计

可能实施的机器网卡的数量,网卡是否只能是双口或更多。

是否有槽位增加异步卡

主机之间的距离,这影响到串口线的长度。

预计实施高可用性的情况

希望实施HACMP的机器数量

希望方式,如一备一,双机互备,一备多,环形互备等等。

2.2. 

PowerHA/HACMP版本确定

IBMHACMP自从出了5.2版本后,到了5.205后比较稳定,并经过我们自己充分的测试(见测试篇)和实践证明(已有多个系统成功自动切换)。

之前个人觉得HACMP5.3后变化较快快,功能增加多,稳定性不够,相当长时间还是一直推荐HA5.209。

这也是本文出了第一版完全手册之后一直没有修订的原因之一。

随着Power主机和AIX的更新换代,名称也在变化,虽然目前最新版为PowerHASystemMirror7.1,又增加了不少绚丽夺目的功能,但个人以为作为高可用性软件,其成熟度为第一要素,其稳定性有待进一步验证。

而经过我们这2年来的充分实施经验,目前可以放心推荐版本为PowerHA6.1的6.1.10及以上。

2.3. 

IP地址设计

IP地址切换(IPAT)方式 

有3种方式:

图1a,1b,和1c中描述了三个主要的IPAT配置场景。

◆ 

第一个拓扑模式:

IPATviaReplacement

在分开的子网中包含boot和standby网卡。

当集群服务启动的时候boot地址被换成service地址。

尽管这种方式有效性强,但是在需要实现多服务IP地址的环境下这种方式是不可取的。

集群的管理员不得不利用pre-和post-events定制其环境建立额外的别名,

并且需要确认这些别名在下一次接管发生前被删除。

第二个拓扑模式:

IPATviaAliasing

HACMP4.5开始引入了IPATviaAliasing作为缺省的拓扑模式。

在这种新的模式中,standby网卡的功能被另外一个boot网卡替换。

子网需求的不同点是还需要一个另外的子网,每一个boot网卡需要它自己的子网,并且任何service或persistent的IP将在其本身的子网上操作,所以一共三个子网。

当集群服务启动并且需要serviceIP的时候,bootIP并不消失。

这个设计和第一种是不同的,在同一个HACMP网络中有多个serviceIP存在并且通过别名来控制。

第三种模式:

EthernetChannel(EC)

这种模式把底层的以太网卡藏到一个单一的“ent”接口之后。

该模式不是对前述任何一种方式的替换,而是可以和前述的任一种模式共同存在。

因为在每一个节点EC都被配置成冗余方式,可以在HACMP中使用IP别名定义它们每一个作为单一网卡网络。

因为在每个节点只有一个网卡被定义,所以只有两个子网,一个是用作boot(每个节点的基本IP地址),另一个是用于提供高可用服务。

本文讨论实际工作中使用最多的为第2种:

别名方式(IPATviaAliasing),即使到今天,其使用仍然最为广泛,对交换机要求也最低。

对于新型核心交换机和网络人员可紧密配合的,则推荐第3种,由于第3种更为简单,切换时间更短。

但本文这里以第2种为主加以讨论。

这样设计时就需要注意以下事情:

网段设计:

一个服务地址需要3个网段对应,boot地址网段不能和服务地址一致。

避免网络变更造成的系统不可用,boot地址的网段不要和实际其他系统的网段一致。

在网段比较紧X的地方,建议设计时询问网络人员。

举例来说,下面的地址将会由于网络变更后打通合一后可能造成冲突:

设计人

机器名

服务地址

boot1地址

boot2地址

X三

app1_db

10.66.1.1

10.10.1.1

app1_app

10.66.1.2

10.10.2.2

李四

app2_db

10.66.2.1

10.66.3.1

app2_app

10.66.2.2

10.66.3.2

10.10.1.2

王五

app3_db

app3_app

boot地址的设计:

不要和实际其他同网段机器的boot地址冲突,最好不同网段。

即这个规划不能只考虑系统本身,还需要从同网段的高度考虑。

举例来说,下面的地址由于2个系统分开设计,同时开启将直接导致2个系统不可用。

boot地址的设计表1

10.66.3.11

10.66.3.12

所以在设计时,我们建议boot地址的IP地址最后一段参照服务地址,这样虽然可记忆性不是很好,但即使设计在同一网段,也可以避免上述错误发生。

更改设计如下:

boot地址的设计表2

10.10.1.11

10.10.1.12

此外,如果是每个网卡多个网口,记得设计时必须注意同一网络的boot地址要分开到2块网卡,以保证真正的冗余。

2.4. 

心跳设计

配置HACMP的过程中,除了TCP/IP网络之外,您也可以在其它形式的网络上,如串行网络和磁盘总线上配置心跳网络。

TCP/IP网络

优点:

要求低,不需要任何额外硬件或软件,即可实现。

缺点:

占用IP地址,不能避免由于TCP/IP的软件问题导致HACMP崩溃,系统不可用。

串口网络

真正实现高可用性,不占用IP地址。

需要硬件支持,需要新增异步卡,而中低端的机器的插槽有限。

磁盘心跳

优点:

不占用插槽,磁盘总线上的心跳网络能够在TCP/IP网络资源有限的情况下提供额外的HACMP节点间的通信手段,并且能够防止HACMP节点之间由于TCP/IP软件出现问题而无法相互通信。

 

缺点:

需要操作系统和存储支持,如使用增强型卷组,此外对于I/O读写负荷高的应用,也需要慎用。

正如IBM红皮书所说,条件许可的情况下,强烈推荐使用串口网络,其次是磁盘心跳。

不过我们也注意到HACMP7.1将不再支持串口心跳,而改为其他如SAN方式,效果有待进一步观察。

2.5. 

资源组设计

对于HACMP来讲,服务IP地址和磁盘VG、文件系统、应用服

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 党团工作 > 入党转正申请

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1