db2purescale 集群系统cf结点文件系统丢失解决步骤.docx

上传人:b****7 文档编号:9374991 上传时间:2023-02-04 格式:DOCX 页数:16 大小:1.64MB
下载 相关 举报
db2purescale 集群系统cf结点文件系统丢失解决步骤.docx_第1页
第1页 / 共16页
db2purescale 集群系统cf结点文件系统丢失解决步骤.docx_第2页
第2页 / 共16页
db2purescale 集群系统cf结点文件系统丢失解决步骤.docx_第3页
第3页 / 共16页
db2purescale 集群系统cf结点文件系统丢失解决步骤.docx_第4页
第4页 / 共16页
db2purescale 集群系统cf结点文件系统丢失解决步骤.docx_第5页
第5页 / 共16页
点击查看更多>>
下载资源
资源描述

db2purescale 集群系统cf结点文件系统丢失解决步骤.docx

《db2purescale 集群系统cf结点文件系统丢失解决步骤.docx》由会员分享,可在线阅读,更多相关《db2purescale 集群系统cf结点文件系统丢失解决步骤.docx(16页珍藏版)》请在冰豆网上搜索。

db2purescale 集群系统cf结点文件系统丢失解决步骤.docx

db2purescale集群系统cf结点文件系统丢失解决步骤

集群里有三个节点:

172.19.2.12(ZBBB_DB1)cf+mem,172.19.2.14(ZBBB_DB2)cf+mem;172.19.2.16(ZBBB_DB3)mem

故障现象一:

在172.19.2.12上执行df–k查看磁盘情况,发现有一个节点的共享存储掉了

其中一个cf显示文件系统挂不上了,df-k看到共享存储的三个文件系统异常;

故障现象二:

Errpt检查发现有PH报错(adapter报错,机房检查发现机器的hba1亮黄灯)。

故障现象三:

三个节点每台机器上都有两块万兆光线卡(hba),两块卡做了绑定,一块坏不应影响网络运行。

但是DB1与DB2互通;DB2与DB3互通;DB1与DB3不通。

问题:

1.节点在集群里面吗?

重新挂能挂上吗?

不知道怎么检查

2.盘掉了吗?

盘没掉(使用/usr/lpp/mmfs/bin/mmlsnsd可以查看每个文件系统的NSD配置),每个节点上的NSDservers都为“directlyattached”则说明每个节点与网络存储都是正常连接的。

NSD神马意思?

,不知道

Db2sdin1与root用户的Lspv查看结果分别为:

3.Gpfs有问题吗?

使用/usr/lpp/mmfs/bin/mmgetstat–a查看gpfs状态。

在三个节点上分别执行,发现三个节点状态不一致。

mmgetstate看到DB1处于arbitrating状态;DB2是active;DB3是unkown

此时即便在ZBBB_DB1上执行/usr/lpp/mmfs/bin/mmount–a也不能把文件系统挂载上,因为DB1不是active状态。

在ZBBB_DB1上执行/usr/lpp/mmfs/bin/mmstartup–a(这是启动所有节点),状态依旧。

在ZBBB_DB1上手工停掉GPFS,然后再启动。

在ZBBB_DB3上也执行该操作,

此时ZBBB_DB1执行/usr/lpp/mmfs/bin/mmgetstat–a查看gpfs状态发现node1和node2为active状态,node3为unknown状态;在ZBBB_DB3执行/usr/lppmmfs/bin/mmgetstat–a发现node2和node3为active;在ZBBB_DB2/usr/lppmmfs/bin/mmgetstat–a发现node1和node3为unknown状态,node2为active状态。

此现象应该是与互信导致的。

这里没有追查互信问题,继续重启了gpfs,结果数据库起不来了,在db2inst1账户下输入db2connecttoZBBB后hang住了,没有任何返回。

重开2.14窗口,db2sdin1用户下执行db2stopforce,此时三个mem都是stop状态了。

Db2sdin1>db2instance-list

只有ZBBB_DB2能执行该命令,其他两个节点均不能执行该命令。

在ZBBB_DB2或者ZBBB_DB1上执行db2stopinstanceonZBBB_DB2/ZBBB_DB1,执行成功,db2instance–list状态全部为stopped状态。

db2cluster-cm-clear–alert清空告警。

db2instance –list发现告警还在。

Hang住的sql使用ps–ef|grepdb2,找到db2pd的那些进程,手动kill掉即可结束hang的状态。

此时再次查看gpfs状态(/usr/lpp/mmfs/bin/mmgetstat–a),ZBBB_DB1看到ZBBB_DB1和ZBBB_DB2是active;ZBBB_DB2看ZBBB_DB1是unknown状态,自己是active。

但是ZBBB_DB1和ZBBB_DB2互ping能通。

Root>/opt/IBM/db2/v10.5/bin/db2cluster-cm-STOP-HOSTZBBB_DB2/1–force(在node1和node2上分别执行)

使用lsrpdomain查看cm状态是否都为offline;

在node1和node2上分别执行db2cluster-cfs-STOP-HOSTZBBB_DB2/1–force,停掉gpfs,执行后看到文件系统已卸载。

决定先甩开node3不管(等网络解决再去启动node3的cm和gpfs)

在node3上执行lsrpdomain,如为online,则

stoprpdomainb2domain_20130926120214:

/根据lsrpdomain的输出。

在node3上执行db2cluster-cfs-STOP-HOSTZBBB_DB3–force停掉gpfs。

再次检查gpfs状态:

node1与node2看到的gpfs状态仍不同。

彻底怀疑是互信问题

在node2执行mmlscluster

但是node1与node可以直接ssh。

但从上图可看出我中心的gpfs用的不是openssh,而是db2locssh(db2封装的ssh)。

(上图是使用openssh的例子)

而在ZBBB_NODE2root用户上执行/var/db2/db2ssh/db2locsshZBBB_DB1‘hostname’返回ZBBB_DB2,但是在ZBBB_DB2上root用户执行/var/db2/db2ssh/db2locsshZBBB_DB1‘hostname’

手动删掉/home/db2sdin1/.ssh/known_hosts文件中的ZBBB_NODE1和ZBBB_NODE3,然后在ZBBB_NODE2执行sshZBBB_DB1和sshZBBB_DB3手动重做互信,互信问题可能可解决。

但是此时未处理互信。

开始准备整体启动:

在每个节点检查cm与cfs是否处于maintenance

/opt/IBM/db2/V10.5/bin/db2cluster–cfs–verify–maintenance

/opt/IBM/db2/V10.5/bin/db2cluster–cm–verify–maintenance

目前都处于maintenance状态,在node1root下执行下面命令退出maintenance,启动cm

/opt/IBM/db2/V10.5/bin/db2cluster–cm-EXIT-MAINTENANCE–ALL(node2的互信有问题,不能在2上做该操作)

启动cluster:

root>db2cluster–cfs–start–all(该命令会把cluster和gpfs都启动)

在每台机器上做db2startinstanceonhostname//实例用户这个是单启动cluster的,上边命令执行完后,lsrpdomain显示节点处于online状态,所以再执行该命令时系统提示nodeisalreadyactive。

最后在mem上执行db2start,启动数据库即可。

互信问题解决前启动过数据库,启动不成功。

而后又结束。

此时互信问题问题已解决,再次启动数据库,db2instance–list显示ZBBB_DB2上的数据库启动失败。

执行db2cluster–cm–list–alert后,ZBBB_DB2尝试再次重启数据库,但是仍失败。

决定重启172.19.2.14.在德元通过crt远程reboot,

Reboot后只能telnet不能远程(ssh服务未启动

且172.19.2.14的db2sdin1无法使用db2instance、db2cluster等命令。

root在/opt/IBM/db2/V10.5/bin/db2cluster–cm–verify–resources

发现资源模型不一致(啥意思,不明白)

在root账户执行在/opt/IBM/db2/V10.5/bin/db2cluster–cm–repair–resources,报如下错误。

一直在报“ErrorOpeningClusterManager”错误。

原因不明

先不管cm了,启动试试。

在ZBBB_DB1上启动(root用户/opt/IBM/db2/V10.5/bin/db2cluster–cfs–start–all该命令会把gpfs(包括mmstartup–a作用)和domain(db2startinstanceonZBBB*)一起启动),三个节点分别看GPFS三个节点,均为active状态。

但是节点2仍无法查看domain状态lsrpdomain。

看看db2instance状态

在ZBBB_NODE1上db2sdin1用户执行db2instance–list,如下图

使用lssam查看集群资源情况,发现有offline

至此,恰好发现该状态与ibm官网一状况相似

 

该链接的图5

故决定去机房通过硬件控制器重启172.19.2.14(P750-2),选中该机器,restarted。

启动后,系统自动拉起GPFS。

开始启动:

root用户/opt/IBM/db2/V10.5/bin/db2cluster–cfs–start–all

检查gpfs是否均为active和domain是否为online

在db2sdin1用户下,member上执行db2start。

然后db2instance–list,启动正常。

数据入库正常。

正常状态:

实例状态

磁盘状态:

GPFS状态和domain状态:

(三个节点均如此)

集群资源组状态(全部为online,没有offline的资源)

值得学习的链接:

(目前db2purescale没有书籍可参考,基本都是参考IBM官网)

关于openssh的:

关于ibm防火墙的:

报2612-022错误时,网上有说可能是防火墙的原因,但是smit关不掉防火墙。

故除重启机器外,未找到其他解决2612-022错误的方法。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 文学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1