集中备份系统应急方案Word格式.doc
《集中备份系统应急方案Word格式.doc》由会员分享,可在线阅读,更多相关《集中备份系统应急方案Word格式.doc(14页珍藏版)》请在冰豆网上搜索。
3.3. 备份软件故障应急步骤及恢复策略 7
3.3.1. 备份客户端软件故障 7
3.3.2. 备份服务器备份服务启不来 8
3.4. 备份服务器硬件故障 9
3.4.1. 备份服务器硬件故障应急步骤及恢复策略 9
3.5. 光纤交换机故障应急步骤及恢复策略 9
3.5.1. 光纤交换机个别端口故障 9
3.5.2. 光纤线有问题 10
3.6. 网络故障应急步骤及恢复策略 10
3.7. 主机HBA故障 10
1.前言
集中备份系统由IBM3584带库/STKL1400、SYMANTEC|netbackup备份软件、SYMANTEC|netbackup备份客户端、光纤交换机,IBM备份服务器等组成。
其中由于3584带库及L1400带库属机械设备,存在出现机械故障的风险点,还有其他组件也存在出现故障的可能性;
现针对集中备份系统可能出现的故障点,为后期备份系统的进一步完善,特制定本应急方案。
说明:
以下操作步骤如果没有特殊说明都是由备份管理员操作.
2.数据库日志备份应急措施
针对Oracle,Informix数据库在线备份,都需要打开归档功能做日志备份.如果备份系统出现问题,不能进行日志备份的话,需采取如下应急措施:
2.1.Oracle数据库的应急处理方法
目前集中备份系统使用ORACLE数据库的业务为ODSB,且归档日志与ODSB项目组确认后是可以删除的,清理日志的机制已下发分行。
如分行有特色系统使用ORACLE数据库且已经加入集中备份系统:
1、保留归档日志
方法一.可更改归档日志生成路径,但确保更改后的文件系统足够大。
命令举例:
方法二.当归档日志文件系统使用率达60%,可将归档日志拷贝、转移到其他文件系统(本机或异机)。
2、不保留归档日志
数据库管理员可使用rman命令删除归档日志(不要直接使用rm命令删除),命令举例:
如果希望归档日志自动清理,请参照ODSB归档日志自动清理机制。
2.2.Informix数据库的应急处理方法
参数配置前提
针对重要系统informix数据库的逻辑日志采用onbar进行备份时,目前的LTAPEDEV通常设置为一个文件,不能是null。
故障现象
当日志无法备份时,从数据库的角度,出现大量未备份的日志,(U------),最终导致日志被用满,数据库的日志出现错误
故障处理步骤
1、停止带库备份软件进程(如果临时应急时间很短,可以考虑不停止)
2、检查系统中是否有挂起的onbar进程,如果存在,kill杀掉该进程(如果该进程僵死,存在杀不掉的可能)
3、查看目前onconfig中的LTAPE配置参数
LTAPEDEV/home/db/informix/log.bak#Logtapedevicepath
LTAPEBLK32#Logtapeblocksize(Kbytes)
LTAPESIZE102400#Maxamountofdatatoputonlogtape(Kbytes)
l察看当前的LTAPEDEV所配置的文件是否存在
l咨询具体负责人,是否要保留日志
不保留日志:
1、将/dev/null链接到具体的文件上,以上图为例,ln–s/dev/null/home/db/informix/log.bak
2、修改onconfig参数ALARMPROGRAM所指向的文件,即逻辑日志备份脚本,将BACKUP_CMD="
onbar-b-l"
改为BACKUP_CMD="
ontape-a"
3、再次确认所有onbar进程已经被kill掉
4、通过onstat–l监控目前日志的变化情况
注:
此过程无需重启informix数据库。
保留逻辑日志:
1、可将逻辑日志备份至本地磁带机或文件系统,如果备份至文件系统需保证文件系统空间(逻辑日志落地空间)充足;
2、在有空间的文件系统创建一个文件(权限:
660;
informix:
informix),并将文件链接到LTAPEDEV所指向的文件,或将LATPEDEV指向磁带机设备;
3、修改onconfig参数ALARMPROGRAM所指向的文件,即逻辑日志备份脚本,将BACKUP_CMD="
"
,再直接运行ontape-c,这个命令的作用是是连续不断地备份数据库逻辑日志,只需要运行一次,一直挂界面上运行,或则放在后台运行;
4、再次确认所有onbar进程已经被kill掉,并使用onstat–l查看日志状态;
5、对已经备份出来的日志进行妥善保管,以应对紧急情况下的日志回滚,并加强对文件系统空间使用率监控。
3.集中备份系统故障应急措施
3.1.故障分类
(1)带库硬件故障(A.机械臂,B.控制面板,C.IOStation,D.MCP卡(负责磁带机通讯),E.ACC卡(控制机械臂的电路板)等单点故障、驱动器故障)
(2)NBU备份软件故障(备份客户端软件故障、备份服务器备份进程异常)
(3)备份服务器故障(备份服务器硬件故障)
(4)光纤交换机故障(光纤交换机个别端口故障、光纤线有问题)
(5)网络故障(网络不通)
(6)主机HBA故障
根据故障的业务影响面不同,我们把故障定义为以下三类:
一般故障:
只影响个别备份客户端,影响不大;
严重故障:
涉及部分备份客户端,影响一般;
备份停业:
最严重的一种故障,导致备份系统瘫痪。
故障分类
细分类
备份停业
严重故障
一般故障
带库硬件故障
带库单点故障
◆
驱动器故障
备份软件故障
备份客户端软件故障
备份服务器备份进程异常
备份服务器故障
备份服务器硬件故障
光纤交换机故障
光纤交换机个别端口故障
光纤线有问题
网络故障
主机HBA故障
3.2.带库硬件故障应急步骤及恢复策略
3.2.1.带库单点故障
由于磁带库只有一个A.机械臂,B.控制面板,C.IOStation,D.MCP卡(负责磁带机通讯),E.ACC卡(控制机械臂的电路板)等部件,如果以上任一部件有故障,整个备份系统就会瘫痪,影响非常严重。
(1)带库单点故障应急步骤
第一步:
在备份服务器管理界面上,将所有的文件、数据库0级备份的policy“dactive”;
具体操作步骤如下:
a.以管理员身份登陆NetbackupAdministrationConsole界面
b.将“Active.Gointoeffectat:
”前的“√”
c.带库故障并不影响逻辑日志备份至磁盘存储单元,避免因排查故障而频繁重启备份服务器NBU进程及操作系统,导致逻辑日志堆积;
第二步:
如果修复时间不超过8个小时,先通知各系统管理员密切关注数据库逻辑日志使用情况、逻辑日志落地文件系统的使用率,达到50%发出通知,提前采取应急措施.
各系统管理员需要实时监控各数据库日志、日志文件系统使用情况:
a.Informix数据库逻辑日志使用情况
使用$onstat-l 查看
b.Informix数据库落地日志文件系统
使用#df –g 查看
c.Oracle数据库日志文件系统
d.如果日志达到50%,请数据管理员先将日志文件移到空闲的文件系统上.
第三步:
如果维修的时间过长,逻辑日志或存放日志的文件系统就会出现满的情况,这时数据库就会宕机或归档日志就不能正常备份,就要采取日志抛空或转移,详见第二章数据库日志备份应急措施.
(2)恢复策略
带库单点故障部件修复好了,在带库面板上做取带、退带操作测试;
a.选择某一磁带load到驱动器中;
b.Mount成功后,选择驱动器做umount操作
c.Load,unload都操作成功的话,说明带库已经正常.
第二步:
备份管理员在备份服务器上启动备份服务;
第三步:
备份管理员在备份服务器管理界面上将置为“inactive”的备份策略,置成“active”;
3.2.2.驱动器故障
如果出现个别驱动器不能读写的故障,首先检查是否是链路的问题(光纤线、交换机端口故障)如果确实是驱动器故障的话,需要更换驱动器。
其具体的检查方法为:
1.如果驱动器有问题的话,在备份服务器的日志中会有报某个驱动器使用有问题的信息
2.同时在操作系统的系统日志中也会有相关报错信息.
(1)应急步骤
如果驱动器有故障,NBU备份软件会自动将其状态设置为“down”,也可以手工操作:
在管理界面“mediaanddevicemanagement”“devicemonitor”中选中有故障的驱动器,右键“downdrive”
通知IBM工程师更换有故障的驱动器;
如果是3584带库的第一个驱动器坏掉,需要将机械手的光纤通路切到其余驱动器上,并在备份软件上配置相应的ovpass,详见《IBM3584带库机械手多路冗余配置方法》
在管理界面“mediaanddevicemanagement”“devicemonitor”中选中已更换的驱动器,右键“updrive”
备份管理员在备份管理界面上发起备份或新建测试用备份策略验证驱动器是否工作正常。
3.2.3.驱动器卡带故障
如果出现所使用驱动器卡带的情况,采取以下应急及恢复策略:
备份管理员在备份管理界面上先停止相关项目的备份作业;
具体操作步骤如下:
备份管理员在带库管理界面或液晶面板上弹出卡带的磁带;
和系统管理员协商补备时间,由备份管理员再次发起备份任务;
(2)恢复策略
通过以上应急步骤问题解决后,备份作业就能正常进行了.通过检查统计备份服务器日志,分析是磁带的问题还是驱动器问题,确认后进行更换.
3.3.备份软件故障应急步骤及恢复策略
3.3.1.备份客户端软件故障(包括client及mediaserver)
备份客户端软件发生问题,导致本机不能进行数据库及日志的备份。
联系备份软件厂商,如果一时无法定位问题,可考虑在主机上删除备份软件及驱动程序,重装备份客户端。
安装删除步骤详见
如果