IT系统应急响应及恢复预案编写指南Word文档下载推荐.docx
《IT系统应急响应及恢复预案编写指南Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《IT系统应急响应及恢复预案编写指南Word文档下载推荐.docx(20页珍藏版)》请在冰豆网上搜索。
示例:
修订日期
版本号
修订说明
修订人
审核
2007.1
V1.0
建立数据中心应急预案模板
吴磊
杨晓勤
2008.1
V2.0
修订应急预案第五、六、七章节
张翔
2009.6
V2.5
修订第四、第七、第八章节
2010.3
V3.0
全面修订应急预案结构和内容,新增第三、第四章内容
付林
1.总则
1.1.目的和依据
请在此简要描述本预案编制的主要目的,本预案在建设银行业务持续性突发事件应急响应及恢复工作(以下简称“应急响应及恢复工作”)过程中所发挥的作用和执行的功能,以及编制本预案的主要依据。
防垃圾邮件网关系统(MGAT)应急预案(以下简称MGAT预案)是邮件网关系统遇到紧急情况或运行中断后为恢复邮件网关服务所采取的快速有效的应对手段。
通过建立包含应急启动、执行、恢复等流程、步骤和技术操作方案,为系统相关组织、人员处理应急情况提供指导;
并作为与总行其他应急相关人员进行协调的依据。
1.2.适用范围
请在此明确本应急预案的具体适用范围。
如指明该预案适用于因XXX突发事件所导致的建设银行XXX业务发生中断,需要采取应急处置和恢复措施予以应对的操作风险事件。
本系统应急预案适用范围是北京数据中心与本系统有关的所有组织体系和人员,适用于北京数据中心邮件网关系统的运行所需的功能,操作和资源。
该预案适用于因邮件网关系统突发事件所导致的建设银行邮件收发发生中断,需要采取应急处置和恢复措施予以应对的操作风险事件。
邮件网关系统简称为MGAT,产品英文名称为Websense邮件网关。
2.系统及资源
2.1.系统信息
应用系统中文全称:
请在此描述应用系统在北京数据中心(或ITSM系统中)的中文全称。
应用系统英文缩写:
请在此描述应用系统在北京数据中心(或ITSM系统中)的英文简称。
应用系统负责部室:
请在此描述应用系统在数据中心(或ITSM系统中)的负责部室。
应用系统管理员:
请在此描述应用系统在数据中心(或ITSM系统中)的应用预案修订人员A/B角或者管理团队。
平台系统管理员:
请在此描述应用系统在数据中心(或ITSM系统中)的平台预案修订人员A/B角或者管理团队。
网络管理员:
请在此描述应用系统在数据中心(或ITSM系统中)的网络管理员A/B角或者管理团队。
2.2.系统描述
系统功能:
请在此描述应用系统的主要功能。
支撑业务:
请在此描述应用系统所支撑的所有业务应用。
业务影响范围:
请在此描述应用系统故障后可能影响的范围。
2.3.运行指标
请在此补充应用系统的常用的一些运行指标,如恢复时间目标(RTO,RecoveryTimeObjective)恢复点目标(RPO,RecoveryPointObjective)、运行维护级别、可用性要求,性能要求,业务连续性要求,安全性要求,可管理性要求,可维护性要求等。
运行指标解释:
1)恢复时间目标(RTO):
是指突发事件发生并导致业务或系统中断后,从中断到必须恢复的时间要求。
2)恢复点目标(RPO):
是指突发事件发生并导致业务或系统中断后,数据必须恢复到的时间点要求,即数据可容忍丢失的最大时间长度。
注意:
恢复时间目标(RTO)和恢复点目标(RPO)是必填项。
在营业不同时间段(业务高峰、业务空闲和非业务时间)如对RTO/RPO有不同要求,请单独列举。
邮件网关系统运行指标
恢复时间目标(RTO):
0分钟。
恢复点目标(RPO):
10分钟。
运行维护级别:
5*8(8:
30-17:
30)。
可用性要求:
全年系统可用性达到99.9%。
性能要求:
系统最大并发连接数8000个TCP连接,邮件处理速度>
150封/秒,邮件延迟时间平均值<
1分钟,邮件错误率<
0.01%。
业务连续性要求:
7*24连续运行。
安全性要求:
防攻击性能参数>
170,000次/小时包括字典攻击、目录攻击、病毒攻击、压缩文件攻击等。
2.4.关联系统
请在此描述与该系统运行相关的其它关联系统情况,如:
何种关联系统?
所涉及何种业务等。
2.5.物理架构
请在此描述系统物理拓朴结构及简要描述(包括放置在哪个机房,物理如何连接、以及何其他系统的关联拓扑等)
2.6.网络拓朴
请在此描述系统网络拓朴结构及简要描述
2.7.IP及端口
请在此描述简要描述系统使用的IP地址及端口(请填写包括带外管理在内的所有网络地址和端口)
2.8.系统软硬件
2.8.1.主机设备
请在此描述主机设备的具体配置及参数。
主机设备一:
邮件网关系统主服务器,设备用途:
设备编号:
操作系统及版本:
WindowsServer2003R2企业版
设备位置:
北京洋桥2层
数据库及版本:
SQL2005
设备型号:
IBMxSeries3850
中间件及版本:
websenseV6.3.2
设备序列号:
99C4653
本地硬盘RAID级别:
raid5
设备微码:
(主要设备)
本地硬盘大小及数量:
146*6
CPU及数量:
Xeon3.0G4
网卡一MAC及IP:
00-14-5E-BC-7A-2E(无IP地址)
内存大小:
8G
网卡二MAC及IP:
00-14-5E-BC-7A-2F(无IP地址)
网卡:
3块网卡
网卡三MAC及IP:
00-10-18-30-69-4D(IP:
11.133.190.59)
其他
2.8.2.软件配置
请在此描述系统安装的各种软件的具体信息及用途,请将系统所用软件按系统软件、中间件、数据库、应用等进行划分。
软件类型
产品名称
用途说明
操作系统
WEBSENSEOS
2.2.4.22-14
生产
数据库
Mysql
4.0
应用软件
RiskFilter
6.3.3
2.8.3.磁盘/磁盘阵列
请在此描述系统所用的磁盘及磁盘阵列。
2.8.4.磁带存储
请在此描述系统所用的磁带存储。
2.8.5.网络设备(如路由器、交换机、负载均衡等)
请在此描述系统专用的各种网络设备
2.8.6.其它硬件设备(如加密机等)
请在此描述系统专用的各种硬件设备。
2.9.后备资源
请在此描述系统各种后备资源,如系统的数据备份、硬件配件、软件备份等资源信息。
2.9.1.数据备份
请在此描述系统可能有的操作系统、应用系统和应用数据备份,要说明备份等级、备份时间、备份介质、存放位置和保管人等信息。
2.9.2.硬件配件
请在此描述系统可能有的各种硬件配件,如大机、小机、服务器、网络设备、计算机备件和其它相关配件。
对这些配件要注明具体型号、序列号、服务期限、保存位置和保管人等信息。
2.9.3.软件备份
请在此描述系统可能有的各种软件备份,如操作系统、数据库系统、应用软件备份等。
对这些备份要注明具体产品名称、版本号、保存位置和保管人等信息。
2.10.用户分配
请在此描述系统可能有的各种用户,包括系统原有和自建的用户。
要明确用户角色、用户组及其它相关信息。
2.11.其他信息
请在此描述其它与系统相关的需要描述的信息。
3.标准处置预案
请在此描述系统预设的一些标准处置预案,如主备机切换、应急库切换、灾备环境标准切换、硬件设备标准关闭、硬件设备标准重启等标准处置预案。
下面列举了常见的一些标准处置预案但不完善,请预案编制人员根据系统实际情况酌情修订。
在预案模板中,系统标准处置预案列举如下:
1)主备机标准切换:
该处置预案应包含系统各种设备在运行中出现意外时,所涉及的各种应急切换处置步骤。
设备包含大机、小机、服务器、网络设备、专用设备、存储等。
2)应急库标准切换:
该处置预案应包含系统切换应急库的相关处置步骤。
3)灾备环境标准切换:
该处置预案应包含系统切换灾备环境的相关处置步骤。
4)硬件设备标准关闭:
该处置预案包含系统硬件设备关闭时的相关处置步骤。
5)硬件设备标准重启:
该处置预案包含系统硬件设备重启时的相关处置步骤。
6)数据库标准关闭:
该处置预案包含系统数据库关闭时的相关处置步骤
7)数据库标准重启:
该处置预案包含系统数据库重启时的相关处置步骤。
8)应用服务标准关闭:
该处置预案包含系统应用服务关闭时的相关处置步骤。
9)应用服务标准重启:
该处置预案包含系统应用服务重启时的相关处置步骤。
10)中间件标准关闭:
该处置预案包含系统中间件关闭时的相关处置步骤。
11)中间件标准重启:
该处置预案包含系统中间件重启时的相关处置步骤。
12)其它通用软件标准关闭:
该处置预案包含系统其它通用软件关闭时的相关处置步骤。
13)其它通用软件标准重启:
该处置预案包含系统其它通用软件重启时的相关处置步骤。
14)硬件模块故障标准处置:
该处置预案应包含系统设备出现硬件模块故障,需要进行在线更换的相关处置步骤。
涉及模块如电源、CPU、内存、RAID卡、光纤卡等。
15)恢复回切标准处置:
该处置预案应包含系统通过故障救治,排除故障后恢复到原生产环境所涉及的各种回切处置。
3.1.标准处置
请在此对标准处置的主要用途做简要描述。
Ø
修订日期:
请在此描述该标准处置最近一次验证和修订的日期。
处置时间:
请在此描述完成操作需要的时间。
操作步骤:
请在此描述具体操作步骤,要求详细到具体的操作命令。
验证步骤:
请在此描述操作完后的验证步骤,也要求详细到具体的操作命令。
标准处置1:
主备机切换
该标准处置主要起如下作用:
生产环境邮件网关设备出现故障无法工作情况下,邮件网关备机通过该标准处置可紧急接管服务。
2011年3月10日。
处置时间<
20分钟。
1)进入运维终端E:
\日常备份\月报\邮件网关邮件服务器策略明细表,找到当日备份及证书备份;
2)将备机的IP地址修改为生产主机地址(11.xxx.xxx.31),重新启动网络;
具体操作命令为:
vi/etc/sysconfig/network-
scripts/ifcfg-eth0),将IPADDRESS项中的地址修改为生产地址,存盘退出编辑。
3)将邮件网关31主机的网线拔除并插到备机对应网卡中;
4)在超级用户权限下执行应用启动命令:
#/etc/init.d/smgdrestart。
5)用administrator用户登录https:
//11.xxx.xxx.31/admin管理界面,进入系统设置---帮助—设置向导--,输入(验证)备份的证书序号和激活码。
6)继续在系统设置---更新管理中,立即更新反病毒库和反垃圾邮件库。
7)登录https:
//11.xxx.xxx.31:
10000端口管理界面,在系统备份管理导入终端中的备份文件,恢复系统配置及策略设置为31主机状态;
1)登录https:
//11.xxx.xxx.31/admin查看系统设置、系统面板,分别检查设置是否已经恢复成功,对外连接的服务器状态是否正常;
2)继续在https:
//11.xxx.xxx.31/admin,统计与日志中,分别查看邮件日志、投递邮件、系统状态、过滤统计等,测试收发邮件是否正常工作,过滤是否正常;
3)登录https:
10000管理界面,在系统历史统计数据中,分别查看CPU、磁盘、内存、eth0网络接口卡等硬件运行情况;
如以上三部分检查都正常,则说明系统主备机切换成功。
4.故障快速定位
4.1.快速定位流程
请在此描述当系统出现未知故障情况下,应急人员因按照何种预设流程进行故障排查,以便能快速定位系统故障。
为规范和方便大家填写故障快速定位流程,在预案模版中预设一个空白的应急预案的维护流程,预案修订人员需要根据系统特点修改完善。
4.2.定位流程描述
请根据上节的定位流程图,翔实描述各具体定位流程步骤。
)
1、
2、
4.3.故障快速定位排查内容
请在此详细描述在系统故障排查时,可能涉及的检查的内容、执行的命令、指标阀值等。
在预案模板中预设了快速定位排查表,主要涉及应用应用软件、网络状态、硬件状态、通用软件等检查内容。
预案修订人员要求认真考虑排查的优先顺序,按照最快故障排查定位的原则对优先顺序进行排序。
每步排查步骤都要求有检查内容、操作步骤、操作/复核人、检查结果等具体信息。
并要求根据排查结果指定下一步检查内容。
如故障定位检查需要相关系统配合,也请按照排查顺序,将相关检查内容添加到排查表中。
如检查内容较多,可在排查表中简要描述检查项,详细内容放在预案附录中。
5.系统应急场景分类及描述
5.1.故障场景分类
请预案修订人员根据系统特点,在此对故障场景进行分类并简要描述,要求故障场景分类应能覆盖系统所有可能出现的故障场景。
系统故障场景按照故障特点分为五类:
硬件故障场景、通用软件故障场景、应用软件故障场景、网络故障场景和其它故障场景。
1.硬件故障场景:
主要包含系统硬件方面的故障场景。
例如。
。
2.通用软件故障场景:
主要操作系统、数据库软件、中间件等方面的故障场景。
3.应用软件故障场景:
主要包含业务应用系统方面的故障。
4.网络故障场景:
主要包含与网络相关的故障场景。
5.其它故障场景:
主要包含系统相关的外联系统、外部环境等方面的故障。
5.2.硬件故障场景
请在此详细列举并描述系统可能出现的各种硬件场景,在预案模板中列举了一些常见的故障事件,预案编制人员要根据系统实际情况酌情修订。
修订后预案表中的列举的故障事件都要求在预案随后的章节里进行详细描述。
(预案编制人员在修订应急步骤时,建议参考平台部编制的通用故障处理方案,该方案内包含LINUX、AIX、HP-UX、INFORMIX、ORACLE通过故障处理流程和应急处理步骤。
在预案模板中,系统硬件常见故障事件列举如下:
1)大型机异常报错
2)小型机异常报错
3)加密机设备异常
4)服务器异常宕机
5)设备网卡异常
6)设备CPU异常
7)设备硬盘异常
8)设备内存异常
9)设备光纤卡异常
10)设备RAID卡异常
11)设备HA卡异常
12)设备串口卡异常
13)设备其它部件异常
5.2.1.XX故障事件
请在XX处补全具体故障事件名称。
请在此描述该故障事件处置最近一次验证和修订的日期。
事件级别:
请在此设定该故障事件等级(一级/二级/三级/四级/五级/六级)。
划分原则请按照《中国建设银行信息系统生产事件等级认定规定(试行)》(建总发〔2010〕138号)对事件级别的划分。
授权级别:
请在此设定执行该故障救治步骤所需要的授权级别中心领导授权/部室负责人授权/部室日常授权)。
授权级别的设定可参照中心总体预案中的授权级别设定原则。
请在此在设定执行救治措施,完成故障处置该所需要的时间。
场景描述:
请在此简要描述该故障场景可能出现的状况和现象。
验证方法:
请在此简要描述可确认该故障事件验证方法和手段。
现场保护:
请在此描述进行现场保护所使用的现场收集脚本。
部分脚本可见附录。
救治步骤:
请在此此翔实描述故障救治步骤,要求细化到具体的操作指令。
如救治步骤调用前面标准处置章节的内容,则必须在此注明调用的具体章节号及名称。
邮件网关集群中一台设备硬件宕机
最近一次验证和修订的日期为2011年3月11日
五级事件
部室负责人授权
处理时间:
26分钟
1.应用监控人员通过邮件、短信、实时监控等渠道得知主机不可用。
2.应用用户可以ping通主机IP地址,但不能从控制台登入操作系统,且未发现硬件故障灯亮。
(3分钟)
1.进入主机房检查主机上是否有硬件报错或是否有黄灯闪,如果没有则说明不是因为硬件的损坏导致的主机不可用。
1)如果系统无法响应且屏幕有信息,用手机将提示信息拍下,或者用笔将文字记录下来;
2)系统重启后,执行errspot.sh脚本将系统相关的信息和日志收集起来,以备分析故障时使用。
(20分钟)
1)将备机的IP地址修改为生产主机地址(11.xxx.xxx.31),重新启动网络;
vi/etc/sysconfig/network-scripts/ifcfg-eth0),将IPADDRESS项中的地址修改为生产地址,存盘退出编辑。
2)将邮件网关31主机的网线拔除并插到备机对应网卡中;
3)在超级用户权限下执行应用启动命令:
4)用administrator用户登录https:
5)继续在系统设置---更新管理中,立即更新反病毒库和反垃圾邮件库。
6)登录https:
5.3.通用软件故障场景
请在此详细列举并描述系统所有可能出现的操作系统、数据库、中间件等通用软件故障场景。
在预案模板中列举了一些常见的故障事件,预案编制人员要根据系统实际情况酌情修订。
在预案模板中,系统通用软件常见故障事件列举如下:
1)系统数据库崩溃
2)数据库存储损坏
3)数据库无法正常处理请求
4)数据库表死锁
5)数据库表数据无法插入
6)逻辑日志满导致数据库挂起
7)数据库启动失败
8)数据库交易处理缓慢
9)数据库表空间OffLine
10)数据库无法连接或无响应
11)数据库性能极剧下降
12)数据库短时间内不可用
13)数据库实例监听宕掉
14)数据库实例出现大量等待事件
15)数据库实例无法切换逻辑日志
16)Tuxedo服务异常或僵死
17)weblogic实例异常或僵死
18)AIX操作系统异常或报错
19)LINUX操作系统异常或报错
20)HP-UX操作系统异常或报错
21)WINDOW操作系统异常或报错
22)中间件异常或报错
5.4.应用软件故障场景
请在此详细列举并描述系统所有可能出现的应用故障场景。
在预案模板中,系统应用软件常见故障事件列举如下:
1)系统应用不能正常运行
2)应用进程异常
3)系统应用无法启动
4)系统应用响应缓慢或无响应
5)XX交易异常报错
6)XX交易流量异常下降
7)XX交易成功率异常下降
8)用户无法登陆应用界面
9)用户连接应用异常报错
10)应用服务队列堵塞
11)应用出现大量繁忙,交易时间延长
12)应用共享空间异常
13)应用处理性能下降
14)部分分行应用堵塞,无法连接总行
15)某类特定交易成功率异常
16)某类特定交易流量异常下降
5.5.网路故障场景
请在此详细列举并描述系统所有可能出现的网络故障场景。
在预案模板中,系统网络常见故障事件列举如下:
1)外联节点网络异常中断
2)网络外联服务不可用
3)AP与DB间网络异常或不可用
4)WEB与AP间网络异常或不可用
5)网络端口流量异常升高/下降
6)防火墙连接数异常
7)IP地址异常或出现冲突
8)数据传输中出现异常丢包
9)病毒爆发,堵塞网络
10)网络被攻击,不可用
11)F5服务异常或报错
5.6.其它故障场景
请在此详细列举并描述系统所有可能出现的外部环境、外联、外部系统等故障场景。
在预案模板中,系统其它常见故障事件列举如下:
1)机柜异常掉电
2)