灾难恢复管理流程.docx
《灾难恢复管理流程.docx》由会员分享,可在线阅读,更多相关《灾难恢复管理流程.docx(8页珍藏版)》请在冰豆网上搜索。
灾难恢复管理流程
标准化管理处编码[BBX968T-XBB8968-NNJ668-MM9N]
灾难恢复管理流程
罕王实业集团有限公司
信息中心
灾难恢复管理流程
编号及版本号:
HK
责任部门:
信息中心
发布(施行)日期:
2015年1月4日
编制人:
审核人:
批准人:
《信息中心灾难恢复管理流程》履历表
表单编号:
版本
版本状态
编制人
审核人
批准人
首次编制
说明
确保公司业务的持续性,避免人为和自然灾害带来的风险。
说明
说明
说明
第一章总则
一、目的
确保公司业务的持续性,避免人为和自然灾害带来的风险。
具体目标如下:
1)将信息系统运行的中断降到最低;
2)限制中断和损害的范围;
3)将中断的经济影响降到最低;
4)预先建立备用操作方法;
5)培训人员处理紧急过程;
6)提供顺利快速的恢复服务。
二、适用范围
本流程适用于信息中心负责的所有信息系统。
三、职责
1)公司灾难恢复小组,负责灾难恢复管理流程的制定与执行;
姓名
位置
职责
分机
手机
沈阳
组长
8915
李鑫
沈阳
基础硬件、操作系统、网络
8915
表
2)外部联系人,负责提供灾难恢复的技术支持;
姓名
单位
职责
联系方式
表
第二章细则
四、流程说明
1.资产列表
在此列出了公司业务持续所必须依赖的信息系统和重要数据,下列各表应6个月核查一次。
1)基础硬件:
包括服务器、磁盘阵列、个人计算机、打印机、传真机、磁带机、常规数据通信设备、路由器、交换机等。
提供商
名称
型号
管理员
自有或租用
表
2)应用软件系统。
软件名称
提供商
注释
使用部门
使用频率
表
3)重要数据。
数据名
数据类别
所属部门
负责人
保存位置
备份位置
表
2.灾难恢复计划
1.1自然灾害
这里的自然灾害指造成公司所在建筑物毁灭性损失的火灾、地震、水灾、地面塌陷等灾害。
自然灾害在灾难分类中出现几率最小,但造成损失是最大的。
流程说明如下:
1)确定损失情况。
自然灾难发生后,灾难恢复小组成员立即建立联系,具体了解公司的损失情况,了解的范围包括:
人员、物理设备、数据。
小组成员根据了解到的损失情况编制《损失一览表》。
2)通知用户服务中断。
损失情况了解清楚后,灾难恢复小组成员讨论预估的恢复时间。
灾难恢复小组组长根据《损失一览表》确定有哪些服务不能正常提供,马上联系用户通知服务中断并告知估计的恢复时间。
通知用户可以通过电话联系、张贴通知、电子邮件等方式。
3)联系保险公司。
发布服务中断的信息后,灾难恢复小组组长根据《损失一览表》中记录的损失情况检查是否有财产投保,如果有则应马上联系保险公司申请理赔。
4)联系服务商。
灾难恢复小组确定损失情况后,小组成员根据《损失一览表》中记录的设备损失列表,联系该设备的提供商,重新购置或者租用设备,并确定设备的到货日期和地点。
5)确定新的机房和办公地点。
如果公司原先的机房和办公地点已经无法使用,灾难恢复小组组长应向总裁提出申请,确定新的机房和办公地点。
6)安装调试新的物理设备。
新设备到货后,灾难恢复小组组长部署新设备的安装和调试工作。
安装调试任务明确后,灾难恢复小组组长应和各信息系统管理员确定完成部署的时间,如果完成时间和前期通知用户的时间不同,应通知用户最后确定的系统恢复时间。
7)恢复系统数据。
新设备安装完成后,IT(网络、操作系统)工程师取出备份的最新数据,执行数据恢复操作,各应用系统的数据恢复参照各应用系统的操作手册。
8)告知用户服务已恢复。
系统恢复运行后,恢复小组组长向用户发布通知,告知系统已经恢复运行。
9)填写《灾难恢复报告》。
流程图请见图1。
1.2电力故障
UPS能够避免短时间的电力中断故障造成的损失。
这里的电力故障指超出UPS承受范围的大范围停电事故,这种长时间的停电会造成业务停止和数据的丢失。
流程说明如下:
1)确定恢复时间。
IT(网络、操作系统)工程师在明确电力中断故障后,立即联系电力供应部门,了解电力故障的原因,确定电力恢复的时间。
并立即通知各信息系统管理员。
2)关闭设备。
IT(网络、操作系统)工程师在UPS供电期内关闭所有服务器设备,防止断电造成损失。
3)通知用户。
系统管理员通知用户因电力故障服务中断,并告知用户恢复的大概时间。
通知的方式可以是电话、张贴通知、邮件等。
4)启动服务器。
在电力供应恢复正常后,IT(网络、操作系统)工程师按照手册启动设备,并通知各个应用管理员检查各自负责的应用系统是否已经正常启动。
如果应用管理员发现应用程序没有自动启动,应手工启动,并检查未自动启动的原因并修正。
5)填写《灾难恢复报告》。
流程图请见图2。
1.3通信故障
通信故障分为局域网和广域网两种情况,出现通信故障时联系表中的灾难恢复小组人员。
1)确定恢复时间。
系统管理员在明确通信故障后,若为广域网故障,立即联系通信部门,了解通信故障的原因,确定通信恢复的时间;若为局域网故障,确定故障原因和预计的恢复时间。
2)通知用户。
系统管理员通知用户恢复的大概时间。
通知的方式可以是电话、张贴通知、邮件等。
3)填写《灾难恢复报告》。
流程图请见图3。
1.4软硬件故障
这里的软件是外购的系统和应用软件,软硬件故障可能会造成业务停顿甚至瘫痪,造成软件故障的可能原因有:
病毒入侵、软件内部潜在缺陷等。
用户在发现软硬件故障后,立即通知信息中心系统管理员,详细操作步骤见IT使用及服务规定流程。
3.灾难恢复计划的测试
1.5测试过程说明
1)灾难恢复计划每年至少修订一次,修订后进行测试;在灾难恢复计划本身或应用环境发生重大变化之后需再测试一次。
测试尽量安排在对业务影响最少的时间段内。
2)测试中发现问题后,立即修正灾难恢复计划并经过审批后发布。
3)测试完成后,灾难恢复小组组长指派专人填写《灾难恢复测试记录单》。
1.6测试内容
1)桌面测试。
这是最简单的灾难恢复测试,持续时间短却很容易暴露问题。
灾难恢复小组组长召集所有小组成员,并向每人发放一份灾难恢复计划副本。
组长简单描述灾难情况后,开始讨论计划的每一步,并重点讨论各小组成员的职责。
讨论应当包括可能和不可能发生的情况,以及恢复事件发生的时间等。
通过这个过程检查恢复计划存在的问题。
2)联系方式有效性测试。
检查企业是否能够通过表上的电话号码,联系到小组的所有成员。
另外还应检查小组成员的位置是否发生了改变。
3)系统恢复操作有效性测试。
根据桌面测试的副本准备系统测试环境,从备份数据中恢复系统。
检查恢复系统的有效性,检查恢复所需的时间是否符合要求。
具体的操作请见各设备和系统的操作手册。
五、相关记录
“损失一览表”ITR0045
“灾难恢复测试记录单”ITR0046
“灾难恢复报告”ITR0047
六、流程图
图1
图2
图3
第三章附则
本流程由罕王集团信息中心负责制定、修订和补充,报总裁审阅审批后发布。
本流程自颁发之日起执行。