太平人寿核心业务系统及太平人寿财务ERP系统灾难恢复流程暂行.docx
《太平人寿核心业务系统及太平人寿财务ERP系统灾难恢复流程暂行.docx》由会员分享,可在线阅读,更多相关《太平人寿核心业务系统及太平人寿财务ERP系统灾难恢复流程暂行.docx(26页珍藏版)》请在冰豆网上搜索。
太平人寿核心业务系统及太平人寿财务ERP系统灾难恢复流程暂行
太平人寿核心业务系统及太平人寿财务ERP系统灾难恢复流程(暂行)
第一章
灾难恢复总体流程图
整个灾难恢复的过程划分为四个阶段,并且各阶段的主要工作内容是不同的:
具体在灾难恢复关键阶段(前三个阶段:
警告/启动/恢复)涉及的总体流程如下所示:
第二章灾难警告阶段流程
2.1事件的分类
事件原因
事故现象
危险级别
响应对策
机房发生重大火灾、重大水灾、化学泄露、机房大面积断电、恐怖主义袭击、管道或者水道严重裂开、地震或者其他事件引起的楼宇倒塌、机房发生爆炸
Ø生产中心环境恶劣,人员无法进入
Ø生产中心已经出现重大人员伤亡,并容易引起更大伤亡
Ø生产中心已经倒塌或者毁灭,业务中断
明显的灾难事件
Ø遵照安保部门的指示,立即通知所有人员撤离现场。
Ø通知相关紧急服务机构(如医院、消防队、公安局)进行人员抢救与现场控制。
Ø通知太平人寿灾难管理组,报知集团领导组相关成员。
Ø立即报请灾难恢复领导组宣布灾难发生
Ø在太平人寿灾难恢复管理组人员不在的情况下,由现场最高职务人员负责指挥现场问题的解决。
主要设备断电、核心存储损坏、核心主机严重故障、网络中断、数据丢失、数据库程序严重错误、病毒攻击、黑客入侵
Ø故障范围大、涉及用户多、处理要求强烈、影响信息技术中心考核、影响数据安全、影响数据准确、关键客户反映;
Ø影响窗口单位(客服)正常业务受理并造成用户强烈感受、造成窗口单位大量用户投诉、影响用户业务使用并造成社会影响、影响用户数据准确并造成严重社会影响
严重事件
Ø值班人员或者其他人员发现问题后,依据故障处理流程通知相关人员并汇报问题发现的开始时间。
Ø相关人员接收到通知后立即到达现场或者远程登录进行故障解决,并通知灾难恢复经理。
Ø灾难恢复管理组监控问题解决进度,根据事情严重程度进行灾难判定与决策。
Ø如判定事件危险级别升级为灾难,报知集团领导组相关成员。
业务系统的服务器、数据库、系统软件、应用软件、网络环境等有错误信息,业务系统局部出现问题
Ø对系统运行有一定影响,但不影响主要业务处理
一般事件
Ø值班人员或者其他部门人员发现问题后,依据故障处理流程通知相关人员并汇报问题发现的开始时间,
Ø相关人员接收到通知后立即到达现场或者远程登录进行故障解决。
Ø如判定危险级别升级为严重事件,开始严重事件的相应流程。
2.2事件的升级
针对由IT故障引发的事件危险级别升级过程一般包括两个阶段,相应的处理决策过程概括如下:
1.危险级别升级处理第一阶段:
2.危险级别升级处理第二阶段:
第三章灾难切换启动阶段流程
3.1决策机构
以下人员依次具有宣布灾难发生并启动本灾难恢复计划的权力。
序号
姓名
职位
1
2
3
以上权力人在听取灾难恢复经理(灾难恢复现场指挥组)的汇报后,参考灾难恢复现场指挥组的建议,综合决策是否宣布灾难发生并启动灾难恢复计划。
3.2灾难切换决策原则及流程图
在灾难恢复管理组在评估决策时,建议原则如下:
Ø对于明显的灾难事件,可以直接宣布进行系统切换;
Ø对于严重事件,先进行故障定位。
●如果长时间内不能进行故障定位,进行灾难切换
Ø故障定位后,先估计本地应急方案和灾难切换所需的时间
●尽量采用本地应急方案来恢复业务
●考虑业务中断的影响、系统切换的风险程度比较权衡是否进行切换
●考虑灾备中心接管后是否存在相同的问题,如果存在则不切换
●如果本地应急方案所需的时间远大于RTO规定的时间,建议进行灾难切换
●如果本地应急方案所需的时间小于RTO规定的时间,应该采用本地应急恢复方案
●如果本地应急方案所需的时间超过RTO规定的时间不多,根据该时间段业务重要性的程度决定是否采取本地应急恢复方案
Ø具体决策流程图如下:
3.3灾备系统的优先级
在整个灾难恢复过程中,当多个灾备系统同时并发要求处理和恢复,却因为人力资源或其它限制无法进行的时候,可以参照系统恢复优先级对下列系统进行处理排序
恢复优先级排序
系统名称
1
核心业务系统
2
财务ERP系统
3.4灾难恢复现场指挥组行动流程
灾难恢复现场指挥组将执行以下任务,灾难恢复现场指挥组领导负有确保完成所有必需任务的最终责任。
。
快速参考
措施
日期/时间/签字
启动应急指挥中心
✓如果应急指挥中心尚未启动,则启动应急指挥中心,并将其作为恢复管理与控制的基地。
明确切换方向和范围
✓根据“附件一灾难评估报告”分析结果,确定将进行以下何种灾难切换(对于明显的需要进行全系统灾难切换的重大事故情形,直接确定进行全系统切换):
Ø生产中心至灾备中心全系统切换
Ø生产中心至灾备中心核心系统切换
Ø生产中心至灾备中心财务系统切换
启动其它小组
✓灾难恢复协调人确定相应灾难恢复管理组成员的详细联系方式。
✓灾难恢复经理确定将启动灾难恢复计划中的具体部分并联系各恢复小组组长),必要时指示安排人员直接到灾备中心开始进行切换工作。
获取灾难恢复计划
✓确保所有参与灾难恢复的人员拥有最新灾难恢复计划的副本。
与紧急服务部门取得联系
✓如果必要,确保灾难恢复协调人与生产中心的现场人员之间保持联系,并可接收来自紧急服务部门的更新信息。
管理员工问题
✓如果必要,确保对任何员工的伤亡和问题进行协调处理。
管理媒体/公共关系问题
✓如果媒体部门在现场,则要求灾难恢复经理与应急委员会下属的公共关系法律组取得联系,确保对媒体和公共关系问题进行统一管理。
并指示所有信息技术部门的员工,不要与媒体部门交谈。
管理生产中心的安全性
✓确保灾难恢复协调人与生产中心的现场人员之间保持联系以确保安全措施已就位。
安排抢救与恢复工作
✓如果必要,通过灾难恢复管理组联系厂商或其它抢救与恢复专家来确定计算机设备与数据介质的破坏情况
指定事件记录人员
✓指定人员记录恢复工作中的重大事件、故障、问题(该记录人员应不与此类事件、故障、问题有直接利害关系)。
安排灾难恢复管理组成员
✓确定是否已安排灾难恢复管理组及所属小组成员进行恢复工作,确保每一位灾难恢复管理组成员始终能进行联系并得到进度汇报;在适当时间召开灾难恢复管理组会议。
✓根据需要,灾难恢复经理或灾难恢复协调人通过高层要求专家和厂商加大支持力度。
通知负责人最新情况
✓将有关灾难恢复的的最新情况通知相关负责人。
3.5各恢复小组组长行动流程
以下任务由已经启动的各灾难恢复小组的组长执行,也可将以下任务委派给他人进行,但小组组长负有确保完成所有所需任务的最终责任。
快速参考
措施
日期/时间/签字
启动小组成员
✓当获得灾难恢复现场指挥组的指示开始进行恢复活动时,联系所属恢复小组成员,并根据需要指导他们进行切换工作;并与小组成员确定详细联系方式并保持持续联系。
获取灾难恢复计划
✓确保所有参与灾难恢复的人员拥有最新的灾难恢复计划副本。
✓确保具有所有涉及灾难恢复相关灾备设备的密码,并确保有效;获取方式:
Ø灾备中心密码管理员
Ø本组密码保管人员
必要时前往灾备中心
✓必要时前往灾备中心。
第四章灾难切换恢复阶段流程
4.1灾难恢复现场指挥组行动流程
灾难恢复现场指挥组具体负责灾难恢复的总体管理工作。
灾难恢复经理作为工作领导,也可将以下任务委派给他人进行,但灾难恢复经理负有确保完成所有所需任务的最终责任。
快速参考
措施
日期/时间/签字
指派事件记录人员
✓指派事件记录人员并指示他们使用“事件日志模板”对所有重要过程、问题和决策进行记录。
确定恢复任务
✓在灾难恢复指挥中心与灾难恢复管理组成员会面,以确定进行切换的整体任务安排。
✓确定灾难状态下的情况报告时间表(分别针对灾难恢复组织之内和之外),并通知所有相关的员工。
外部资源申请及业务部门沟通
✓向公司后勤支撑部门申请协调资源满足切换要求,包括协调协调车辆、紧急资源设备的采购。
在紧急情况下,可向灾难恢复领导组请求协助。
✓联系主要的业务负责人,通知他们有关的情况以及该情况对他们造成的影响;并进行沟通确定定期汇报时间
启动切换流程
✓按照灾难恢复领导组确定的切换方向和范围,启动相应切换流程。
任务协调及联络
✓作为各恢复小组的总控中心及联络人,确保各恢复小组可以专心执行切换任务,并对切换过程中的重大问题进行协调解决
定期通告切换状态
✓定期召开各恢复小组会议通告灾难切换的状况和活动(按照在最初小组会议期间确立的方法和时间)。
✓向业务负责人定期通告灾难切换的状况。
监督任务列表的完成
✓监督分配的切换任务的完成情况,并从灾难恢复管理组各成员获取正常的状况报告,并在适当的时候将状况传达所有灾难恢复管理组成员。
向负责人进行阶段性汇报
✓将灾难切换的状况报告给灾难恢复领导组。
✓在适当的时候将灾难切换的状况传达给公司其他的主要负责人及业务负责人。
4.2用户服务响应组行动流程
组长负有确保完成所有所需任务的最终责任。
快速参考
措施
日期/时间/签字
指派事件记录人员
✓从可以工作的员工中指派事件记录人员并指示他们使用“事件日志模板”对所有重要过程、问题和决策进行记录。
确定恢复任务与优先级
✓听取灾难恢复现场指挥组对的本小组任务的任务安排,并验证在当前情况下需要完成的相关任务,确认并同意完成任务的优先级。
✓从灾难恢复现场指挥组获知灾难响应方式,并确认通过何种方式及回答应对最终用户的故障询问。
✓协助发布对外灾难事件报告。
安排人员与现场支持
✓安排相应支持人员进行灾难恢复的支持工作,并制定传达统一的用户故障询问应对方案。
✓根据实际情况,决定是否安排相关支持人员到灾备中心。
恢复过程中提供持续的支持
✓处理灾难恢复过程中与用户的联络,解答用户的疑问,对于一般性问题直接提供帮助解决。
✓听取用户的需求并反馈到相关的灾难恢复组(由本组组长直接反馈到各恢复组组长,或通过灾难恢复协调人)。
恢复后帮助业务应用的验证
✓配合各灾难恢复组帮助用户确认恢复后的业务系统的数据和功能的正确性。
恢复后的用户后续支持
✓灾备业务系统在灾备中心恢复运行后,对最终用户的问题进行响应和处理。
4.3通讯网络恢复组行动流程
快速参考
措施
日期/时间/签字
指派事件记录人员
✓从可以工作的员工中指派事件记录人员并指示他们使用“事件日志模板”对所有重要过程、问题和决策进行记录。
确定恢复任务与优先级
✓对本小组任务列表进行检查,并验证在当前情况下需要完成的相关任务,确认并同意完成任务的优先级。
并指派具体人员负责完成通讯网络恢复部分的各种任务。
安排人员与现场支持
✓安排员工对正在进行的切换工作提供技术支持,如果需要更多支持力量,则按照“《制度手册》4.5节外部支持联系表”联系其他设备厂商和集成商人员。
根据本流程安排相关的现场支持。
✓根据实际情况,决定是否安排相关技术人员到灾备中心。
确定地点准备情况与执行员工的准备情况
✓确保灾备中心已经做好切换的准备,相关的执行人员已经处于待命状态,并且相关操作的流程与相关手册已经准备就绪。
执行切换,监控进程并汇报状况
✓执行具体切换流程。
✓监控所有切换任务的进程,并定期向灾难恢复现场指挥组汇报任务进展状况。
4.4系统和数据库恢复组行动流程
快速参考
措施
日期/时间/签字
指派事件记录人员
✓从可以工作的员工中指派事件记录人员并指示他们使用“事件日志模板”对所有重要过程、问题和决策进行记录。
确定恢复任务与优先级
✓对本小组任务列表进行检查,并验证在当前情况下需要完成的相关任务,确认并同意完成任务的优先级。
并指派具体人员负责完成系统和数据库恢复部分的各种任务。
✓必要时与应用恢复组组长协商交互配合工作。
安排人员与现场支持
✓安排员工对正在进行的切换工作提供技术支持,如果需要更多支持力量,联系其他设备厂商和集成商人员。
根据相应流程安排相关的现场支持。
✓根据实际情况,决定是否安排相关技术人员到灾备中心。
确定地点准备情况与执行员工的准备情况
✓确保灾备中心已经做好切换的准备,相关的执行人员已经处于待命状态,并且相关操作的流程与手册已经准备就绪。
执行切换,监控进程并汇报状况
✓执行具体切换流程。
✓监控所有切换任务的进程,并定期向灾难恢复现场指挥组汇报任务进展状况。
4.5应用恢复组行动流程
快速参考
措施
日期/时间/签字
指派事件记录人员
✓从可以工作的员工中指派事件记录人员并指示他们使用“事件日志模板”对所有重要过程、问题和决策进行记录。
确定恢复任务与优先级
✓对本小组任务列表进行检查,并验证在当前情况下需要完成的相关任务,确认并同意完成任务的优先级。
并指派具体人员负责完成应用恢复部分的各种任务。
✓必要时与系统和数据库恢复组组长协商交互配合工作。
安排人员与现场支持
✓安排员工对正在进行的切换工作提供技术支持,如果需要更多支持力量,联系其他设备厂商和集成商人员。
安排相关的现场支持。
✓根据实际情况,决定是否安排相关技术人员到灾备中心。
确定地点准备情况与执行员工的准备情况
✓确保灾备中心已经做好切换的准备,相关的执行人员已经处于待命状态,并且相关操作的流程与手册已经准备就绪。
执行切换,监控进程并汇报状况
✓执行具体切换流程。
✓监控所有切换任务的进程,并定期向灾难恢复现场指挥组汇报任务进展状况。
4.6后勤组行动流程
快速参考
措施
日期/时间/签字
指派事件记录人员
✓从可以工作的员工中指派事件记录人员并指示他们使用“事件日志模板”对所有重要过程、问题和决策进行记录。
确定恢复任务与优先级
✓听取灾难恢复现场指挥组对的本小组任务的任务安排,并验证在当前情况下需要完成的相关任务,确认并同意完成任务的优先级。
恢复过程中提供持续的后勤支持
✓提供灾难恢复所需要的资源和后勤支持。
包括:
Ø耗用品维护
Ø物流支持
Ø交通运输及住所安排
Ø准备采购申请
Ø其他后勤事项
✓必要时与公司其它部门沟通以获得所需的资源。
✓收集评估灾难破坏的证据,并作为将来进行保险索赔的证据。
汇报状况
✓根据工作任务的进展状况不定期向灾难恢复现场指挥组汇报。
第五章灾难回切阶段流程
灾难恢复的回切阶段,是当灾备系统经切换在灾备中心正常运行,而原生产中心经过修复、可以提供生产系统运行的必要环境和要求后,将业务系统从灾备中心回切到生产中心的过程。
需要回切的系统有:
一、核心业务系统回切
二、财务ERP系统回切
根据灾备系统的规划和建设,回切对应切换,包括的具体流程如下:
一、灾难恢复管理小组通知相关灾难恢复小组进行切换前检查和评估。
二、停止灾备中心系统应用,进行回切。
三、待系统的切换完成后,可以分别启动生产系统的数据库及应用。
四、待系统都启动完毕,并分别内部测试正常后,开始生产系统与外部接口的调整工作。
五、进行业务测试验证数据准确。
六、通知相关业务部门系统回切完成。
七、系统回切完成后,经灾难恢复管理小组批准同意后,确认灾备中心系统数据可覆盖后,同步生产中心系统数据到灾备中心,保证灾备中心的数据和生产中心一致。
回切阶段完成后,相应系统恢复到生产中心正常运行,进入正常的运维阶段。
灾难恢复的整个阶段完成。
附一:
灾难评估报告模板
●发生灾难的中心是:
o太平保险集团上海数据中心o太平保险集团深圳数据中心
●灾难场景简要描述
o火灾o超长时间停电o大规模断网o设备故障
o其他(请描述)__________________________
●何时检测到破坏情况?
______________________________________________________________________
●何人检测到破坏情况?
______________________________________________________________________
●是否有人员伤亡或人员失踪?
o无
o有
数量
情况
●如果有必要,是否已经通知消防队和公安局等政府紧急服务部门?
o否
o是,通知:
日期/时间:
●机房本身是否受损?
o是o否
机房破坏情况描述(如煤气或水泄漏、烟雾或其他污染物、损坏范围):
●是否可以进入机房大楼?
o是o否
机房/办公区域恢复进出大约需要多长时间?
(最大可能性,可询问现场紧急服务部门)
●哪些系统和设备遭到破坏?
o太平人寿核心业务系统遭到破坏
o太平人寿财务系统遭到破坏
系统名称
设备名称
设备功能
位置
太平人寿核心业务系统
太平人寿财务系统
●受到影响的业务系统的预估中断时间?
o太平人寿核心业务系统预计停顿______小时
o太平人寿财务系统预计停顿______小时
●就以上情况是否建议进行灾难切换?
o是o否
●灾难切换方向为
o生产中心切换到灾备中心
●灾难切换范围为
o太平人寿核心业务系统
o太平人寿财务系统
姓名/签字
日期
附二:
灾难声明的必要内容
当灾难管理恢复组织通过评估确定某事故为灾难,决定启动灾难恢复,就需要对公司内部员工和外部媒体发表灾难声明。
该灾难声明一般由灾难恢复领导组指定相关部门及相关发言人进行。
以下是针对企业员工的灾难声明应包括的内容:
Ø通知企业员工位于本地信息系统数据中心发生故障或中断,将要启动DRP。
Ø如果生产中心无法开展工作,则必须告知员工新的上班地点,包括详细的地址和工作时间。
Ø确定紧急联系热线号码,通知员工在需要时可就各种问题向此热线进行咨询。
以下是针对媒体进行灾难声明应包括的内容:
Ø声明生产中心或其周围由于发生故障而导致运作中断,公司相关部门正在评估损失的范围和原因,进一步的具体消息将尽快地通知。
Ø如果已确认有员工因发生的故障造成人身伤害,那么则声明已经通知了其家属。
否则,则声明尚未确认是否有人受伤。
Ø任何公布于媒体的信息都应说明可以从公司公共关系部门的经理或发言人处得到进一步具体消息。
以下是针对灾难恢复中心和其它恢复团队、支持伙伴进行灾难声明应包括的内容:
Ø对于危险级别一的事件,仅通告灾难恢复中心和各灾难恢复组织,不需要启动任何计划。
Ø对于危险级别二的事件,通告灾难恢复中心和各灾难恢复组织,要求待命,不需要启动任何计划。
Ø对于危险级别三的事件,通告灾难恢复中心和各灾难恢复组织,要求全体就位,DRP即将被启动。
灾难声明必须准备的其它内容:
Ø灾难恢复管理组提交的问题的初始分析报告。
Ø灾难恢复管理组提交的损失分析报告。
Ø要求非工作时间仍需在岗的员工名单。
Ø明确恢复工作将在何时何地展开。
Ø明确员工或其家属的任何疑问应该由何部门的负责人进行统一解答。
Ø明确仍然在工作当中的员工的名单和相关信息。
Ø如果声明时不能提供较详细的灾难情况,则说明何时可以提供。