联通应急保障预案Word格式文档下载.docx
《联通应急保障预案Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《联通应急保障预案Word格式文档下载.docx(22页珍藏版)》请在冰豆网上搜索。
亚信:
一.1.2组织成员
姓名
单位
角色
联系方式
包括运维部门,维保单位,系统厂商
角色分为应急响应责任人,现场责任人,各系统负责人,值班人员。
关键岗位设置A,B角。
同一人员可以兼任不同角色。
信息化事业部
应急响应责任人A角
应急响应责任人B角
客户响应与业务支撑处
现场责任人A角、
基础设施维护处
现场责任人B角
客户响应与业务支撑处(A角)
客户响应与业务支撑处(B角)
网络系统维护负责人
主机、pc服务器维护负责人
数据库维护负责人
亚信公司
厂商(维保单位)负责人、厂商现场责任人(A角)
厂商(维保单位)负责人、厂商现场责任人(B角)
一.1.3分工职责
应急响应责任人
职责
统筹协调应急响应工作,包括授权应急预案的启动并通报业务部门,作为唯一接口向上级部门通报事件进展,决策采取的措施,资源的调动。
现场责任人
负责将故障通报给应急响应负责人,并通报可能出现的问题以及可能需要处理的时间,便于应急响应负责人决定是否启动应急预案;
负责现场应急预案实施;
负责与客服等其他部门联系,保证应急预案实施。
系统负责人
负责各系统应急预案具体操作;
负责问题及时处理。
值班人员
负责将问题及时通报到各系统维护人员,同时尽量详细了解系统问题的影响度。
维保服务商
协助联通工程师完成应急预案执行和操作。
系统厂商
一.1.4组织变更
应急保障组织成员及单位应对组织成员的更新情况及时通报给应急响应责任人,包括人员替换,联系方式变更,维保关系变更等,保障应急响应组织的有效性。
一.2应急响应方针
一.2.1应急响应的目标
XX省联通CRM系统是面向中国联通用户服务的重要客户信息系统,除承担客户咨询、投诉、业务办理、故障申告之外,还承担了电话营销、客户回访、满意度调查等工作。
为保证系统运行的可靠性和连续性,需建立健全的突发事件紧急应变和快速响应机制,以有效预防、及时控制遭遇突发事件的发生,形成科学、有效、反应迅速的应急工作机制,保证CRM系统的实体安全、运行安全和数据安全,最大限度地为一线提供服务,减少对用户影响,特制定本预案。
将恢复业务作为第一要务,分析问题根本原因可以滞后。
在必要情况下,可以考虑采取方法优先恢复部分关键业务,甚至可以考虑承受给其他业务带来部分影响
此外,新系统上线可能会在网系统业务和用户产生一定影响,因此在系统正式上线前,工程部门需要提供应急预案更新。
另外,为提高信息化管理部门对突发重大CRM系统问题的预防和处置能力,从组织,流程,技术,资源上保障业务系统在最短时间内恢复,提高其他部门和用户对信息化事业部的满意度。
一.2.2应急响应的原则
在必要情况下,可以考虑采取方法优先恢复部分关键业务,甚至可以考虑承受给其他业务带来部分影响。
一.2.3应急响应的范围
本应急预案的对象包括与CRM系统相关的网络,主机,应用系统,数据库,中间件等。
。
一.2.4编制依据
本应急预案是根据《中国联通信息化系统重大事件应急处理办法(试行)》及CRM目前现状制定。
一.3应急预案版本管理
【应急预案会由于组织结构,业务系统变更,流程变更而发生改变,最好建立相应的版本管理制度,对变更的预案进行持续管理。
】
本应急预案于每年3月份进行定期评审,评审委员会由应急预案小组成员组成。
根据联通企业战略变化,组织结构调整,业务系统更新,管理流程调整,服务关系变更对业务风险,应急预案重新评估修订,以保障预案的有效性。
除定期评审外,如果在日常应急响应中发现预案本身存在重大问题,或关键环节发生重大变更,可以由应急响应责任人组织进行不定期评审,临时对预案进行修订,以及时修订预案中的重大问题。
应急预案的版本以修订时间进行编号,例如《XX省联通CRM系统应急预案2016.1》。
版本
撰写时间
作者
修订
《XX省联通应急保障预案(CRM系统)2016.1》
在<
XX省联通应急保障预案(CRM系统)2015.1>
基础上修订。
一.4风险分析与应急保障措施
信息系统风险评估是制定应急保障措施与应急保障工作流程的基础,只有在对各类风险有了充分认识的情况下,才能确保业务的持续运行。
鉴于信息系统面临风险的复杂性和多样性,无需对所有风险进行评估。
应急预案中的风险是指对信息系统的正常运行、信息系统的业务提供能力等产生重大影响的因素,包括国家相关部门下达的紧急重要任务、重大公共活动引起的业务量突然大量增加或者一些不明原因引起的重大事件、故障等。
1.4.1应用方面
【风险分析】
1、当CRM数据库重大故障的时候,启动紧急处理
2、由客服及相关人员通知的重大故障或者半小时内有10个以上相同内容投诉可启动重大投诉/故障流程
3、重大故障发现后,如果5分钟内不能解决,值班人员应立即报告支撑中心对应人员、CRM客响项目负责人,问题升级,判断是否需要需要启动紧急流程。
并根据故障严重级别,决定是否需要通知部门领导;
同时把情况记入当班的值班日志中。
4、重大故障发生时,如果出现用户无法通话或者无法使用业务的情况,判断是CRM系统问题时,经过相关人员批准后,可以紧急启用流程机制
应用级别应急方案一:
CRM程序异常
1、应用范围
CRMWEB应用程序部署于p520int3、4主机;
p570web1、2、3、4主机;
p550dmz1、2、3、4主机;
中间件部署p550app1、2;
主机及p595int1、2、3、4;
X220AIP1、2、3、4;
p550uip1、2;
p570NC1、2;
其业务包括包括分CRM1、CRM2、CRM3、代理商、空厅、ESS、一卡充、网厅,指令、AIP等CRM全部业务流程。
2、检查方法
方式有三种:
通过系统命令在后台检查目标程序与程序日志,检查运行情况
通过系统命令在后台调用监控脚本,检查目标进程运行情况
通过监控前台在相应监控界面中检查运行情况
3、程序异常应急处理
通过检查发现程序异常后,可以对目标程序进行应急停止
方式有二种:
通过系统命令在后台根据进程号,停止目标程序
通过系统命令在后台调用监控脚本,停止目标程序
目标程序停止后,可以进行重启
通过系统命令在后台根据进程号调用相应脚本启动程序,并观察日志,判断是否正常运行
通过系统命令在后台调用监控脚本,启动目标程序,并观察日志,判断是否正常运行
4、适用场景:
此方案可对CRM程序异常使用
【应对措施】
紧急故障问题通知联通信息化局方及亚信相关人员时,必须随叫随到,快速赶到现场解决问题。
1.4.2数据库
采集系统ORACLE数据库采用11GRAC模式,单边宕机不会影响业务访问数据库。
严重故障视情况采用相应数据及应用备份进行恢复,故障通报流程同应用程序故障上报。
通过远程或后台登录方式,以系统命令查看P780CRM1/2主机上的数据库是否正常。
1.4.3主机环境
CRM系统除idserver、UAA(p550app1/2,p520int3/4)通过主机高可靠性配置HACMP保障切换IP,其余应用部署主机均通过四层交换配置保障高可靠性,单台主机故障不会对应用带来影响。
通过远程或后台登录方式,以系统命令查看p550app1或者p520int3主机上的ip是否对应切换到p550app2或者p520int4主机上,核查系统HA成功切换资源组的切换日志。
并且重启应用程序。
一.5应急保障工作流程
【根据应急保障工作步骤,给出相应的流程图,并对流程中的角色及每个工作环节进行详细说明。
应急保障工作流程说明:
流程
内容
1、值班人员发现问题或收到相关故障电话。
2、系统出现问题暂时无法立刻修复。
3、系统负责人对故障进行判断,确定该故障是否1小时内无法修复。
1.系统负责人联系应急预案响应责任人,完成故障通报,并确认是否启动应急预案。
2.现场责任人立即与系统责任人联系,做好应急预案启动准备。
3.收到应急预案启动信息后,立即开始启动应急预案。
4.将对用户影响降到最低。
8.系统负责人负责故障处理。
9.值班人员负责业务紧密监控
4.故障处理完成后,现场责任人通知故障响应负责人,要求取消应急预案。
5.撤出人员设备
6.恢复性割接
7.提取网络的话务、接通率等指标,分析是否正常
8.对系统进行测试,确实业务正常。
14.对应急预案总结,如果出现问题,需要对问题进行分析,同时完善应急预案。
一.6应急演练
【为检验预案的有效性,同时使相关人员了解运行维护预案的目标和内容,熟悉应急响应的操作规程,应进行应急演练。
预案包含演练计划,整个应急响应过程和详细的演练脚本,报告。
参照附件中的演练报告。
为检验应急预案的有效性,并使相关人员熟悉应急预案的操作规程和方案,发现存在的问题,定于每年9月进行应急预案演练。
依据风险评估中的风险要素抽取2项,制定演练脚本进行模拟演练。
如果演练会影响业务,可以进行虚拟推演。
对整个演练过程应形成记录报告,以总结发现其中的问题并加以改进。
参考附录中的应急演练脚本和报告。
第一章专有名词定义:
A/B角:
A角对某项工作主要负责,B角应主动熟悉并协助做好该项工作,当A角出差或其他原因不能承担完成该项工作时,由B角接替完成该项工作,并切实负起责任。
A、B两个责任人不得同时外出。
第二章监测与预警
二.1日常监测与预警
1.应用支撑系统监控
A、单点登陆、CRM1、CRM2、CRM3、IOM系统
B、代理商支持系统、资料扫描系统
C、接口应用监控:
能力开放平台、联机指令、安讯接口、ESS接口、ECS接口、一卡充接口、客服接口、电子渠道、短信接口等等
2.预警措施
CRM系统维护人员和客户响应与业务支撑每天早上对系统进行巡检,并且一旦有程序和服务down掉会马上有短信告警发到运维人员手机上,使问题最先通知到各个相关人员。
另外,CRM系统维护提供24小时值班电话,接收各部门投诉及问题受理。
如图1、应用和关键进程告警,如果进程发生异常,下列界面将会有内容显示
如图2、系统表数据阀值告警,如果有异常,下列界面将会有内容显示
CRM系统架构中的关键系统分别通过以下监控工具进行日常监测与预警:
监测对象
检测工具
监测项
时间间隔
预警阀值
负责人
数据库
系统监控程序/人工
所有数