项目应急预案Word文件下载.docx
《项目应急预案Word文件下载.docx》由会员分享,可在线阅读,更多相关《项目应急预案Word文件下载.docx(9页珍藏版)》请在冰豆网上搜索。
应急响应的更新机制;
应急响应工作的考核。
业务系统应急响应计划须经相关管理部门批准,符合国家相应规定的特定要求。
1.1.2应急响应计划的培训
每年在一定时期应对员工进行应急响应计划的基本培训,使员工熟悉紧急响应的流程,明确各自的角色和责任。
在培训中应提供紧急响应事件案例进行讲解分析^p,提高处理问题的能力。
模拟紧急响应事件环境进行实际的演练,提高实际操作能力。
每当出现重大事件后或出现相应响应流程调整后立即进行培训。
1.1.2.1应急响应计划的测试
应周期性地测试应急响应计划。
出现应急计划的调整后立即进行相应测试。
1.1.2.2应急响应计划的执行
应严格按急响应计划进行事件处理。
对每一次执行过程和结果向有关部门报告。
1.1.2.3应急储备计划
应急储备是项目发起人为了应对项目范围或质量上可能发生的变更而持有的预备资金。
它可用来转移成本风险或进度风险。
如果项目因为员工不熟悉一些新技术而导致其偏离既定的轨道,那么项目发起人会从应急储备中提出额外的资金,来聘请公司外的咨询师,培训和指导项目人员采用新技术。
在本项目运维服务过程中,对项目组人员突出:
“防范为主,加强监控、总结经验、及时响应”意识教育,宣传普及运维应急保障技术服务知识,经常性地做好系统环境中突发事件的思想准备、预案准备、机制准备和工作准备,提高运维技术服务的综合保障水平。
加强对系统隐患的预警与监测,发现和防范重大信息系统突发性事件,及时采取有效的可控措施,迅速控制事件影响范围,力争将损失降到最低程度。
1.2应急事件故障的描述
1.2.1故障的分类
1.2.1.1网络故障
网络故障按网络故障的性质主要为物理故障、逻辑故障;
按照网络故障的对象主要分为线路故障、路由器故障和主机配置不当。
1.2.1.2主机及硬件故障
硬件故障主要包括主板故障、故障、内存故障、存储故障、网络模块故障、I/O故障等。
1.2.1.2.1故障处理预案
建议每个中心做一套备品备用机,以应对硬件设备故障后立即恢复使用1.2.1.3链路故障
链路故障包括传输介质故障、传输链路干扰等内容。
1.2.1.3.1故障处理预案
目前主业务系统设计为双链路,设有专线MPLS链路和备用的链路,专线故障自动切换到链路运行。
1.2.1.4系统软件故障
系统软件故障主要包括操作系统故障、并行文件系统故障、共享文件系统故障、数据库故障、分级存储管理软件故障、备份软件故障、大文件传输系统软件故障。
1.2.1.4.1故障处理预案
目前中心业务传输为本地z储设计系统设计为双链路,设有专线MPLS链路和备用的链路,专线故障自动切换到链路运行。
1.2.1.5应用系统故障
应用系统故障包括各应用系统产生的硬件、软件等故障。
1.2.1.5.1故障处理预案
应用系统搭建为双系统备份,发生故障会自动切换,并且有负载均衡做数据均衡,分摊到备份系统中处理数据。
1.2.1.6人为故障
人为故障主要包括网络硬件操作故障、系统软件操作故障、中间件操作故障、应用系统操作故障等。
1.2.1.6.1故障处理预案
24小时业务咨询和技术保障,协助前方排查认为故障并处理解决问题。
1.2.2故障的分级
结合预警分类惯例,故障划分为四个等级,严重程度由重到轻为:
1.2.2.1一级故障
因特别重大突发事件引发的,有可能造成数据传输大面积中断、系统崩溃等情况,以及需要系统保障应急准备的重大情况,属于一级故障,一级故障在本系统内可被认为灾难性故障。
例如因各种原因造成的数据同步丢失、系统崩溃、传输长时间中断、资料严重残缺,而且难以恢复,都可以被认为是灾难性故障。
1.2.2.2二级故障
因重大突发事件引起的,有可能造成系统运行异常、数据资料丢失等需要系统保障应急准备的情况,属于二级故障,二级故障在本系统内可以被认为紧急性故障,有很强的时效要求。
例如由于短时间内数据传输峰值过高导致各应用系统间无法完成数据传输而出现系统崩溃等需要及时派出的故障。
1.2.2.3三级故障
因较大突发事件引起的,有可能造成具体应用系统单点或多点运行故障,属于三级故障。
例如由于系统文件被误删导致系统运行不稳定等情况。
1.2.2.4四级故障
因一般事件引起的、影响比较轻微的故障,属于四级故障。
例如由于上报的监管数据长期格式不规范导致系统无法处理从而一直抛出异常,错误日志和无用数据积压等情况。
1.2.3项目故障事件列表
故障级别
故障分类一级故障二级故障三级故障四级故障网络故障网络设备通讯链路全部用户范围下网络中断中断时间大于10分钟全部用户范围下网络中断时间2~10分钟全部用户范围下网络中断中断时间小于2分钟部分用户范围下网络中断中断时间小于2分钟部分用户范围下网络中断时间大于10分钟部分用户范围下网络中断中断时间
2~10分钟硬件故障网络设备主机设备存储设备安全设备全部用户范围下设备断电或无响应中断时间大于10分钟全部用户范围下设备断电或无响应时间2分钟~10分钟全部用户范围下设备断电或无响应时间小于2分钟部分用户范围下设备断电或无响应时间小于2分钟部分用户范围下设备断电或无响应时间大于10分钟部分用户范围下设备断电或无响应时间2分钟~10分钟应用系统故障全部用户范围下应用系统中断时间大于10分钟全部用户范围下应用系统中断、无响应时间2~10分钟全部用户范围下应用系统中断、无响应时间小于2分钟部分用户范围下应用系统中断、无响应时间小于2分钟部分用户范围下应用系统中断、无响应时间大于10分钟部分用户范围下应用系统中断、无响应时间2~10分钟系统软件故障操作系统数据库中间件系统崩溃文件系统被破坏、业务数据丢失系统文件丢失系统日志报警项目故障事件列表
1.3针对本项目应急人员组织
应急预案的人员组织分工根据故障发生时的职责分为四类:
1、项目组领导在紧急告警发生时,对应急工作进行统一指挥和组织调配。
2、项目组相关人员包括本项目相关人员,在重要告警和轻度告警发生时负责对所辖范围内的应急工作进行统一指挥和组织调配;
在紧急告警发生时协助项目组领导进行应急指挥工
作。
3、一线运维驻场人员特指本项目日常运维人员,在故障发生时负责故障恢复,或协助应用系统软件集成商及软硬件原厂商进行故障恢复。
4、二线后备团队人员、应用系统软件承建商系统的提供方,对系统负有故障排查和故障恢复责任,在紧急告警、重要告警和轻度告警发生时负责故障恢复,在警示故障发生时负责配合运维人员的故障恢复工作。
在故障发生时,以上四类应急人员根据故障的等级承担不同的职责,如下表所示:
故障人员职责分配表(☆--指挥△--配合指挥&
radic;
--解决○--电话配合解决)
故障等级使用方项目领导使用方项目组相关人员一线运维驻场人员二线后备团队人员应用系统软件承建商软硬件原厂商紧急告警☆△&
&
重要告警
☆&
△/&
轻度告警
警示
&
1.4针对本项目应急响应处理流程
应急报告流程运维人员甲方项目组相关人员甲方项目组领导总集成商应用系统软件承建商软硬件原厂商发生故障判定故障等级统一指挥人员调配故障恢复结束统一指挥人员调配紧急告警重要告警轻度告警评估报告启动应急预案警示紧急告警重要告警轻度告警判定故障等级电话支持警示应急报告流程图
应急报告流程甬道图如上所示。
运维人员在系统发生故障时,首先对系统故障分级进行判定,并进行故障分级响应针对本项目应急处置。
1.5一级故障处理预案
1.5.1预案目的
本预案为针对本项目运维实施过程中紧急告警故障处理专项预案,其目的
主要是为了进一步规范处理方法和处理程序,提高对此类事件的反应速度。
1.5.2适用范围
本预案适用于针对系统运维实施过程中紧急告警故障情况下的应急响应工作。
本预案启动后,其他运维应急预案与本预案相冲突的,按照本预案执行。
法律、法规和规章另有规定的从其规定。
1.5.3启动条件
本预案的启动条件为:
发现针对系统运维实施过程中紧急告警故障现象时启动本预案。
1.5.4处理预案
(1)应急分级:
紧急告警
(2)响应时间要求:
一线运维驻场人员需要立即响应,如需要二线后备团队人员、应用系统软件承建商及软硬件原厂商到场支持,需在2小时内到达数据中心机房现场并解决问题。
(3)参与人员:
紧急告警响应,服务经理立即组织项目组成员组建事件处理小组,同时视情况协调使用方运维小组和使用方项目组相关领导的参与。
(4)汇报层次:
应首先汇报给服务经理,服务经理需要在第一时间汇报给使用方项目组领导,及本项目组技术负责人,整个事件响应由使用方项目组领导统一协调。
(5)调用资:
紧急告警响应需要在部局以及故障系统所属运维方博雅软件调动资,涉及到的所有技术和非技术部门都无条件参与。
以首先解决安全问题为原则,保障事件得到快速解决。
(6)事件处理过程:
1)判断是否存在网络故障及处置;
2)判断是否存在主机等硬件故障及处置;
3)判断主机故障及排除
4)判断是否是应用故障及排除;
1.6二级故障故障处理预案
1.6.1预案目的
本预案为针对系统运维实施过程中紧急告警故障处理专项预案,其目的主要是为了进一步规范处理方法和处理程序,提高对此类事件的反应速度。
1.6.2适用范围
1.6.3启动条件
1.6.4处理预案
重要告警
(2)响应时间要求:
重要告警需要立即响应,人员需在2小时内到机房现场解决问题。
应首先汇报给服务经理,服务经理需要在第一时间汇报给使用方项目组领导,整个事件响应由使用方项目组领导统一协调。
紧急告警响应需要在部局以及故障系统所属运维方博雅调动资,涉及到的所有技术和非技术部门都无条件参与。
(6)事件处理:
1)发布故障通知,通知重要用户故障情况;
2),启动相关应急预案,并配合排除故障;
3)配合验证故障排除情况;
4)故障排除后,取消故障通知,通知重要用户故障排除情况;
1.7三级故障故障处理预案
1.7.1预案目的
本预案为针对系统运维实施过程中紧急告警故障处理专项预案,其