项目应急预案.docx
《项目应急预案.docx》由会员分享,可在线阅读,更多相关《项目应急预案.docx(8页珍藏版)》请在冰豆网上搜索。
项目应急预案
项目应急预案
第11章
应急预案
1.1应急响应计划
应急计划是指一项已识别的风险事件发生时,项目团队将采用预先确定的措施。
例如:
管理项目团队知道,一个新的软件包不能及时发布,他们将不能将其用于他们的项目上,那么他们可能会有一个应急计划。
1.1.1应急响应计划的制定
应制定信息系统的应急响应计划,其中至少应该包括以下几个方面的内容:
应急响应的目标;应急响应所涉及的范围;应急响应工作组织架构;参与人员的角色和职责;应急响应的流程;应急响应的更新机制;应急响应工作的考核。
业务系统应急响应计划须经相关管理部门批准,符合国家相应规定的特定要求。
1.1.2应急响应计划的培训
每年在一定时期应对员工进行应急响应计划的基本培训,使员工熟悉紧急响应的流程,明确各自的角色和责任。
在培训中应提供紧急响应事件案例进行讲解分析,提高处理问题的能力。
模拟紧急响应事件环境进行实际的演练,提高实际操作能力。
每当出现重大事件后或出现相应响应流程调整后立即进行培训。
1.1.2.1应急响应计划的测试
应周期性地测试应急响应计划。
出现应急计划的调整后立即进行相应测试。
1.1.2.2应急响应计划的执行
应严格按急响应计划进行事件处理。
对每一次执行过程和结果向有关部门报告。
1.1.2.3应急储备计划
应急储备是项目发起人为了应对项目范围或质量上可能发生的变更而持有的预备资金。
它可用来转移成本风险或进度风险。
例如:
如果项目因为员工不熟悉一些新技术而导致其偏离既定的轨道,那么项目发起人会从应急储备中提出额外的资金,来聘请公司外的咨询师,培训和指导项目人员采用新技术。
在本项目运维服务过程中,对项目组人员突出:
“防范为主,加强监控、总结经验、及时响应”意识教育,宣传普及运维应急保障技术服务知识,经常性地做好系统环境中突发事件的思想准备、预案准备、机制准备和工作准备,提高运维技术服务的综合保障水平。
加强对系统隐患的预警与监测,发现和防范重大信息系统突发性事件,及时采取有效的可控措施,迅速控制事件影响范围,力争将损失降到最低程度。
1.2应急事件故障的描述
1.2.1故障的分类
1.2.1.1网络故障
网络故障按网络故障的性质主要为物理故障、逻辑故障;按照网络故障的对象主要分为线路故障、路由器故障和主机配置不当。
1.2.1.2主机及硬件故障
硬件故障主要包括主板故障、CPU故障、内存故障、存储故障、网络模块故障、I/O故障等。
1.2.1.2.1故障处理预案
建议每个中心做一套备品备用机,以应对硬件设备故障后立即恢复使用1.2.1.3链路故障
链路故障包括传输介质故障、传输链路干扰等内容。
1.2.1.3.1故障处理预案
目前主业务系统设计为双链路,设有专线MPLS链路和备用的VPN链路,专线故障自动切换到VPN链路运行。
1.2.1.4系统软件故障
系统软件故障主要包括操作系统故障、并行文件系统故障、共享文件系统故障、数据库故障、分级存储管理软件故障、备份软件故障、大文件传输系统软件故障。
1.2.1.4.1故障处理预案
目前中心业务传输为本地z储设计系统设计为双链路,设有专线MPLS链路和备用的VPN链路,专线故障自动切换到VPN链路运行。
1.2.1.5应用系统故障
应用系统故障包括各应用系统产生的硬件、软件等故障。
1.2.1.5.1故障处理预案
应用系统搭建为双系统备份,发生故障会自动切换,并且有负载均衡做数据均衡,分摊到备份系统中处理数据。
1.2.1.6人为故障
人为故障主要包括网络硬件操作故障、系统软件操作故障、中间件操作故障、应用系统操作故障等。
1.2.1.6.1故障处理预案
24小时业务咨询和技术保障,协助前方排查认为故障并处理解决问题。
1.2.2故障的分级
结合预警分类惯例,故障划分为四个等级,严重程度由重到轻为:
1.2.2.1一级故障
1.2.2.2二级故障
1.2.2.3三级故障
因较大突发事件引起的,有可能造成具体应用系统单点或多点运行故障,属于三级故障。
例如由于系统文件被误删导致系统运行不稳定等情况。
1.2.2.4四级故障
因一般事件引起的、影响比较轻微的故障,属于四级故障。
例如由于上报的监管数据长期格式不规范导致系统无法处理从而一直抛出异常,错误日志和无用数据积压等情况。
1.2.3项目故障事件列表
故障级别
故障分类一级故障二级故障三级故障四级故障网络故障网络设备通讯链路全部用户范围下网络中断中断时间大于10分钟全部用户范围下网络中断时间2~10分钟全部用户范围下网络中断中断时间小于2分钟部分用户范围下网络中断中断时间小于2分钟部分用户范围下网络中断时间大于10分钟部分用户范围下网络中断中断时间
2~10分钟硬件故障网络设备主机设备存储设备安全设备全部用户范围下设备断电或无响应中断时间大于10分钟全部用户范围下设备断电或无响应时间2分钟~10分钟全部用户范围下设备断电或无响应时间小于2分钟部分用户范围下设备断电或无响应时间小于2分钟部分用户范围下设备断电或无响应时间大于10分钟部分用户范围下设备断电或无响应时间2分钟~10分钟应用系统故障全部用户范围下应用系统中断时间大于10分钟全部用户范围下应用系统中断、无响应时间2~10分钟全部用户范围下应用系统中断、无响应时间小于2分钟部分用户范围下应用系统中断、无响应时间小于2分钟部分用户范围下应用系统中断、无响应时间大于10分钟部分用户范围下应用系统中断、无响应时间2~10分钟系统软件故障操作系统数据库中间件系统崩溃文件系统被破坏、业务数据丢失系统文件丢失系统日志报警项目故障事件列表
1.3针对本项目应急人员组织
应急预案的人员组织分工根据故障发生时的职责分为四类:
1、项目组领导在紧急告警发生时,对应急工作进行统一指挥和组织调配。
2、项目组相关人员包括本项目相关人员,在重要告警和轻度告警发生时负责对所辖范围内的应急工作进行统一指挥和组织调配;在紧急告警发生时协助项目组领导进行应急指挥工
作。
3、一线运维驻场人员特指本项目日常运维人员,在故障发生时负责故障恢复,或协助应用系统软件集成商及软硬件原厂商进行故障恢复。
4、二线后备团队人员、应用系统软件承建商系统的提供方,对系统负有故障排查和故障恢复责任,在紧急告警、重要告警和轻度告警发生时负责故障恢复,在警示故障发生时负责配合运维人员的故障恢复工作。
在故障发生时,以上四类应急人员根据故障的等级承担不同的职责,如下表所示:
故障等级使用方项目领导使用方项目组相关人员一线运维驻场人员二线后备团队人员应用系统软件承建商软硬件原厂商紧急告警☆△√√√√重要告警
☆√△/√√√轻度告警
☆√△/√√√警示
√√√√
1.4针对本项目应急响应处理流程
应急报告流程甬道图如上所示。
运维人员在系统发生故障时,首先对系统故障分级进行判定,并进行故障分级响应针对本项目应急处置。
1.5一级故障处理预案
1.5.1预案目的
本预案为针对本项目运维实施过程中紧急告警故障处理专项预案,其目的
主要是为了进一步规范处理方法和处理程序,提高对此类事件的反应速度。
1.5.2适用范围
本预案适用于针对系统运维实施过程中紧急告警故障情况下的应急响应工作。
本预案启动后,其他运维应急预案与本预案相冲突的,按照本预案执行。
法律、法规和规章另有规定的从其规定。
1.5.3启动条件
本预案的启动条件为:
发现针对系统运维实施过程中紧急告警故障现象时启动本预案。
1.5.4处理预案
(1)应急分级:
紧急告警
(2)响应时间要求:
一线运维驻场人员需要立即响应,如需要二线后备团队人员、应用系统软件承建商及软硬件原厂商到场支持,需在2小时内到达数据中心机房现场并解决问题。
(3)参与人员:
紧急告警响应,服务经理立即组织项目组成员组建事件处理小组,同时视情况协调使用方运维小组和使用方项目组相关领导的参与。
(4)汇报层次:
应首先汇报给服务经理,服务经理需要在第一时间汇报给使用方项目组领导,及本项目组技术负责人,整个事件响应由使用方项目组领导统一协调。
(5)调用资源:
紧急告警响应需要在部局以及故障系统所属运维方博雅软件调动资源,涉及到的所有技术和非技术部门都无条件参与。
以首先解决安全问题为原则,保障事件得到快速解决。
(6)事件处理过程:
1)判断是否存在网络故障及处置;2)判断是否存在主机等硬件故障及处置;3)判断主机故障及排除
4)判断是否是应用故障及排除;1.6二级故障故障处理预案
1.6.1预案目的
本预案为针对系统运维实施过程中紧急告警故障处理专项预案,其目的主要是为了进一步规范处理方法和处理程序,提高对此类事件的反应速度。
1.6.2适用范围
本预案适用于针对系统运维实施过程中紧急告警故障情况下的应急响应工作。
本预案启动后,其他运维应急预案与本预案相冲突的,按照本预案执行。
法律、法规和规章另有规定的从其规定。
1.6.3启动条件
本预案的启动条件为:
发现针对系统运维实施过程中紧急告警故障现象时启动本预案。
1.6.4处理预案
(1)应急分级:
重要告警
(2)响应时间要求:
重要告警需要立即响应,人员需在2小时内到机房现场解决问题。
(3)参与人员:
紧急告警响应,服务经理立即组织项目组成员组建事件处理小组,同时视情况协调使用方运维小组和使用方项目组相关领导的参与。
(4)汇报层次:
应首先汇报给服务经理,服务经理需要在第一时间汇报给使用方项目组领导,整个事件响应由使用方项目组领导统一协调。
(5)调用资源:
紧急告警响应需要在部局以及故障系统所属运维方博雅调动资源,涉及到的所有技术和非技术部门都无条件参与。
以首先解决安全问题为原则,保障事件得到快速解决。
(6)事件处理:
1)发布故障通知,通知重要用户故障情况;2),启动相关应急预案,并配合排除故障;3)配合验证故障排除情况;4)故障排除后,取消故障通知,通知重要用户故障排除情况;1.7三级故障故障处理预案
1.7.1预案目的
本预案为针对系统运维实施过程中紧急告警故障处理专项预案,其目的主要是为了进一步规范处理方法和处理程序,提高对此类事件的反应速度。
1.7.2适用范围
本预案适用于针对系统运维实施过程中紧急告警故障情况下的应急响应工作。
本预案启动后,其他运维应急预案与本预案相冲突的,按照本预案执行。
法律、法规和规章另有规定的从其规定。
1.7.3启动条件
本预案的启动条件为:
发现针对系统运维实施过程中紧急告警故障现象时启动本预案。
1.7.4处理预案
(1)应急分级:
轻度告警
(2)响应时间要求:
轻度告警需要及时响应,人员需在4内到场解决问题。
(3)参与人员:
轻度告警响应,项目小组组长立即组织项目进行处理,同时视情况告知项目经理协调部局应急工作小组和其他与事件相关的应急响应工作小组的参与。
(4)汇报层次:
轻度告警应首先汇报给应项目小组组长,其视情况汇报给项目经理及使用方项目组相关人员及部局运维方,整个事件响应由使用方项目
组人员统一协调。
(5)调用资源:
轻度告警响应需要在部局以及故障系统所属运维方博雅、相关应用系统运维方调动资源,由项目经理协调解决。
(6)事件处理:
1)发布故障通知,通知重要用户故障情况;2)通知相关资源提供方,进行配合故障排除;3)故障排除后,配合进行故障排除验证;4)故障排除后,取消故障通知,通知重要用户故障排除情况;1.8四级故障处理预案
应急分级:
警示警示属于日常运维服务范畴,事件处理应由项目组内部处理,或由项目组向相关运维方技术人员咨询,或由技术人员远程协助解决,并追查事件原因。
节点
解决故障通用流程
服务器检查电源指示灯是否正常(指示灯不亮表示没有通电;指示灯闪烁表示加电但服务器没有开机;指示灯长亮表示服务器处于启动状态;也可检查电源上的指示灯,AC灯标示电源线接通电源正常,DC指示灯表示电源正常)
检查服务器报警灯是否为点亮检查光通路诊断板或部件故障灯,判断故障部件检查服务器诊断log或错误代码检查操作系统错误log根据判断结果更换故障部件如有必要,可从备份恢复
节点
解决故障通用流程
磁盘存储检查电源指示灯是否正常(指示灯不亮表示没有通电;指示灯长亮表示存储处于启动状态;也可检查电源上的指示灯,AC灯标示电源线接通电源正常,DC指示灯表示电源正常)
检查磁盘阵列报警灯是否亮起检查磁盘故障灯是否亮起(橘黄色表示磁盘故障)
检查控制器指示灯是否正常(指示灯熄灭或橘黄色表示控制器故障)
检查控制器上的光纤模块指示灯(指示灯熄灭或橘黄色表示连接故障)
通过管理口检查磁盘阵列的配置和log磁带存储检查电源指示灯是否正常(指示灯不亮表示没有通电;指示灯长亮表示存储处于启动状态;也可检查电源上的指示灯,AC灯标示电源线接通电源正常,DC指示灯表示电源正常)
检查报警灯是否亮起检查驱动器上的光纤模块指示灯(指示灯熄灭或橘黄色表示连接故障)
通过前面板的菜单或管理接口登陆管理界面查看logSAN交换机检查电源指示灯是否正常(指示灯不亮表示没有通电;指示灯长亮表示交换机处于启动状态)
检查交换机上的光纤模块指示灯是否正常(熄灭及橘黄色表示模块或连接有问题)
通过交换机管理口登陆管理界面查看交换机log及zone配置网络交换机检查电源指示灯是否正常(指示灯不亮表示没有通电;指示灯长亮表示交换机处于启动状态)
节点
解决故障通用流程
检查交换机端口或光纤模块的指示灯(状态灯熄灭表示连接故障或光纤模块故障)
登陆管理界面检查交换机配置和log防火墙检查设备前、后面板状态指示灯的显示情况。
检查设备后面板所连接网线的状况。
正常登录,显示配置界面。
查看系统日志。
网络安全审计系统检查设备前、后面板状态指示灯的显示情况。
检查设备后面板所连接网线的状况。
正常登录,显示配置界面。
从网络审计数据中心看到引擎发过来的日志告警信息。
检查从硬件系统运行的稳定性日志看到实时日志上报Web应用防护系统检查设备前、后面板状态指示灯的显示情况。
检查设备后面板所连接网线的状况。
正常登录,显示配置界面。
查看系统日志。
设置安全策略数据库安全审计系统检查设备前、后面板状态指示灯的显示情况。
检查设备后面板所连接网线的状况。
正常登录,显示配置界面。
节点
解决故障通用流程
从数据库审计中心看到引擎发过来的日志告警信息。
检查从硬件系统运行的稳定性日志看到实时日志上报