计算机机房应急预案Word下载.docx
《计算机机房应急预案Word下载.docx》由会员分享,可在线阅读,更多相关《计算机机房应急预案Word下载.docx(22页珍藏版)》请在冰豆网上搜索。
1.2应急预案存放
1)电子版本
本应急预案电子版存放于单位共享服务器及所有项目组成员工作电脑中。
2)纸质版本
本应急预案纸质文档存放于机房缓冲区桌面、运维人员办公室。
1.3编制依据
本应急预案编制依据《单位安全管理规定》编写。
1.4技术资料
序号
资料名称
存放地点
获取方式
1
UPS使用手册
机房缓冲区桌面
进入机房获取
2
机房专用空调操作维护指南
3
消防使用手册
2适用范围及启动条件
1)地域范围:
本预案适用于本单位机房及网络运行中发生故障时使用。
2)人员范围:
本预案在执行中涉及的人员包括机房、网络运维人员,相关主管领导,大楼安保人员以及机房内各应用系统负责人等。
3)启动条件
机房、网络运行中出现的一般性突发事件和重大突发事件。
一般性突发事件:
是指机房、网络突发故障,将影响机房提供正常服务及网络服务的能力且预计修复时间大于30分钟,此时应立即启动应急预案,主要包括:
1)市电中断和UPS故障引起的电力供应中断。
2)机房空调冷凝水或上下水管道漏水。
3)机房温度超过30℃。
4)网络故障影响用户范围超过20%,预计修复时间在2小时以内。
重大突发事件:
是指一般性突发事件在特定的时间内无法修复或发生特殊事件时,严重影响机房提供正常服务及网络服务的能力,而且修复时间大于2小时,此时除了立即启动应急预案外还应升级为重大事件,其中包括但不限定于以下分类:
1)机房出现火灾。
2)市电中断和UPS故障引起的电力供应中断。
3)机房温度超过40℃。
4)网络故障造成全网中断,预计修复时间超过2小时。
3应急组织和职责
计算机机房应急组名单如下:
表1应急小组名单
部门/岗位
职责
姓名
联系方式
单位领导
重大应急决策指挥
部门主任
应急决策指挥
应急小组组长
负责评估应急事件并协调处理
应急预案操作岗
启动应急预案并实施
4应急响应流程
4.1应急事件响应
1、发生突发事件时,经过电话或当面通知应急小组组长报告情况。
2、必要时第一时间启动应急预案。
3、应急小组组长根据实际情况启动应急预案,参照应急恢复步骤组织协调相关人员进行应急处理。
4、电话通知机房内生产业务系统管理员做相应的应急措施。
5、应急小组组长根据情况判定是否需要将事件升级为重大事件。
6、事件处理完毕后,应急小组组长将事件处理详细经过形成书面报告,上报部门主任和单位领导。
4.2应急事件升级
在应急小组组长认定突发事件升级为重大事件时,应按以下步骤操作:
1、立即通知部门主任。
2、通知机房内生产业务系统管理员事件升级为严重,参照应急恢复步骤做相应的应急措施。
3、根据应急决策领导的决策指令处理故障。
4、事件处理完毕后,应急小组组长将事件处理详细经过形成书面报告,上报部门主任和单位领导。
5应急执行流程
5.1影响程度的评估
表2影响程度评估表
故障类型
影响程度及范围
一般性突发事件
重大突发事件
市电中断和UPS故障引起的电力供应中断。
影响程度大,修复时间大于30分钟,小于2小时的电力供应中断,影响范围为机房内所有设备及系统。
影响程度为重大,修复时间2小时以上的电力供应中断,影响范围为机房内所有设备及系统。
机房漏水
影响程度一般,机房出现小摊积水,修复时间大于30分钟,小于2小时的机房漏水,影响范围为机房内所有设备及系统。
影响程度重大,机房出现大面积漏水,或者漏水修复时间2小时以上的机房漏水,影响范围为机房内所有设备及系统。
机房温度过高
影响程度大,机房温度超过30度,修复时间大于30分钟,小于2小时的,影响范围为机房内所有设备及系统。
影响程度重大,机房温度超过40度,修复时间2小时以上的空调故障,影响范围为机房内所有设备及系统。
4
网络系统故障
影响程度大,修复时间大于30分钟,小于2小时的网络系统故障,影响范围为生产业务系统及影响用户范围超过20%。
影响程度重大,修复时间2小时以上的网络系统故障,影响范围为生产业务系统及影响用户范围超过20%。
5
机房火灾
-
影响程度重大,影响范围为机房内所有设备、系统及用户。
5.2宣告启动应急
应急小组组长宣告启动应急预案,并通知应急预案操作岗所有成员参与预案的执行。
重大事件时要向部门主任、单位领导汇报。
5.3应急恢复
突发事件发生后,应急组长根据不同的启动条件执行应急预案进行应急恢复。
表3应急恢复步骤
启动条件
恢复步骤
操作人员
备注
市电中断
见步骤6.1
应急小组组长、应急预案操作人员
UPS故障
见步骤6.2
见步骤6.3
见步骤6.4
空调故障
见步骤6.5
6
见步骤6.6
5.4事后处理
事后仔细分析事件发生的原因,查找引起事件发生的根本原因,力争杜绝类似问题的再次发生;
总结每次应急处理的经验与不足,及时进行总结记录,作为知识储备,进行共享;
重大事件处理完毕时,要向部门主任、单位领导及时汇报整个事件的处理过程,并提出预防措施建议。
5.5应急注意事项
为了在突发事件发生时,能够及时顺畅地执行预案,应保证以下几点:
⏹平时多做应急演练,对应急小组的组织和预案执行力进行检验和加强。
⏹熟读应急预案,责任分工明确,应急流程掌握熟练。
⏹加强技术能力和业务能力。
⏹通讯保持畅通,应急小组的人员要保持24小时手机开机。
⏹处理应急突发事件时要认真做好应急处理记录,有利于进行问题回溯。
6应急恢复步骤
6.1强电系统故障
6.1.1市电中断
1)当发生市电中断或同时收到UPS输入、电量仪、空调及数据库读取异常等告警短信,立即到机房检查UPS工作状态。
非工作时间发生电力中断时,电话联系保安人员进入机房确认是否停电,同时联系附近的紧急联系人协助处理,并直接跳到第三步。
紧急联系人
联系电话
备注(住所)
2)检查UPS的负载量及电池能够支持的时间:
步骤:
双击UPS控制面板“ESC”按键,点击“
”键,找到相关信息,查看电池负载;
在“电池参数显示”处,查看备用时间确认UPS供电剩余时间。
(具体详情可参照附录三:
《UPS操作说明》进行操作。
图1UPS控制面板
3)立即拨打物业电话,询问断电原因及断电预计恢复时间,同时通知应急小组组长。
(如电话无人接听,立即拨打物业人员手机询问具体情况,物业人员详细联系方式可参照附表三:
《联系人信息表》进行查询)
4)当发生单路供电中断时,应立即通知物业切换至另一路供电,观察UPS状态是否供电正常,等待第一路供电恢复切回。
5)如物业通知无法切换电路且30分钟内无法恢复供电,应立即按照附表五:
《机房服务器联系人信息表》的清单顺序通知各生产业务系统管理员进行系统备份并关闭系统。
同时维护项目组关闭机房内负责的所有设备。
6)向部门主任及单位领导汇报当前情况。
7)确认所有服务器关闭后,直接手动拉下配电柜01后面A4、A5、A6、B2、B5、C3机柜输出开关,关闭网络设备。
8)当机房温度超过40度时,为确保机房内服务器安全,经单位领导许可,维护组人员按顺序直接拉下位于配电柜01后面所有机柜输出开关,关闭机房内所有设备。
图2配电柜01
9)待市电恢复供电后,打开网络机柜对应的输出开关,启动网络设备。
10)按附表五中的清单分批次对系统服务器加电,通知相关人员进行测试,并要求相关人员电话回复系统测试结果。
11)如UPS故障造成的电力供应中断,手动重启UPS,查看UPS故障是否解除并恢复正常。
(在UPS显示屏上点击“开机”,查看UPS是否正常启动)
12)如UPS故障依旧,立即通知各生产业务系统切换备份系统。
13)向部门主任和单位领导汇报当前情况,并联系厂商对UPS进行检修。
14)待所有系统恢复正常后,提交处理报告,上报部门主任和单位领导。
6.1.2市电中断流程图
图3强电系统故障处理流程图
6.2UPS故障
6.2.1UPS电池漏液、冒烟
1)发生机房电池漏液、冒烟或监控组人员发现机房电池柜冒烟,立即到机房查看电池状态。
(电池柜位于储藏室内部)
图4机房电池柜
2)如发现是电池漏液、冒烟导致,应按照下列处理方法操作。
并密切观察UPS工作状态。
3)关闭电池供电时,先将机房手提式干冰灭火器放置电池柜附近。
4)打开两组电池柜,手动关闭电池开关。
开关位于电池柜的下方,此时应用力向左拨动电池开关,直至开关显示“OFF”状态。
图5电池柜的开关位置
5)如电池出现火情,使用事先准备的手提式干冰灭火器进行灭火。
6)确认无火情后,查看UPS状态,供电情况,立即联系厂商工程师进行检修。
注意:
关闭电池开关不会影响机房的正常供电。
7)向部门主任做口头汇报,电话上报单位领导。
8)事件处理完毕后,将事故处理报告,单位领导。
6.2.1电池火情无法控制导致机房火灾
1)处理电池漏液、冒烟过程中,无法使用手提灭火器控制火情。
2)打开电池柜,手动关闭电池开关。
3)立即按照机房火灾处理步骤进行操作。
(详情见步骤6.6机房火灾进行操作)
4)火灾处理完毕后,消除火灾报警,恢复市电,查看UPS运行状态,如无法恢复市电,立即通知物业切换备用电路,观察UPS状态是否正常供电。
打开机房配电柜2,手动用力推上机房电力闸恢复市电供应。
图6机房电力总开关
5)立即联系UPS厂商进行处理并向部门主任做口头汇报,电话上报单位领导。
(详细联系方式可参照附表三:
《联系人信息表》进行