计算机机房应急预案总结.docx
《计算机机房应急预案总结.docx》由会员分享,可在线阅读,更多相关《计算机机房应急预案总结.docx(29页珍藏版)》请在冰豆网上搜索。
计算机机房应急预案总结
计算机机房应急预案
XXXX单位名称
20XX年XX月
编制人员
编制审核
XXXXXXX
前言
近年来,经常会听到某地机房发生因某种原因导致灾难性的事件;由于处理不及时
或人为因素操作不当,导致严重后果,造成了巨大的经济损失。
为了防止类似事情发生,
工程组每年对应急预案进行修订,优化使用流程及操作步骤,保障在突发情况下及时、
有效处理各类应急情况。
本应急预案编制依据?
单位网络系统运行管理规定?
而编写。
根据单位领导提出新的改良建议,应急预案的版本修订相比之前有了较大的改动,
工程组结合机房的实际情况,针对所涉及故障及其处理方法分别进行说明并细化了每一
个处理步骤,增加了非工作时间机房出现突发事件的处理步骤及紧急联系人相关信息,
确保维护人员能够直观、及时、有效地处理突发情况,在维护人员不能第一时间到达现
场,其他人员也能以及有效协助处理突发情况。
工程组每年组织两次的机房应急演练,模拟机房设备故障,维护人员参照应急预案
能够熟练操作并进行突发事件的处理,验证应急预案对于机房的有效性和可用性。
目
次
1
概述........................................................................................
错误!
未定义书签。
目的.................................................................................................
错误!
未定义书签。
应急预案存放.................................................................................
错误!
未定义书签。
编制依据.........................................................................................
错误!
未定义书签。
技术资料.........................................................................................
错误!
未定义书签。
2
适用范围及启动条件.................................................................
错误!
未定义书签。
3
应急组织和职责........................................................................
错误!
未定义书签。
4应急响应流程............................................................................错误!
未定义书签。
应急事件响应....................................................................................错误!
未定义书签。
应急事件升级....................................................................................错误!
未定义书签。
5应急执行流程............................................................................错误!
未定义书签。
影响程度的评估................................................................................错误!
未定义书签。
宣告启动应急....................................................................................错误!
未定义书签。
应急恢复............................................................................................错误!
未定义书签。
事后处理............................................................................................错误!
未定义书签。
应急考前须知....................................................................................错误!
未定义书签。
6应急恢复步骤............................................................................错误!
未定义书签。
强电系统故障......................................................................................错误!
未定义书签。
UPS故障............................................................................................错误!
未定义书签。
网络系统故障....................................................................................错误!
未定义书签。
机房漏水............................................................................................错误!
未定义书签。
空调故障............................................................................................错误!
未定义书签。
机房火灾............................................................................................错误!
未定义书签。
附表一交换机信息............................................................................错误!
未定义书签。
附表二自主运维办公交换机信息...................................................错误!
未定义书签。
附表三交换机常用命令...................................................................错误!
未定义书签。
附表四机房应急预案联系人信息表..............................................错误!
未定义书签。
附表五机房效劳器联系人信息表...................................................错误!
未定义书签。
7预案附录..................................................................................错误!
未定义书签。
附录一机房示意图............................................................................错误!
未定义书签。
附录二配电柜操作说明书...............................................................错误!
未定义书签。
附录三
UPS操作说明.......................................................................
错误!
未定义书签。
附录四
空调操作手册.......................................................................
错误!
未定义书签。
附录五
设备监控软件使用说明书...................................................
错误!
未定义书签。
1概述
目的
为了提高单位计算机机房、网络突发事件的应急处理能力,最大程度地预防和减少
突发事件及其造成的损害,保障设备正常运行,制定本预案。
本预案参照单位领导的要
求,对机房空调、电力、消防、漏水以及网络系统五种突发情况制定具体的应急工作流
程。
应急预案存放
1)电子版本
本应急预案电子版存放于单位共享效劳器及所有工程组成员工作电脑中。
2)纸质版本
本应急预案纸质文档存放于机房缓冲区桌面、运维人员办公室。
编制依据
本应急预案编制依据?
单位平安管理规定?
编写。
技术资料
序号
资料名称
存放地点
获取方式
1
UPS使用手册
机房缓冲区桌面
进入机房获取
2
机房专用空调操作维
护指南
机房缓冲区桌面
进入机房获取
3
消防使用手册
机房缓冲区桌面
进入机房获取
2适用范围及启动条件
1)地域范围:
本预案适用于本单位机房及网络运行中发生故障时使用。
2)人员范围:
本预案在执行中涉及的人员包括机房、网络运维人员,相关主管领导,大楼安保
人员以及机房内各应用系统负责人等。
3)启动条件
机房、网络运行中出现的一般性突发事件和重大突发事件。
一般性突发事件:
是指机房、网络突发故障,将影响机房提供正常效劳及网络效劳
的能力且预计修复时间大于30分钟,此时应立即启动应急预案,主要包括:
1)市电中断和UPS故障引起的电力供给中断。
2)机房空调冷凝水或上下水管道漏水。
3)机房温度超过30℃。
4)网络故障影响用户范围超过20%,预计修复时间在2小时以内。
重大突发事件:
是指一般性突发事件在特定的时间内无法修复或发生特殊事件时,
严重影响机房提供正常效劳及网络效劳的能力,并且修复时间大于2小时,此时除了立
即启动应急预案外还应升级为重大事件,其中包括但不限定于以下分类:
1)机房出现火灾。
2)市电中断和UPS故障引起的电力供给中断。
3)机房温度超过40℃。
4)网络故障造成全网中断,预计修复时间超过2小时。
3应急组织和职责
计算机机房应急组名单如下:
表1应急小组名单
部门/岗位职责姓名联系方式
单位领导重大应急决策指挥
部门主任应急决策指挥
应急小组组长负责评估应急事件并协调处理
应急预案操作岗启动应急预案并实施
4应急响应流程
应急事件响应
1、发生突发事件时,通过或当面通知应急小组组长报告情况。
2、必要时第一时间启动应急预案。
3、应急小组组长根据实际情况启动应急预案,参照应急恢复步骤组织协调相关人
员进行应急处理。
4、通知机房内生产业务系统管理员做相应的应急措施。
5、应急小组组长根据情况判定是否需要将事件升级为重大事件。
6、事件处理完毕后,应急小组组长将事件处理详细经过形成书面报告,上报
部门主任和单位领导。
应急事件升级
在应急小组组长认定突发事件升级为重大事件时,应按以下步骤操作:
1、立即通知部门主任。
2、通知机房内生产业务系统管理员事件升级为严重,参照应急恢复步骤做相应的应急措施。
3、根据应急决策领导的决策指令处理故障。
4、事件处理完毕后,应急小组组长将事件处理详细经过形成书面报告,上报部门主任和单位领导。
5应急执行流程影响程度的评估
表2
影响程度评估表
影响程度及范围
序号
故障类型
一般性突发事件
重大突发事件
市电中断和
影响程度大,修复时间大于
影响程度为重大,修复时间
1
UPS故障引起
30分钟,小于2小时的电力
2小时以上的电力供给中
的电力供给中
供给中断,影响范围为机房
断,影响范围为机房内所有
断。
内所有设备及系统。
设备及系统。
影响程度一般,机房出现小
影响程度重大,机房出现大
摊积水,修复时间大于30
面积漏水,或者漏水修复时
2
机房漏水
分钟,小于2小时的机房漏
间2小时以上的机房漏水,
水,影响范围为机房内所有
影响范围为机房内所有设
设备及系统。
备及系统。
影响程度大,机房温度超过
30度,修复时间大于30分
影响程度重大,机房温度超
过40度,修复时间2小时
3
机房温度过高
钟,小于2小时的,影响范
以上的空调故障,影响范围
围为机房内所有设备及系
为机房内所有设备及系统。
统。
影响程度大,修复时间大于
影响程度重大,修复时间2
30分钟,小于2小时的网络
小时以上的网络系统故障,
4
网络系统故障
系统故障,影响范围为生产
影响范围为生产业务系统
业务系统及影响用户范围超
及影响用户范围超过
过20%。
20%。
影响程度重大,影响范围为
5
机房火灾
-
机房内所有设备、系统及用
户。
宣告启动应急
应急小组组长宣告启动应急预案,并通知应急预案操作岗所有成员参与预案的执
行。
重大事件时要向部门主任、单位领导汇报。
应急恢复
突发事件发生后,应急组长根据不同的启动条件执行应急预案进行应急恢复。
表3应急恢复步骤
序号
启动条件
恢复步骤
操作人员
备注
1
应急小组组长、应
市电中断
见步骤
急预案操作人员
2
UPS故障
应急小组组长、应
见步骤
急预案操作人员
应急小组组长、应
3
网络系统故障
见步骤
急预案操作人员
应急小组组长、应
4
机房漏水
见步骤
急预案操作人员
应急小组组长、应
5
空调故障
见步骤
急预案操作人员
应急小组组长、应
6
机房火灾
见步骤
急预案操作人员
事后处理
事后仔细分析事件发生的原因,查找引起事件发生的根本原因,力争杜绝类似问题
的再次发生;总结每次应急处理的经验与缺乏,及时进行总结记录,作为知识储藏,进
行共享;重大事件处理完毕时,要向部门主任、单位领导及时汇报整个事件的处理过程,
并提出预防措施建议。
应急考前须知
为了在突发事件发生时,能够及时顺畅地执行预案,应保证以下几点:
平时多做应急演练,对应急小组的组织和预案执行力进行检验和加强。
熟读应急预案,责任分工明确,应急流程掌握熟练。
加强技术能力和业务能力。
通讯保持畅通,应急小组的人员要保持24小时开机。
处理应急突发事件时要认真做好应急处理记录,有利于进行问题回溯。
6应急恢复步骤
强电系统故障
市电中断
1)当发生市电中断或同时收到UPS输入、电量仪、空调及数据库读取异常等告警短信,立即到机房检查UPS工作状态。
非工作时间发生电力中断时,联系保安人员进入机房确认是否停电,同时联系附近的紧急联系人协助处理,
并直接跳到第三步。
紧急联系人
姓名联系备注〔住所〕
2)检查UPS的负载量及电池能够支持的时间:
步骤:
双击UPS控制面板“ESC〞按键,点击“〞键,找到相关信息,查看电
池负载;在“电池参数显示〞处,查看备用时间确认UPS供电剩余时间。
〔具体
详情可参照附录三:
?
UPS操作说明?
进行操作。
图1UPS控制面板
2)立即拨打物业,询问断电原因及断电预计恢复时间,同时通知应急小组组长。
〔如无人接听,立即拨打物业人员询问具体情况,物业人员详细联系方式可参照附表三:
?
联系人信息表?
进行查询〕
4)
当发生单路供电中断时,应立即通知物业切换至另一路供电,观察UPS状态
是否供电正常,等待第一路供电恢复切回。
5)如物业通知无法切换电路且30分钟内无法恢复供电,应立即按照附表五:
?
机房效劳器联系人信息表?
的清单顺序通知各生产业务系统管理员进行系统备份
并关闭系统。
同时维护工程组关闭机房内负责的所有设备。
6)向部门主任及单位领导汇报当前情况。
7)确认所有效劳器关闭后,直接手动拉下配电柜01后面A4、A5、A6、B2、B5、C3机柜输出开关,关闭网络设备。
8)当机房温度超过40度时,为确保机房内效劳器平安,经单位领导许可,维护组人员按顺序直接拉下位于配电柜01后面所有机柜输出开关,关闭机房内所有设备。
图2配电柜01
9)待市电恢复供电后,翻开网络机柜对应的输出开关,启动网络设备。
10)按附表五中的清单分批次对系统效劳器加电,通知相关人员进行测试,并要求相关人员回复系统测试结果。
11)如UPS故障造成的电力供给中断,手动重启UPS,查看UPS故障是否解除并恢复正常。
〔在UPS显示屏上点击“开机〞,查看UPS是否正常启动〕
12)如UPS故障依旧,立即通知各生产业务系统切换备份系统。
13)向部门主任和单位领导汇报当前情况,并联系厂商对UPS进行检修。
14)待所有系统恢复正常后,提交处理报告,上报部门主任和单位领导。
市电中断流程图
图3强电系统故障处理流程图
UPS故障
UPS电池漏液、冒烟
1)发生机房电池漏液、冒烟或监控组人员发现机房电池柜冒烟,立即到机房查看电池状态。
〔电池柜位于储藏室内部〕
图4机房电池柜
2)如发现是电池漏液、冒烟导致,应按照以下处理方法操作。
并密切观察UPS工作状态。
3)关闭电池供电时,先将机房手提式干冰灭火器放置电池柜附近。
4)翻开两组电池柜,手动关闭电池开关。
开关位于电池柜的下方,此时应用力向左拨动电池开关,直至开关显示“OFF〞状态。
图5电池柜的开关位置
5)如电池出现火情,使用事先准备的手提式干冰灭火器进行灭火。
6)确认无火情后,查看UPS状态,供电情况,立即联系厂商工程师进行检修。
注意:
关闭电池开关不会影响机房的正常供电。
7)向部门主任做口头汇报,上报单位领导。
8)事件处理完毕后,将事故处理报告,单位领导。
电池火情无法控制导致机房火灾
1)处理电池漏液、冒烟过程中,无法使用手提灭火器控制火情。
2)翻开电池柜,手动关闭电池开关。
3)立即按照机房火灾处理步骤进行操作。
〔详情见步骤机房火灾进行操作〕
4)火灾处理完毕后,消除火灾报警,恢复市电,查看UPS运行状态,如无法恢
复市电,立即通知物业切换备用电路,观察UPS状态是否正常供电。
步骤:
翻开机房配电柜2,手动用力推上机房电力闸恢复市电供给。
图6机房电力总开关
5)立即联系UPS厂商进行处理并向部门主任做口头汇报,上报单位领导。
〔详细联系方式可参照附表三:
?
联系人信息表?
进行查询〕
6)统计火灾造成损失,提交相关更换UPS电池的申请。
7)事件处理完毕后,将事故处理报告,上报部门主任和单位领导。
UPS故障处理流程
图7UPS故障处理流程图
网络系统故障
局部楼层网络中断
1.如果是局部楼层断网,首先判断是否是交换机故障;
2.远程PING交换机管理地址〔各楼层管理地址详见附表1〕看是否可以正常PING
通
3.如果可以PING通,证明交换机本身没有故障,网线没有故障。
交由网络管理员
处理。
4.如果不能PING通,说明交换机主线断或交换机宕机,应去弱电机房找到该楼层
交换机上联端口和电源灯状态是否正常,如果上联端口不亮〔光纤口〕,证明主线有问
题,更换主线测试。
5.如果看到交换机电源灯不亮,证明交换机掉电,检查电源和电源线。
6.如果以上通过检查交换机和线路后故障现象仍然存在,由此判断可能交换机存在异常,按交换机故障进行处理。
交换机故障
1.当确认是交换机出现故障时,应首先从库房中找备用交换机进行更换;
2.假设原有故障交换机有配置,应立即联系网络管理员对更换的交换机进行配置〔网管应有所有交换机的配置备份〕
3.配置完成后,测试是否正常;
全网中断
1.首先测试网络的连通性,查看是否可以PING通网关地址,如果可以PING通说
明从PC到核心交换机之间的链路正常,如PING不通应检查接入交换机是否有故障、
是否掉电或者交换机主线是否不通;如果确实不通,按照局部楼层网络中断中的第4条、
第5条处理。
2.