计算机机房应急预案.docx

上传人:b****7 文档编号:9098810 上传时间:2023-02-03 格式:DOCX 页数:26 大小:1.44MB
下载 相关 举报
计算机机房应急预案.docx_第1页
第1页 / 共26页
计算机机房应急预案.docx_第2页
第2页 / 共26页
计算机机房应急预案.docx_第3页
第3页 / 共26页
计算机机房应急预案.docx_第4页
第4页 / 共26页
计算机机房应急预案.docx_第5页
第5页 / 共26页
点击查看更多>>
下载资源
资源描述

计算机机房应急预案.docx

《计算机机房应急预案.docx》由会员分享,可在线阅读,更多相关《计算机机房应急预案.docx(26页珍藏版)》请在冰豆网上搜索。

计算机机房应急预案.docx

计算机机房应急预案

计算机机房应急预案

XXXX单位名称

20XX年XX月

编制人员

编制   审核

XXX      XXXX

前 言

近年来,经常会听到某地机房发生因某种原因导致灾难性得事件;由于处理不及时或人为因素操作不当,导致严重后果,造成了巨大得经济损失。

为了避免类似事情发生,项目组每年对应急预案进行修订,优化使用流程及操作步骤,保障在突发情况下及时、有效处理各类应急情况。

本应急预案编制依据《单位网络系统运行管理规定》而编写。

根据单位领导提出新得改进建议,应急预案得版本修订相比之前有了较大得改动,项目组结合机房得实际情况,针对所涉及故障及其处理方法分别进行说明并细化了每一个处理步骤,增加了非工作时间机房出现突发事件得处理步骤及紧急联系人相关信息,确保维护人员能够直观、及时、有效地处理突发情况,在维护人员不能第一时间到达现场,其她人员也能以及有效协助处理突发情况。

项目组每年组织两次得机房应急演练,模拟机房设备故障,维护人员参照应急预案能够熟练操作并进行突发事件得处理,验证应急预案对于机房得有效性与可用性。

目   次

1概述1

1、1ﻩ目得1

1、2ﻩ应急预案存放1

1。

3ﻩ编制依据1

1。

4ﻩ技术资料ﻩ1

2适用范围及启动条件1

3应急组织与职责ﻩ2

4应急响应流程3

4。

1应急事件响应ﻩ3

4、2应急事件升级ﻩ3

5应急执行流程4

5.1影响程度得评估ﻩ4

5、2 宣告启动应急4

5.3应急恢复ﻩ5

5、4事后处理5

5、5应急注意事项ﻩ5

6应急恢复步骤ﻩ6

6。

1强电系统故障6

6、2 UPS故障ﻩ9

6.3网络系统故障10

6、4机房漏水12

6.5空调故障14

6。

6机房火灾ﻩ17

附表一交换机信息22

附表二自主运维办公交换机信息ﻩ22

附表三交换机常用命令ﻩ23

附表四机房应急预案联系人信息表23

7预案附录24

附录一机房示意图ﻩ24

附录二配电柜操作说明书24

附录三UPS操作说明ﻩ24

附录四空调操作手册ﻩ24

附录五设备监控软件使用说明书ﻩ24

1概述

1.1目得

为了提高单位计算机机房、网络突发事件得应急处理能力,最大程度地预防与减少突发事件及其造成得损害,保障设备正常运行,制定本预案。

本预案参照单位领导得要求,对机房空调、电力、消防、漏水以及网络系统五种突发情况制定具体得应急工作流程、

1.2应急预案存放

1)ﻩ电子版本

本应急预案电子版存放于单位共享服务器及所有项目组成员工作电脑中、

2)ﻩ纸质版本

本应急预案纸质文档存放于机房缓冲区桌面、运维人员办公室。

1.3编制依据

本应急预案编制依据《单位安全管理规定》编写。

1.4技术资料

序号

资料名称

存放地点

获取方式

1

UPS使用手册

机房缓冲区桌面

进入机房获取

2

机房专用空调操作维护指南

机房缓冲区桌面

进入机房获取

3

消防使用手册

机房缓冲区桌面

进入机房获取

2适用范围及启动条件

1)地域范围:

本预案适用于本单位机房及网络运行中发生故障时使用。

2)人员范围:

本预案在执行中涉及得人员包括机房、网络运维人员,相关主管领导,大楼安保人员以及机房内各应用系统负责人等。

3)启动条件

机房、网络运行中出现得一般性突发事件与重大突发事件。

一般性突发事件:

就是指机房、网络突发故障,将影响机房提供正常服务及网络服务得能力且预计修复时间大于30分钟,此时应立即启动应急预案,主要包括:

1)市电中断与UPS故障引起得电力供应中断。

2)机房空调冷凝水或上下水管道漏水、

3)机房温度超过30℃。

4)网络故障影响用户范围超过20%,预计修复时间在2小时以内、 

重大突发事件:

就是指一般性突发事件在特定得时间内无法修复或发生特殊事件时,严重影响机房提供正常服务及网络服务得能力,并且修复时间大于2小时,此时除了立即启动应急预案外还应升级为重大事件,其中包括但不限定于以下分类:

1)机房出现火灾。

 

2)市电中断与UPS故障引起得电力供应中断、

3)机房温度超过40℃。

 

4)网络故障造成全网中断,预计修复时间超过2小时。

3应急组织与职责

计算机机房应急组名单如下:

表1应急小组名单

部门/岗位

职责

姓名

联系方式

单位领导

重大应急决策指挥

部门主任

应急决策指挥

应急小组组长

负责评估应急事件并协调处理

应急预案操作岗

启动应急预案并实施

4应急响应流程

4。

1应急事件响应

1、ﻩ发生突发事件时,通过电话或当面通知应急小组组长报告情况。

2、ﻩ必要时第一时间启动应急预案。

3、应急小组组长根据实际情况启动应急预案,参照应急恢复步骤组织协调相关人员进行应急处理。

4、电话通知机房内生产业务系统管理员做相应得应急措施。

5、应急小组组长根据情况判定就是否需要将事件升级为重大事件、

6、ﻩ事件处理完毕后,应急小组组长将事件处理详细经过形成书面报告,上报部门主任与单位领导、

4。

2应急事件升级

在应急小组组长认定突发事件升级为重大事件时,应按以下步骤操作:

1、立即通知部门主任。

2、通知机房内生产业务系统管理员事件升级为严重,参照应急恢复步骤做相应得应急措施。

3、根据应急决策领导得决策指令处理故障。

4、ﻩ事件处理完毕后,应急小组组长将事件处理详细经过形成书面报告,上报部门主任与单位领导。

5应急执行流程

5、1影响程度得评估

表2影响程度评估表

序号

故障类型

影响程度及范围

一般性突发事件

重大突发事件

1

市电中断与UPS故障引起得电力供应中断。

影响程度大,修复时间大于30分钟,小于2小时得电力供应中断,影响范围为机房内所有设备及系统。

影响程度为重大,修复时间2小时以上得电力供应中断,影响范围为机房内所有设备及系统。

2

机房漏水

影响程度一般,机房出现小摊积水,修复时间大于30分钟,小于2小时得机房漏水,影响范围为机房内所有设备及系统。

影响程度重大,机房出现大面积漏水,或者漏水修复时间2小时以上得机房漏水,影响范围为机房内所有设备及系统。

3

机房温度过高

影响程度大,机房温度超过30度,修复时间大于30分钟,小于2小时得,影响范围为机房内所有设备及系统。

影响程度重大,机房温度超过40度,修复时间2小时以上得空调故障,影响范围为机房内所有设备及系统、

网络系统故障

影响程度大,修复时间大于30分钟,小于2小时得网络系统故障,影响范围为生产业务系统及影响用户范围超过20%。

影响程度重大,修复时间2小时以上得网络系统故障,影响范围为生产业务系统及影响用户范围超过20%。

5

机房火灾

影响程度重大,影响范围为机房内所有设备、系统及用户、

5.2 宣告启动应急

应急小组组长宣告启动应急预案,并通知应急预案操作岗所有成员参与预案得执行、重大事件时要向部门主任、单位领导汇报。

5.3应急恢复

突发事件发生后,应急组长根据不同得启动条件执行应急预案进行应急恢复、

表3应急恢复步骤

序号

启动条件

恢复步骤

操作人员

备注

市电中断

见步骤6、1

应急小组组长、应急预案操作人员

2

UPS故障

见步骤6。

2

应急小组组长、应急预案操作人员

3

网络系统故障

见步骤6、3

应急小组组长、应急预案操作人员

4

机房漏水

见步骤6。

应急小组组长、应急预案操作人员

5

空调故障

见步骤6.5

应急小组组长、应急预案操作人员

6

机房火灾

见步骤6。

6

应急小组组长、应急预案操作人员

5。

4 事后处理

事后仔细分析事件发生得原因,查找引起事件发生得根本原因,力争杜绝类似问题得再次发生;总结每次应急处理得经验与不足,及时进行总结记录,作为知识储备,进行共享;重大事件处理完毕时,要向部门主任、单位领导及时汇报整个事件得处理过程,并提出预防措施建议。

5。

5应急注意事项

为了在突发事件发生时,能够及时顺畅地执行预案,应保证以下几点:

⏹平时多做应急演练,对应急小组得组织与预案执行力进行检验与加强。

⏹熟读应急预案,责任分工明确,应急流程掌握熟练、

⏹加强技术能力与业务能力、

⏹通讯保持畅通,应急小组得人员要保持24小时手机开机。

⏹处理应急突发事件时要认真做好应急处理记录,有利于进行问题回溯、

6应急恢复步骤

6。

1强电系统故障

6、1、1市电中断

1)当发生市电中断或同时收到UPS输入、电量仪、空调及数据库读取异常等告警短信,立即到机房检查UPS工作状态。

非工作时间发生电力中断时,电话联系保安人员进入机房确认就是否停电,同时联系附近得紧急联系人协助处理,并直接跳到第三步。

紧急联系人

姓名

联系电话

备注(住所)

2)检查UPS得负载量及电池能够支持得时间:

步骤:

双击UPS控制面板“ESC”按键,点击“”键,找到相关信息,查瞧电池负载;在“电池参数显示”处,查瞧备用时间确认UPS供电剩余时间。

(具体详情可参照附录三:

《UPS操作说明》进行操作。

图1UPS控制面板

3)立即拨打物业电话,询问断电原因及断电预计恢复时间,同时通知应急小组组长。

(如电话无人接听,立即拨打物业人员手机询问具体情况,物业人员详细联系方式可参照附表三:

《联系人信息表》进行查询)

4)当发生单路供电中断时,应立即通知物业切换至另一路供电,观察UPS状态就是否供电正常,等待第一路供电恢复切回。

5)如物业通知无法切换电路且30分钟内无法恢复供电,应立即按照附表五:

《机房服务器联系人信息表》得清单顺序通知各生产业务系统管理员进行系统备份并关闭系统、同时维护项目组关闭机房内负责得所有设备。

6)向部门主任及单位领导汇报当前情况。

7)确认所有服务器关闭后,直接手动拉下配电柜01后面A4、A5、A6、B2、B5、C3机柜输出开关,关闭网络设备。

8)当机房温度超过40度时,为确保机房内服务器安全,经单位领导许可,维护组人员按顺序直接拉下位于配电柜01后面所有机柜输出开关,关闭机房内所有设备。

图2配电柜01

9)待市电恢复供电后,打开网络机柜对应得输出开关,启动网络设备。

10)按附表五中得清单分批次对系统服务器加电,通知相关人员进行测试,并要求相关人员电话回复系统测试结果、

11)如UPS故障造成得电力供应中断,手动重启UPS,查瞧UPS故障就是否解除并恢复正常、(在UPS显示屏上点击“开机”,查瞧UPS就是否正常启动)

12)如UPS故障依旧,立即通知各生产业务系统切换备份系统、

13)向部门主任与单位领导汇报当前情况,并联系厂商对UPS进行检修。

              

14)待所有系统恢复正常后,提交处理报告,上报部门主任与单位领导。

6。

1、2 市电中断流程图

图3强电系统故障处理流程图

6、2UPS故障

6.2。

1 UPS电池漏液、冒烟

1)发生机房电池漏液、冒烟或监控组人员发现机房电池柜冒烟,立即到机房查瞧电池状态。

(电池柜位于储藏室内部)

图4机房电池柜

2)如发现就是电池漏液、冒烟导致,应按照下列处理方法操作。

并密切观察UPS工作状态。

3)关闭电池供电时,先将机房手提式干冰灭火器放置电池柜附近。

4)打开两组电池柜,手动关闭电池开关。

开关位于电池柜得下方,此时应用力向左拨动电池开关,直至开关显示“OFF”状态。

图5电池柜得开关位置

5)如电池出现火情,使用事先准备得手提式干冰灭火器进行灭火。

6)确认无火情后,查瞧UPS状态,供电情况,立即联系厂商工程师进行检修、

注意:

关闭电池开关不会影响机房得正常供电。

7)向部门主任做口头汇报,电话上报单位领导、

8)事件处理完毕后,将事故处理报告,单位领导、

6。

2、1电池火情无法控制导致机房火灾

1)处理电池漏液、冒烟过程中,无法使用手提灭火器控制火情、

2)打开电池柜,手动关闭电池开关。

3)立即按照机房火灾处理步骤进行操作。

(详情见步骤6。

6机房火灾进行操作)

4)火灾处理完毕后,消除火灾报警,恢复市电,查瞧UPS运行状态,如无法恢复市电,立即通知物业切换备用电路,观察UPS状态就是否正常供电。

步骤:

打开机房配电柜2,手动用力推上机房电力闸恢复市电供应。

图6机房电力总开关

5)立即联系UPS厂商进行处理并向部门主任做口头汇报,电话上报单位领导。

(详细联系方式可参照附表三:

《联系人信息表》进行查询)

6)统计火灾造成损失,提交相关更换UPS电池得申请。

7)事件处理完毕后,将事故处理报告,上报部门主任与单位领导。

6.2。

3 UPS故障处理流程

图7UPS故障处理流程图

6.3网络系统故障

局部楼层网络中断

1。

如果就是局部楼层断网,首先判断就是否就是交换机故障;

2、远程PING交换机管理地址(各楼层管理地址详见附表1)瞧就是否可以正常PING通

3、如果可以PING通,证明交换机本身没有故障,网线没有故障。

交由网络管理员处理、

4、如果不能PING通,说明交换机主线断或交换机宕机,应去弱电机房找到该楼层交换机上联端口与电源灯状态就是否正常,如果上联端口不亮(光纤口),证明主线有问题,更换主线测试。

5。

如果瞧到交换机电源灯不亮,证明交换机掉电,检查电源与电源线。

6、 如果以上通过检查交换机与线路后故障现象仍然存在,由此判断可能交换机存在异常,按交换机故障进行处理。

交换机故障

1.当确认就是交换机出现故障时,应首先从库房中找备用交换机进行更换;

2.若原有故障交换机有配置,应立即联系网络管理员对更换得交换机进行配置

(网管应有所有交换机得配置备份)

3.配置完成后,测试就是否正常;

全网中断

1.首先测试网络得连通性,查瞧就是否可以PING通网关地址,如果可以PING通说明从PC到核心交换机之间得链路正常,如PING不通应检查接入交换机就是否有故障、就是否掉电或者交换机主线就是否不通;如果确实不通,按照局部楼层网络中断中得第4条、第5条处理。

2。

通过访问邮件、外网网站,判断就是局域网问题还就是广域网问题,如果局域网正常;无法访问互联网说明广域网中断,向运营商进行报修、

3、PING核心交换机到核心路由器得互联IP地址得连通性,如果可以PING通,说明路由器以下网络连通性正常;

4、用tracert命令tracert办公网网段得任意地址如果tracert结果可以从出去,但不能到达外部网络,说明有可能就是核心路由器上联链路中断,向运营商进行报修。

 

5.若可以访问办公地址,无法访问互联网网站如:

XX、搜狐,需要检查代理服务器就是否正常,PING就是否可以连通,向运营商进行报修。

其她网络中断故障

1.当办公网部分用户无法获取IP地址,不能上网得时候,尝试用能上网得主机,进行IP测试。

2、用PING命令去DHCP服务器就是否可以PING通,并通知网络管理员登陆DHCP服务器进行检查服务就是否正常,如果就是DHCP服务器故障,应立即切换备用DHCP

3、如果从网管员处确定DHCP服务器没有故障,应PING核心交换机得这个IP地址瞧就是否有延时长、丢包得现象,如果有应该可以初步判断院内有ARP广播风暴形成环路或者大面积病毒爆发;再次交由网络管理员处理、 

6。

4 机房漏水

1.根据机房环境监控检测得漏水示意图,查找漏水位置,判断漏水严重性。

2、在非工作时间,通过电话第一时间通知值班室保安,关闭上水总开关。

3、机房漏水并触发告警分为以下3种情况:

1)上水管漏水:

使用地吸打开空调前地板,查瞧上水管漏水位置(1层饮水间通过走廊从机房6号空调地板下进入机房)。

图8空调上水管道

2)发现漏水位置,应立即关闭位于一楼饮水间顶棚得上水总开关,将水迹擦干。

3)立即联系机房工程有限公司,处理水管漏水故障、(详细联系方式可参照附表三:

《联系人信息表》进行查询)

4)空调冷凝漏水:

分别检查3台空调地板得下水管道就是否漏水,空调下水开关就是否打开。

(开关逆时针旋转为打开,顺时针旋转为关闭)

图9机房1、2号空调下水管道及开关图10机房3号空调下水管道及开关

5)如下水开关正常打开,冷凝水无法下水,说明下水管道堵塞。

6)首先关闭机房内空调及空调下水管阀门(下水阀门1-4)

7)分别打开上水阀门1与上水阀门4,进行机房下水反冲、

图11机房上下水管道及阀门示意图

8)空调反冲过程中,密切关注机房温度,确保温度不影响机房内设备得运行。

9)反冲完成后,首先关闭上水阀门,然后打开空调下水阀门并打开空调。

10)如故障依旧,联系厂商进行检修。

11)空调压缩罐瓶体结霜:

打开空调前面板,查瞧压缩罐上就是否结霜。

(拆卸面板工具在机房缓冲区得工具箱里)

图12机房1、2号空调压缩罐位置图13机房3号空调压缩罐位置

12)关闭空调,将压缩罐上得霜及滴下得水迹擦干。

13)尝试重新开启空调,观察空调运行状态。

14)如故障依旧,立即联系厂商进行处理、

4、 事件处理完毕后,将事故处理报告,上报部门主任与单位领导、

6.4。

3机房漏水处理流程图

图14机房漏水处理流程图

6。

5空调故障

6.5。

1高压报警

1)收到空调高压告警后,立即进入机房查瞧空调运行状态。

2)尝试将报警空调进行复位,进行启动恢复。

步骤:

1、2号空调点击空调控制面板得“报警复位”按键,3号空调点击面板上得“消音”按键。

3)若故障依旧,将高压报警空调关闭。

步骤:

在空调控制面板点击“关机”按钮,逻辑关闭空调,再将空调左侧物理开关关闭。

图15空调控制面板

图16空调物理开关

4)检查室外风机过滤网及空调过滤网就是否尘土较多。

(室外机在机房后面,院食堂正对面;空调过滤网在空调正上方)

图17空调室外机图18空调室过滤网

5)若为室外风机过滤网脏,应进行冲洗,若室内机空调过滤网脏,应联系厂商更换。

(详细联系方式可参照附表三:

《联系人信息表》进行查询)

6)冲洗室外机,应打开上水阀门2(室内)与阀门6(室外),开始冲洗。

冲洗完毕后,关闭阀门2与阀门6。

图19室内上水开关图20室外上水开关图21冲洗室外机

7)重新启动空调,按住空调减压阀释放压力。

(减压阀得位置在压缩罐上一个红色按钮)

图22空调压缩机减压阀

8)若仍然存在高压告警得现象,应联系空调厂商进行处理。

(详细联系方式可参照附表四:

《联系人信息表》进行查询)

9)高压故障处理完毕后,将事故处理报告,上报部门主任与单位领导。

6.5.2 低压报警

1)收到空调低压告警得短信后,立即进入机房查瞧空调运行状态。

2)查瞧控制器面板,确认空调发生低压报警。

(见图29)

3)尝试将报警空调得告警进行复位,进行启动恢复;复位报警空调方法见《高压报警》处理第一步。

4)若故障依旧,关闭低压故障得空调;关闭空调方法见《高压报警》处理第二步。

5)立即通知空调厂商对空调进行检修、

6)低压故障处理完毕后,将事故处理报告,上报部门主任与单位领导。

6。

5.3空调故障处理流程图

图23空调故障处理流程图

6。

6机房火灾

机房采用自动报警装置,具有感烟与感温功能探测器,并采用自动灭火装置,当机房内发生火灾时按以下流程进行处理。

如非工作时间内机房发生火灾时,在维护人员无法迅速赶到时,由保卫处保安按照应急步骤进行火灾处理并及时联系附近得相关同事协助处理、

紧急联系人

姓名

联系电话

备注(住所)

1)查找火源位置。

图24机房防护区指示灯

2)在配电柜01后关闭着火点位置得输出开关,切断着火点供电。

图25配电柜01

3)根据火情情况,使用机房内手提式干冰灭火器进行灭火。

(机房各进出门附近安放两个干冰灭火器;机房物品间处安放两个干冰灭火器)。

图26干冰灭火器

灭火器使用方法(详情见灭火器瓶体):

1、拉出保险销

2、站在上风处,喷口对准火焰基部

3、按下压把即可喷射灭火

图27干冰灭火器使用方法

4)机房消防系统开启气体灭火自动喷洒,在温感(68摄氏度)与烟感同时报警时,会自动启动。

5)若在气体灭火没有自动喷洒前发现火势较大无法控制时,确保机房内人员撤离,可手动启动气体机房灭火装置进行灭火。

直接按下控制器上得红色按钮,机房内七氟丙烷灭火装置将在延迟30秒后进行全淹没式喷射,如按下位于控制器下方得红色按钮,灭火装置将立即喷射。

图28紧急气体灭火按键

6)灭火处理后,确认机房内无火情,按排烟风机绿色按钮,进行排风换气处理气体;

图29排风扇控制器

7)火灾处理完毕后,统计火灾损失,立即向部门负责人做口头汇报,电话上报单位领导。

8)事件处理完毕后,将事故处理报告,上报部门主任与单位领导。

6、6。

3火灾系统流程图

图30火灾系统处理流程图

附表一 交换机信息

编号

位置

设备名称

网络层次

管理IP

SNMP

SNMPversion

只读团体名

附表二自主运维办公交换机信息

序号

设备名称及端口数

设备管理IP地址

DHCP地址池

物理位置

强插号

ﻬ附表三交换机常用命令

说明

命令

阀值

查瞧交换机CPU

Display cpu

>60%为CPU过高,接近90%说明CPU已经满载,说明流量过大导致交换机背板带宽过大

查瞧交换机上联口

Displayint上联端口

瞧就是否有大量得error信息

检测连通性

Pingx、x.x。

x

瞧就是否有连通或者延时过大

路由追踪

Tracert x.x、x、x

检查就是否路径已经到达

查瞧交换机实时日志

Display log

除接口updown信息以外得异常信息

附表四机房应急预案联系人信息表

部门名称

联系人

电话

备注

附表五 机房服务器联系人信息表

机柜

使用单位

机柜位置

规格及型号

用途

联系人

电话

如机房发生事故,在第一时间查瞧附表四中得人员信息表,逐级进行汇报。

根据各应急预案模块中得严重程度,通知附表五、附表六中得相应业务系统管理员。

 

7预案附录

附录一机房示意图

附录二配电柜操作说明书

附录三 UPS操作说明

附录四空调操作手册

附录五 设备监控软件使用说明书 

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 高等教育 > 农学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1