计算机机房应急预案.docx

上传人:b****4 文档编号:24489188 上传时间:2023-05-28 格式:DOCX 页数:20 大小:33.36KB
下载 相关 举报
计算机机房应急预案.docx_第1页
第1页 / 共20页
计算机机房应急预案.docx_第2页
第2页 / 共20页
计算机机房应急预案.docx_第3页
第3页 / 共20页
计算机机房应急预案.docx_第4页
第4页 / 共20页
计算机机房应急预案.docx_第5页
第5页 / 共20页
点击查看更多>>
下载资源
资源描述

计算机机房应急预案.docx

《计算机机房应急预案.docx》由会员分享,可在线阅读,更多相关《计算机机房应急预案.docx(20页珍藏版)》请在冰豆网上搜索。

计算机机房应急预案.docx

计算机机房应急预案

Preparedon22November2020

 

计算机机房应急预案

计算机机房应急预案

XXXX单位名称

20XX年XX月

编制人员

编制审核

XXXXXXX

前言

近年来,经常会听到某地机房发生因某种原因导致灾难性的事件;由于处理不及时或人为因素操作不当,导致严重后果,造成了巨大的经济损失。

为了避免类似事情发生,项目组每年对应急预案进行修订,优化使用流程及操作步骤,保障在突发情况下及时、有效处理各类应急情况。

本应急预案编制依据《单位网络系统运行管理规定》而编写。

根据单位领导提出新的改进建议,应急预案的版本修订相比之前有了较大的改动,项目组结合机房的实际情况,针对所涉及故障及其处理方法分别进行说明并细化了每一个处理步骤,增加了非工作时间机房出现突发事件的处理步骤及紧急联系人相关信息,确保维护人员能够直观、及时、有效地处理突发情况,在维护人员不能第一时间到达现场,其他人员也能以及有效协助处理突发情况。

项目组每年组织两次的机房应急演练,模拟机房设备故障,维护人员参照应急预案能够熟练操作并进行突发事件的处理,验证应急预案对于机房的有效性和可用性。

目次

1概述1

目的1

应急预案存放1

编制依据1

技术资料1

2适用范围及启动条件1

3应急组织和职责2

4应急响应流程3

应急事件响应3

应急事件升级3

5应急执行流程4

影响程度的评估4

宣告启动应急4

应急恢复5

事后处理5

应急注意事项5

6应急恢复步骤6

强电系统故障6

UPS故障9

网络系统故障10

机房漏水12

空调故障14

机房火灾17

附表一交换机信息22

附表二自主运维办公交换机信息22

附表三交换机常用命令23

附表四机房应急预案联系人信息表23

附表五机房服务器联系人信息表23

7预案附录24

附录一机房示意图24

附录二配电柜操作说明书24

附录三UPS操作说明24

附录四空调操作手册24

附录五设备监控软件使用说明书24

1概述

1.1目的

为了提高单位计算机机房、网络突发事件的应急处理能力,最大程度地预防和减少突发事件及其造成的损害,保障设备正常运行,制定本预案。

本预案参照单位领导的要求,对机房空调、电力、消防、漏水以及网络系统五种突发情况制定具体的应急工作流程。

1.2应急预案存放

1)电子版本

本应急预案电子版存放于单位共享服务器及所有项目组成员工作电脑中。

2)纸质版本

本应急预案纸质文档存放于机房缓冲区桌面、运维人员办公室。

1.3编制依据

本应急预案编制依据《单位安全管理规定》编写。

1.4技术资料

序号

资料名称

存放地点

获取方式

1

UPS使用手册

机房缓冲区桌面

进入机房获取

2

机房专用空调操作维护指南

机房缓冲区桌面

进入机房获取

3

消防使用手册

机房缓冲区桌面

进入机房获取

2适用范围及启动条件

1)地域范围:

本预案适用于本单位机房及网络运行中发生故障时使用。

2)人员范围:

本预案在执行中涉及的人员包括机房、网络运维人员,相关主管领导,大楼安保人员以及机房内各应用系统负责人等。

3)启动条件

机房、网络运行中出现的一般性突发事件和重大突发事件。

一般性突发事件:

是指机房、网络突发故障,将影响机房提供正常服务及网络服务的能力且预计修复时间大于30分钟,此时应立即启动应急预案,主要包括:

1)市电中断和UPS故障引起的电力供应中断。

2)机房空调冷凝水或上下水管道漏水。

3)机房温度超过30℃。

4)网络故障影响用户范围超过20%,预计修复时间在2小时以内。

重大突发事件:

是指一般性突发事件在特定的时间内无法修复或发生特殊事件时,严重影响机房提供正常服务及网络服务的能力,并且修复时间大于2小时,此时除了立即启动应急预案外还应升级为重大事件,其中包括但不限定于以下分类:

1)机房出现火灾。

2)市电中断和UPS故障引起的电力供应中断。

3)机房温度超过40℃。

4)网络故障造成全网中断,预计修复时间超过2小时。

3应急组织和职责

计算机机房应急组名单如下:

表1应急小组名单

部门/岗位

职责

姓名

联系方式

单位领导

重大应急决策指挥

部门主任

应急决策指挥

应急小组组长

负责评估应急事件并协调处理

应急预案操作岗

启动应急预案并实施

4应急响应流程

应急事件响应

1、发生突发事件时,通过电话或当面通知应急小组组长报告情况。

2、必要时第一时间启动应急预案。

3、应急小组组长根据实际情况启动应急预案,参照应急恢复步骤组织协调相关人员进行应急处理。

4、电话通知机房内生产业务系统管理员做相应的应急措施。

5、应急小组组长根据情况判定是否需要将事件升级为重大事件。

6、事件处理完毕后,应急小组组长将事件处理详细经过形成书面报告,上报部门主任和单位领导。

应急事件升级

在应急小组组长认定突发事件升级为重大事件时,应按以下步骤操作:

1、立即通知部门主任。

2、通知机房内生产业务系统管理员事件升级为严重,参照应急恢复步骤做相应的应急措施。

3、根据应急决策领导的决策指令处理故障。

4、事件处理完毕后,应急小组组长将事件处理详细经过形成书面报告,上报部门主任和单位领导。

5应急执行流程

影响程度的评估

表2影响程度评估表

序号

故障类型

影响程度及范围

一般性突发事件

重大突发事件

1

市电中断和UPS故障引起的电力供应中断。

影响程度大,修复时间大于30分钟,小于2小时的电力供应中断,影响范围为机房内所有设备及系统。

影响程度为重大,修复时间2小时以上的电力供应中断,影响范围为机房内所有设备及系统。

2

机房漏水

影响程度一般,机房出现小摊积水,修复时间大于30分钟,小于2小时的机房漏水,影响范围为机房内所有设备及系统。

影响程度重大,机房出现大面积漏水,或者漏水修复时间2小时以上的机房漏水,影响范围为机房内所有设备及系统。

3

机房温度过高

影响程度大,机房温度超过30度,修复时间大于30分钟,小于2小时的,影响范围为机房内所有设备及系统。

影响程度重大,机房温度超过40度,修复时间2小时以上的空调故障,影响范围为机房内所有设备及系统。

4

网络系统故障

影响程度大,修复时间大于30分钟,小于2小时的网络系统故障,影响范围为生产业务系统及影响用户范围超过20%。

影响程度重大,修复时间2小时以上的网络系统故障,影响范围为生产业务系统及影响用户范围超过20%。

5

机房火灾

-

影响程度重大,影响范围为机房内所有设备、系统及用户。

宣告启动应急

应急小组组长宣告启动应急预案,并通知应急预案操作岗所有成员参与预案的执行。

重大事件时要向部门主任、单位领导汇报。

应急恢复

突发事件发生后,应急组长根据不同的启动条件执行应急预案进行应急恢复。

表3应急恢复步骤

序号

启动条件

恢复步骤

操作人员

备注

1

市电中断

见步骤

应急小组组长、应急预案操作人员

2

UPS故障

见步骤

应急小组组长、应急预案操作人员

3

网络系统故障

见步骤

应急小组组长、应急预案操作人员

4

机房漏水

见步骤

应急小组组长、应急预案操作人员

5

空调故障

见步骤

应急小组组长、应急预案操作人员

6

机房火灾

见步骤

应急小组组长、应急预案操作人员

事后处理

事后仔细分析事件发生的原因,查找引起事件发生的根本原因,力争杜绝类似问题的再次发生;总结每次应急处理的经验与不足,及时进行总结记录,作为知识储备,进行共享;重大事件处理完毕时,要向部门主任、单位领导及时汇报整个事件的处理过程,并提出预防措施建议。

应急注意事项

为了在突发事件发生时,能够及时顺畅地执行预案,应保证以下几点:

⏹平时多做应急演练,对应急小组的组织和预案执行力进行检验和加强。

⏹熟读应急预案,责任分工明确,应急流程掌握熟练。

⏹加强技术能力和业务能力。

⏹通讯保持畅通,应急小组的人员要保持24小时手机开机。

⏹处理应急突发事件时要认真做好应急处理记录,有利于进行问题回溯。

6应急恢复步骤

强电系统故障

市电中断

1)当发生市电中断或同时收到UPS输入、电量仪、空调及数据库读取异常等告警短信,立即到机房检查UPS工作状态。

非工作时间发生电力中断时,电话联系保安人员进入机房确认是否停电,同时联系附近的紧急联系人协助处理,并直接跳到第三步。

紧急联系人

姓名

联系电话

备注(住所)

2)检查UPS的负载量及电池能够支持的时间:

步骤:

双击UPS控制面板“ESC”按键,点击“

”键,找到相关信息,查看电池负载;在“电池参数显示”处,查看备用时间确认UPS供电剩余时间。

(具体详情可参照附录三:

《UPS操作说明》进行操作。

图1UPS控制面板

3)立即拨打物业电话,询问断电原因及断电预计恢复时间,同时通知应急小组组长。

(如电话无人接听,立即拨打物业人员手机询问具体情况,物业人员详细联系方式可参照附表三:

《联系人信息表》进行查询)

4)当发生单路供电中断时,应立即通知物业切换至另一路供电,观察UPS状态是否供电正常,等待第一路供电恢复切回。

5)如物业通知无法切换电路且30分钟内无法恢复供电,应立即按照附表五:

《机房服务器联系人信息表》的清单顺序通知各生产业务系统管理员进行系统备份并关闭系统。

同时维护项目组关闭机房内负责的所有设备。

6)向部门主任及单位领导汇报当前情况。

7)确认所有服务器关闭后,直接手动拉下配电柜01后面A4、A5、A6、B2、B5、C3机柜输出开关,关闭网络设备。

8)当机房温度超过40度时,为确保机房内服务器安全,经单位领导许可,维护组人员按顺序直接拉下位于配电柜01后面所有机柜输出开关,关闭机房内所有设备。

图2配电柜01

9)待市电恢复供电后,打开网络机柜对应的输出开关,启动网络设备。

10)按附表五中的清单分批次对系统服务器加电,通知相关人员进行测试,并要求相关人员电话回复系统测试结果。

11)如UPS故障造成的电力供应中断,手动重启UPS,查看UPS故障是否解除并恢复正常。

(在UPS显示屏上点击“开机”,查看UPS是否正常启动)

12)如UPS故障依旧,立即通知各生产业务系统切换备份系统。

13)向部门主任和单位领导汇报当前情况,并联系厂商对UPS进行检修。

14)待所有系统恢复正常后,提交处理报告,上报部门主任和单位领导。

市电中断流程图

图3强电系统故障处理流程图

UPS故障

UPS电池漏液、冒烟

1)发生机房电池漏液、冒烟或监控组人员发现机房电池柜冒烟,立即到机房查看电池状态。

(电池柜位于储藏室内部)

图4机房电池柜

2)如发现是电池漏液、冒烟导致,应按照下列处理方法操作。

并密切观察UPS工作状态。

3)关闭电池供电时,先将机房手提式干冰灭火器放置电池柜附近。

4)打开两组电池柜,手动关闭电池开关。

开关位于电池柜的下方,此时应用力向左拨动电池开关,直至开关显示“OFF”状态。

图5电池柜的开关位置

5)如电池出现火情,使用事先准备的手提式干冰灭火器进行灭火。

6)确认无火情后,查看UPS状态,供电情况,立即联系厂商工程师进行检修。

注意:

关闭电池开关不会影响机房的正常供电。

7)向部门主任做口头汇报,电话上报单位领导。

8)事件处理完毕后,将事故处理报告,单位领导。

电池火情无法控制导致机房火灾

1)处理电池漏液、冒烟过程中,无法使用手提灭火器控制火情。

2)打开电池柜,手动关闭电池开关。

3)立即按照机房火灾处理步骤进行操作。

(详情见步骤机房火灾进行操作)

4)火灾处理完毕后,消除火灾报警,恢复市电,查看UPS运行状态,如无法恢复市电,立即通知物业切换备用电路,观察UPS状态是否正常供电。

步骤:

打开机房配电柜2,手动用力推上机房电力闸恢复市电供应。

图6机房电力总开关

5)立即联系UPS厂商进行处理并向部门主任做口头汇报,电话上报单位领导。

(详细联系方式可参照附表三:

《联系人信息表》进行查询)

6)统计火灾造成损失,提交相关更换UPS电池的申请。

7)事件处理完毕后,将事故处理报告,上报部门主任和单位领导。

UPS故障处理流程

图7UPS故障处理流程图

网络系统故障

局部楼层网络中断

1.如果是局部楼层断网,首先判断是否是交换机故障;

2.远程PING交换机管理地址(各楼层管理地址详见附表1)看是否可以正常PING通

3.如果可以PING通,证明交换机本身没有故障,网线没有故障。

交由网络管理员处理。

4.如果不能PING通,说明交换机主线断或交换机宕机,应去弱电机房找到该楼层交换机上联端口和电源灯状态是否正常,如果上联端口不亮(光纤口),证明主线有问题,更换主线测试。

5.如果看到交换机电源灯不亮,证明交换机掉电,检查电源和电源线。

6.如果以上通过检查交换机和线路后故障现象仍然存在,由此判断可能交换机存在异常,按交换机故障进行处理。

交换机故障

1.当确认是交换机出现故障时,应首先从库房中找备用交换机进行更换;

2.若原有故障交换机有配置,应立即联系网络管理员对更换的交换机进行配置

(网管应有所有交换机的配置备份)

3.配置完成后,测试是否正常;

全网中断

1.首先测试网络的连通性,查看是否可以PING通网关地址,如果可以PING通说明从PC到核心交换机之间的链路正常,如PING不通应检查接入交换机是否有故障、是否掉电或者交换机主线是否不通;如果确实不通,按照局部楼层网络中断中的第4条、第5条处理。

2.通过访问邮件、外网网站,判断是局域网问题还是广域网问题,如果局域网正常;无法访问互联网说明广域网中断,向运营商进行报修。

核心交换机到核心路由器的互联IP地址的连通性,如果可以PING通,说明路由器以下网络连通性正常;

4.用tracert命令tracert办公网网段的任意地址如果tracert结果可以从出去,但不能到达外部网络,说明有可能是核心路由器上联链路中断,向运营商进行报修。

5.若可以访问办公地址,无法访问互联网网站如:

XX、搜狐,需要检查代理服务器是否正常,PING是否可以连通,向运营商进行报修。

其他网络中断故障

1.当办公网部分用户无法获取IP地址,不能上网的时候,尝试用能上网的主机,进行IP测试。

2.用PING命令去DHCP服务器是否可以PING通,并通知网络管理员登陆DHCP服务器进行检查服务是否正常,如果是DHCP服务器故障,应立即切换备用DHCP

3.如果从网管员处确定DHCP服务器没有故障,应PING核心交换机的这个IP地址看是否有延时长、丢包的现象,如果有应该可以初步判断院内有ARP广播风暴形成环路或者大面积病毒爆发;再次交由网络管理员处理。

机房漏水

1.根据机房环境监控检测的漏水示意图,查找漏水位置,判断漏水严重性。

2.在非工作时间,通过电话第一时间通知值班室保安,关闭上水总开关。

3.机房漏水并触发告警分为以下3种情况:

1)上水管漏水:

使用地吸打开空调前地板,查看上水管漏水位置(1层饮水间通过走廊从机房6号空调地板下进入机房)。

图8空调上水管道

2)发现漏水位置,应立即关闭位于一楼饮水间顶棚的上水总开关,将水迹擦干。

3)立即联系机房工程有限公司,处理水管漏水故障。

(详细联系方式可参照附表三:

《联系人信息表》进行查询)

4)空调冷凝漏水:

分别检查3台空调地板的下水管道是否漏水,空调下水开关是否打开。

(开关逆时针旋转为打开,顺时针旋转为关闭)

图9机房1、2号空调下水管道及开关图10机房3号空调下水管道及开关

5)如下水开关正常打开,冷凝水无法下水,说明下水管道堵塞。

6)首先关闭机房内空调及空调下水管阀门(下水阀门1-4)

7)分别打开上水阀门1和上水阀门4,进行机房下水反冲。

图11机房上下水管道及阀门示意图

8)空调反冲过程中,密切关注机房温度,确保温度不影响机房内设备的运行。

9)反冲完成后,首先关闭上水阀门,然后打开空调下水阀门并打开空调。

10)如故障依旧,联系厂商进行检修。

11)空调压缩罐瓶体结霜:

打开空调前面板,查看压缩罐上是否结霜。

(拆卸面板工具在机房缓冲区的工具箱里)

图12机房1、2号空调压缩罐位置图13机房3号空调压缩罐位置

12)关闭空调,将压缩罐上的霜及滴下的水迹擦干。

13)尝试重新开启空调,观察空调运行状态。

14)如故障依旧,立即联系厂商进行处理。

4.事件处理完毕后,将事故处理报告,上报部门主任和单位领导。

图14机房漏水处理流程图

空调故障

高压报警

1)收到空调高压告警后,立即进入机房查看空调运行状态。

2)尝试将报警空调进行复位,进行启动恢复。

步骤:

1、2号空调点击空调控制面板的“报警复位”按键,3号空调点击面板上的“消音”按键。

3)若故障依旧,将高压报警空调关闭。

步骤:

在空调控制面板点击“关机”按钮,逻辑关闭空调,再将空调左侧物理开关关闭。

图15空调控制面板图16空调物理开关

4)检查室外风机过滤网及空调过滤网是否尘土较多。

(室外机在机房后面,院食堂正对面;空调过滤网在空调正上方)

图17空调室外机图18空调室过滤网

5)若为室外风机过滤网脏,应进行冲洗,若室内机空调过滤网脏,应联系厂商更换。

(详细联系方式可参照附表三:

《联系人信息表》进行查询)

6)冲洗室外机,应打开上水阀门2(室内)和阀门6(室外),开始冲洗。

冲洗完毕后,关闭阀门2和阀门6。

图19室内上水开关图20室外上水开关图21冲洗室外机

7)重新启动空调,按住空调减压阀释放压力。

(减压阀的位置在压缩罐上一个红色按钮)

图22空调压缩机减压阀

8)若仍然存在高压告警的现象,应联系空调厂商进行处理。

(详细联系方式可参照附表四:

《联系人信息表》进行查询)

9)高压故障处理完毕后,将事故处理报告,上报部门主任和单位领导。

低压报警

1)收到空调低压告警的短信后,立即进入机房查看空调运行状态。

2)查看控制器面板,确认空调发生低压报警。

(见图29)

3)尝试将报警空调的告警进行复位,进行启动恢复;复位报警空调方法见《高压报警》处理第一步。

4)若故障依旧,关闭低压故障的空调;关闭空调方法见《高压报警》处理第二步。

5)立即通知空调厂商对空调进行检修。

6)低压故障处理完毕后,将事故处理报告,上报部门主任和单位领导。

空调故障处理流程图

图23空调故障处理流程图

机房火灾

机房采用自动报警装置,具有感烟和感温功能探测器,并采用自动灭火装置,当机房内发生火灾时按以下流程进行处理。

如非工作时间内机房发生火灾时,在维护人员无法迅速赶到时,由保卫处保安按照应急步骤进行火灾处理并及时联系附近的相关同事协助处理。

紧急联系人

姓名

联系电话

备注(住所)

1)查找火源位置。

图24机房防护区指示灯

2)在配电柜01后关闭着火点位置的输出开关,切断着火点供电。

图25配电柜01

3)根据火情情况,使用机房内手提式干冰灭火器进行灭火。

(机房各进出门附近安放两个干冰灭火器;机房物品间处安放两个干冰灭火器)。

图26干冰灭火器

灭火器使用方法(详情见灭火器瓶体):

1、拉出保险销

2、站在上风处,喷口对准火焰基部

3、按下压把即可喷射灭火

图27干冰灭火器使用方法

4)机房消防系统开启气体灭火自动喷洒,在温感(68摄氏度)和烟感同时报警时,会自动启动。

5)若在气体灭火没有自动喷洒前发现火势较大无法控制时,确保机房内人员撤离,可手动启动气体机房灭火装置进行灭火。

直接按下控制器上的红色按钮,机房内七氟丙烷灭火装置将在延迟30秒后进行全淹没式喷射,如按下位于控制器下方的红色按钮,灭火装置将立即喷射。

图28紧急气体灭火按键

6)灭火处理后,确认机房内无火情,按排烟风机绿色按钮,进行排风换气处理气体;

图29排风扇控制器

7)火灾处理完毕后,统计火灾损失,立即向部门负责人做口头汇报,电话上报单位领导。

8)事件处理完毕后,将事故处理报告,上报部门主任和单位领导。

图30火灾系统处理流程图

附表一交换机信息

编号

位置

设备名称

网络层次

管理IP

SNMP

SNMPversion

只读团体名

附表二自主运维办公交换机信息

序号

设备名称及端口数

设备管理IP地址

DHCP地址池

物理位置

强插号

附表三交换机常用命令

说明

命令

阀值

查看交换机CPU

Displaycpu

>60%为CPU过高,接近90%说明CPU已经满载,说明流量过大导致交换机背板带宽过大

查看交换机上联口

Displayint上联端口

看是否有大量的error信息

检测连通性

P

看是否有连通或者延时过大

路由追踪

T

检查是否路径已经到达

查看交换机实时日志

Displaylog

除接口updown信息以外的异常信息

附表四机房应急预案联系人信息表

部门名称

联系人

电话

备注

附表五机房服务器联系人信息表

机柜

使用单位

机柜位置

规格及型号

用途

联系人

电话

如机房发生事故,在第一时间查看附表四中的人员信息表,逐级进行汇报。

根据各应急预案模块中的严重程度,通知附表五、附表六中的相应业务系统管理员。

7预案附录

附录一机房示意图

附录二配电柜操作说明书

附录三UPS操作说明

附录四空调操作手册

附录五设备监控软件使用说明书

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 考试认证 > 其它考试

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1