机房基础设施故障应急现场处置方案.docx

上传人:b****4 文档编号:12384718 上传时间:2023-04-18 格式:DOCX 页数:12 大小:39.69KB
下载 相关 举报
机房基础设施故障应急现场处置方案.docx_第1页
第1页 / 共12页
机房基础设施故障应急现场处置方案.docx_第2页
第2页 / 共12页
机房基础设施故障应急现场处置方案.docx_第3页
第3页 / 共12页
机房基础设施故障应急现场处置方案.docx_第4页
第4页 / 共12页
机房基础设施故障应急现场处置方案.docx_第5页
第5页 / 共12页
点击查看更多>>
下载资源
资源描述

机房基础设施故障应急现场处置方案.docx

《机房基础设施故障应急现场处置方案.docx》由会员分享,可在线阅读,更多相关《机房基础设施故障应急现场处置方案.docx(12页珍藏版)》请在冰豆网上搜索。

机房基础设施故障应急现场处置方案.docx

机房基础设施故障应急现场处置方案

 

机房基础设施故障应急现场处置方案

 

XXXX有限责任公司信息中心

20xx年x月

1.总则

1.1.适用范围

本方案适用于公司信息中心机房动力系统电力供应中断应急响应工作。

所涉及公司信息中心安全监管人员、调度组人员、平台组人员、网络组人员,以及其他相关人员在处理此类安全事件时,均可遵循或借鉴本方案制定的流程、方法或技术措施。

1.2.与其他预案的关系

本方案为《公司网络与信息安全应急预案》(简称“应急预案”)的现场应急处置方案,是在遵循《应急预案》的基础上制定的,既可以单独使用,也可与其它方案配合使用。

1.3.公司信息中心机房基础设施故障应急现场处置方案体系结构图

公司信息中心机房基础设施故障应急现场处置方案体系结构图见附件1。

1.4.信息中心机房基础设施故障应急现场处置方案总体流程

机房基础设施故障应急现场处置方案总体流程图见附件2。

2.预防与预警

公司信息机房出现电源故障,导致机房内所有精密空调停运,机房温度升高,使机房内设备受影响。

预防与预警是处置方案的第一个阶段。

2.1.预防与预警主要目的

为贯彻落实网络与信息安全保障工作的目标和任务,提高公司机房动力系统应急响应与处理能力,切实做好信息安全工作,特编制本应急预案,使应急工作安全、有序、科学、高效地实施,最大限度地预防和控制机房动力系统故障事件及其造成的损害和影响,确保公司机房动力系统的安全运行。

2.2.预防与预警方式

1)运维人员对机房状况进行监测;

2)电力人员对机房电力运行状态监控预警;

3)机房监控系统短信报警或监控值班人员电话报警

2.3.预防与预警阶段流程

预防与预警阶段流程图见附件2。

3.应急响应与处置

3.1.信息报告

(1)经过预警阶段之后,现场监测人员按照事件安全等级标准对突发事件进行初步判断后,由网络组向调度组、安全监管、部门领导、中心领导以口头和突发事件应急报告表形式进行汇报。

(2)突发事件应急报告表格式见附件3:

3.2.机房基础设施故障应急现场处置方案启动条件

根据《公司网络与信息安全应急预案》的要求,启动本处置方案,有关网络架构拓扑见附件4。

3.3.现场应急处置程序

突发事件发生后的组织措施:

针对现场可能发生的具体突发事件及现场情况,组织人员进行事故报警,开展现场抢险和救护,引导维护现场秩序和安全,与外界或上级单位的呼救联系等各项应对措施、步骤和程序等。

针对机房基础设施故障这一场景,现场应急处置程序可分为两个阶段:

(1)识别与恢复阶段。

(2)总结与改进阶段。

3.3.1.识别与恢复阶段

发现由于xxx公司信息机房出现电源故障,导致机房内所有精密空调停运,机房温度升高,使机房内设备受影响,应需马上启动UPS供电,优先恢复业务,再决定下一步需要采取的行动,进入应急流程的第二阶段:

恢复阶段。

3.3.2.识别与恢复的技术手段

(1)供电停止后,应可自动切换至后备电。

如外部供电异常导致的停电,立即作为本应急预案的启动条件1;

(2)如外部供电正常,且经过常用解决办法不能恢复供电,判定为电源接入、自动开关切换器或其他暂时无法解决的故障,作为本应急预案的启动条件2。

(3)快速排查供配电故障点并进行修复,减少机房动力环境影响设备乃至应用的情况。

(4)在UPS可支持时间内,按照设备重要性分级制,紧急进行机房内各设备的关机,可最大限度保证设备的正常运行,避免设备的突发停机或因温度过高造成硬件损坏,同时尽可能保障重点设备的运行。

在恢复供电,通过测试后,能使设备正常运行。

启动条件一:

(1)通过机房监控系统短信报警或监控值班人员电话报警,从发现供电异常到判定符合预案启动条件为5分钟;//通过什么途径获知

(2)通过与大楼工程部值班人员沟通以及自检机房内供配电情况,判断为机房外部供电故障,要求外部供电负责人尽快进行排查处理故障,用时约10分钟;//报送调度,内容包括影响范围、预估恢复时间、故障情况。

(3)如确定无法20分钟内恢复供电,则需通知调度、平台、网络等进行关闭服务器、网络设备等在运行设备的紧急工作,避免因供电突断导致的设备故障。

机房管理员评估停电影响范围,向调度值班人员报告故障影响范围、预估恢复时间、需协调工作等,由调度向相关领导、安全监管、客服进行报告后,得到关机指令后设备管理员按照设备重要性分级对设备进行紧急关机操作,减少机房负载和发热量,同时通过风扇吹风、移动空调制冷等一系列应急措施,增强通风,使关键设备可以得到更长的运行时间,用时60分钟;

(4)等待外部供电恢复;恢复正常后由各设备/系统管理员负责开启应用系统、服务器、网络设备、机房监控设备等,开启重要设备时间约为60分钟,完全开启设备时间约为300分钟;

总处理时间为375分钟。

由于故障涉及外部供电,不含供配电修复时间。

启动条件二:

(1)通过机房监控系统短信报警或监控值班人员电话报警,从发现供电异常到判定符合预案启动条件为5分钟;

(2)通过与大楼工程部值班人员沟通以及自检机房内供配电情况,发现外部供电正常,机房内供电异常,判断为机房内部供配电故障。

对机房的配电系统进行详细检查,视情况要求供电、UPS方面的厂家工程师通过电话远程技术支持排障或现场技术支持;机房供配电修复时间约为10分钟-60分钟

(3)如确定无法20分钟内恢复供电,则需通知调度、平台、网络等进行关闭服务器、网络设备等在运行设备的紧急工作,避免因供电突断导致的设备故障。

机房管理员评估停电影响范围,向调度值班人员报告故障影响范围、预估恢复时间、需协调工作等,由调度向相关领导、安全监管、客服进行报告后,得到关机指令后设备管理员按照设备重要性分级对设备进行紧急关机操作,减少机房负载和发热量,同时通过风扇吹风、移动空调制冷等一系列应急措施,增强通风,使关键设备可以得到更长的运行时间,用时60分钟;

(4)等待外部供电恢复;恢复正常后由各设备/系统管理员负责开启应用系统、服务器、网络设备、机房监控设备等,开启重要设备时间约为60分钟,完全开启设备时间约为300分钟;

总处理时间约为425分钟。

3.3.2.1.识别与恢复流程

识别与恢复阶段流程图见附件2。

3.3.3.总结与改进阶段

3.3.3.1.总结与改进阶段流程

总结与改进阶段流程图见附件2。

3.3.3.2.文档记录

应形成正式的故障处理文档报告,详细描述应急响应的整个操作。

一方面为下一阶段的应急处理工作提供依据;另一方面,为以后的审查、统计与总结、改进提供必要的支撑。

本阶段应完成《信息安全事件应急响应结果报告表》具体格式见附件5。

3.4.应急人员组成与责任划分

3.4.1应急人员组成

根据《xxxx公司网络与信息安全应急预案》的要求,应急组织机构人员由以下人员组成:

中心领导、安运部领导、安全监管人员、呼叫中心人员、调度组人员、平台组人员、网络组人员。

具体联系方式见附件6。

3.4.2应急人员职责

(1)呼叫中心主要职责:

接收客户报障,电话和邮件通告调度组人员;通知客户业务恢复及应用测试等。

(2)调度组主要职责:

接收客户报障与呼叫中心报障信息,电话及邮件通知网络组;通知客户与呼叫中心业务恢复及应用测试等;跟进故障处理及协调和指挥相关运维作业单位处理故障;负责向安全监管、部门领导、中心领导汇报。

(3)安全监管主要职责:

负责向中心领导汇报,负责故障处置报告的整理与审核。

(4)平台组主要职责:

负责应急人员与设备出入机房管理,配合设备上架与跳线等相关工作。

(5)网络组主要职责:

接收呼叫中心、调度组报障信息,负责机房基础设施故障事件调查、应急响应和应急处置的工作,向呼叫中心、调度组反馈进度信息,负责向部门领导汇报,负责故障处置报告的整理与编写。

3.5.注意事项

(1)按照预先做好的设备重要性分级情况,对设备进行逐一关机。

如果停电时间超过UPS的后备时间,在完全断电前需确保机房设备停止运行,并且关闭电源开关,避免通电时瞬间电流过大导致的设备损坏。

(2)报告领导及通知相关人员到岗,供电恢复后及早恢复原有设备的正常运行。

如出现设备故障,由设备管理员或厂家到场处理。

(3)保留现场,做好停电期间所处理的工作及情况变化的记录。

4.附则

本方案由XXX公司信息中心管理和保存,并进行定期或不定期的审查与更新。

在下面的几种情况下,将启动本方案的审查过程:

(1)距离上一次方案审查时间超过1年;

(2)在日常工作过程中及方案演练时发现本方案存在的问题,并提出相关的解决建议;

(3)XXX公司信息中心总体安全方针进行调整时;

(4)安全业界中发现新的、可能造成严重影响的安全事件;

(5)其他由XXXX公司信息中心规定的情况。

同时,本方案的更新将在及时响应、适当防护的原则下进行,在成本允许的情况下,及时的对方案中存在的问题进行调整,适应实际工作的需求;

5.附件

现场处置方案包含的主要附件如下:

 

附件1XXX有限责任公司信息中心机房基础设施故障应急现场处置方案体系结构图

 

附件2处置流程图

附件3突发事件应急报告表

报告时间:

______年____月____日

单位名称:

报告人:

联系电话:

通讯地址:

传真:

电子邮件:

发生事件的系统名称及用途:

负责部门:

负责人:

事件简要描述:

 

初步判定事故的原因:

 

当前采取的措施:

 

本次事件的初步影响状况:

 

事件后果:

 

影响范围:

严重程度:

值班电话:

传真:

附件4拓扑图

附件5机房动力系统运行环境

附件6信息安全事件应急响应结果报告表

信息安全事件应急响应结果报告表

原事件报告时间:

年月日时分

信息系统名称及用途:

已采用的安全措施:

信息安全事件的补充描述及最后判定的事故原因:

本次信息安全事件的初步影响状况:

事件结果:

影响范围:

严重程度:

本次信息安全事件的主要处理过程及结果:

针对此类信息安全事件应采取的保障信息系统安全的措施和建议:

记录人:

审核人:

时间:

附件7应急响应联络表

角色归属

姓名

电话

职责

信息中心

主任

负责领导机房基础设施故障事件调查、应急响应、应急处置、总结应急处理经验和教训等应急过程中的各项工作。

部长

负责机房基础设施故障事件的故障调查、应急响应、应急处置中有关应用系统的工作。

主管

负责落实机房基础设施故障事件的调查、应急响应和处置工作,负责向上级部门和下属单位和联系沟通工作。

网络运行维护专责

负责协助主管进行机房基础设施故障事件调查、应急响应和应急处置的工作。

系统运行维护专责

负责协助网络运行维护专责进行机房基础设施故障事件调查、应急响应和应急处置的工作。

安全监管

呼叫中心

负责通告系统故障及用户反馈

调度组

负责协调各部门人员进行应急处理

平台组

负责协助机房基础设施故障应急处置的工作。

其它部门联系人

呼叫中心

调度组

外委联系人

安全维护商

负责协助信息部进行机房基础设施故障事件调查、应急响应和应急处置的工作。

安全应急服务商

负责协助信息部进行机房基础设施故障事件应急处置的工作,提供必要安全技术手段支持。

设备服务商

负责提供设备故障原因分析、故障设备维护和更换等工作。

附件8技术措施方案(一事一案)

事件

机房动力系统电力供应中断

负责人

时间

事件监测

通过系统监测或用户报障信息,发现以下3种现象报障給网络安全组

1)机房内所有精密空调停运;

调度组、呼叫中心、运维组

10分钟

2)机房温度升高;

3)机房内设备受影响;

识别控制

过程描述

负责人

预计时长

1、快速识别

通过与大楼工程部值班人员沟通以及自检机房内供配电情况,判断为机房外部供电故障还是内部供电故障

运维组

5分钟

2、机房环境分析

1)机房内所有精密空调停运

2)机房温度升高

3)机房内设备受影响

运维组

20分钟

故障处置

过程描述

预计时长

1、断电原因排查

1)外部供电负责人或供电、UPS方面的厂家工程师进行排查处理故障

运维组

20分钟

2、关闭设备

2)20分钟内无法恢复供电,通知调度、平台、网络等进行关闭服务器、网络设备等在运行设备的紧急工作

运维组

20分钟

3、启动设备

3)等待外部供电恢复;恢复正常后由各设备

运维组

300分钟

4、业务测试

确认机房温度,设备运行是否正常。

调度组,运维组

10分钟

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 总结汇报 > 其它

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1