动环监控应急方案.docx
《动环监控应急方案.docx》由会员分享,可在线阅读,更多相关《动环监控应急方案.docx(11页珍藏版)》请在冰豆网上搜索。
动环监控应急方案
机房动力环境监控系统
应
急
方
案
书
一.概述
1.1.必要性
随着电子商务和企业信息化的发展,计算机机房建设的数量及规模不断扩大。
机房作为各单位信息交换及存储的枢纽,科学管理尤为重要。
以往用户对于机房管理的重点都集中在防黑客或非法入侵、电脑病毒、网络故障、数据备份等方面,往往忽略了机房的环境变化,可能致使产生不可预见的后果,如机房的温度、湿度过高、电力系统不稳定、机房安全措施不完善致使非核心工作人员进出机房操作,造成的隐患/故障而引发的机房事故,导致不必要的经济损失。
科学的管理计算机机房,才能保证机房内的网络和计算机等高级设备长期、可靠、稳定地运行。
机房集中监控系统,是相关人员管理机房的不可缺少的重要工具。
1.2.建设目标
为机房建立包括机房动力、环境及安防的监控系统,主要监控对象包括:
精密空调、UPS、蓄电池监测、电量检测、温湿度监测、漏水检测、门禁、闭路监控、消防监测等,实现7×24×365的全面集中监控和管理,保障机房环境及设备安全高效运行,以实现最高的机房可用率,并不断提高运营管理水平。
机房监控管理平台将实现四个目标:
⏹为机房内各系统及设备运行提供高度稳定可靠的监控信息资源;
⏹节省机房运行管理费用,达到短期投资长期受益的目的;
⏹确保提高机房管理工作效率并提供安全舒适的工作环境;
⏹系统软/硬件均采用模块化结构设计,适应发展需要,做到具有可扩展性、可变性,适应环境的变化和工作性质的多样化。
1.4.监控需求
机房集中监控内容包含以下部分:
ØUPS监测系统;
Ø蓄电池监测系统;
Ø供配电监测系统;
Ø精密空调监控系统;
Ø服务器监测系统
Ø漏水监测系统;
Ø温湿度监测系统;
ØH2浓度监测及机房洁净度监测系统;
Ø闭路监视及数字录像系统;
Ø防盗报警系统;
Ø门禁监控系统;
2.3.系统组成
整个系统主要由以下三个部分组成:
监控主机、现场设备采集层、远程IE浏览。
监控主机:
实时采集设备的各种信息,进行本地数据处理及存储。
现场设备采集层:
实时采集供配电、UPS、空调、漏水、温湿度、消防、照明、门禁、视频、防盗报警以及服务器和网络设备等现场信号,将采集的信号经过分析、处理以后,直接传送到现场监控工作站。
远程IE浏览站:
远程IE浏览站的主要功能是在通过网络在远程主机上以IE的方式进行浏览的功能。
在本系统中监控中心的管理服务器和现场的嵌入式服务器均支持IE浏览功能。
从而便于管理人员随时随地了解机房的实际工作状况,实现管控一体化,在远程的管理人员可以通过浏览器,直接观看监控画面,并且该监控画面与监控中心管理服务器和各现场嵌入式服务器保持一致,通过该界面远程监控设备的运行状况,远程浏览站还可浏览各机房的视频图像。
支持手机监控浏览:
支持所有型号智能手机浏览,手机浏览支持查看设备通讯状态,告警状态,所有测点当前值,当前状态.支持查看系统当前所有告警事件,并可从手机上确认事件.支持查看历史事件及历史数据。
下图为常见机房监控系统结构图:
如上图所示,监控主机设置可放置在值班室/保安室或机房内,值班人员可查看各个环境运行状况、获取报警信息,通过监控主机实现。
管理人员亦可通过对监控主机的Web浏览监控到自己环境的实时情况。
2.4.报警方式
本系统可以提供多种报警方式,见示意图:
一旦发现异常事件,系统即自动执行预定的控制策略,同时启动报警,报警可以有几种方式,如报警窗口、语音提示、电话语音、电子邮件、短信等。
如图所示。
使用时,可以选择其中一种或多种报警;当有多个报警同时发生时,系统通过事件等级,排队报警事件,并逐一报警,其中的电话号码、手机号码、电子邮件等由用户设置。
报警具备灵活定义功能,可以分别设置设备的报警方式以及相关管理人员,比如可以设定以下报警方式:
精密空调故障通过电话语音方式通知精密空调管理人员并发送电子邮件给主管人员,而消防报警可通过手机短信方式通知消防管理人员并发送电子邮件给主管人员。
这种方式大大增加管理的灵活度。
另外,我们根据行业经验,专门定制了网络报警功能,方便实用,具体说明如下:
当设备发生报警事件时,环境监控系统可通过局域网及时向环境管理人员的电脑发送报警信息,便于管理人员及时处理报警信息,如下图所示。
此时管理人员可打开IE浏览器查看报警设备的具体参数和状态,从而做出相应的决定。
网络报警方式与短信报警、电话报警的方式比较而言,其特点是实时性好,无须象电话、短信报警需要支付额外的费用,缺点是管理人员离开电脑就接收不到报警信息。
作为辅助报警功能,还是很实用的。
在报警时,系统同时提供专家处理意见,如果发生故障,而维护人员又不能及时赶到处理故障,则为了最大程度的减少客户的损失,在发生报警的同时提供专家处理意见,将用户的损失减小到最少。
备注:
报警功能可选组合使用,依据实际情况选用即可。
2.5.动力环境监控系统的应急预案
2.5.1.UPS监测系统
UPS是机房中提供稳定电源的关键设备,机房中许多设备如服务器、小型机、路由器等设备,都需要使用稳定的不间断电源,以防止数据丢失。
因此监管好UPS系统非常必要。
Ø监控对象
对机房内UPS主机的运行状态进行实时监测管理,UPS电源的各部件工作状态、运行参数等进行监测,一旦有部件发生故障,系统会自动报警。
Ø通讯方式
通过UPS设备提供的通讯接口RS485或RS232,将UPS的监控信号直接接入监控服务器或串口服务器(如果是RS232接口,需通过通讯转换模块将RS232转换成RS485信号),或者直接通过TCP/IP网络接口接入交换机/监控主机,由监控软件进行UPS的实时监测。
Ø应急功能
对UPS内部整流器、逆变器、电池、旁路、负载等各部件的运行状态进行实时监视(监测内容由厂家的协议决定,不同品牌、型号的空调可能所监控到的内容不同),一旦有部件发生故障,系统会自动报警。
并且实时监视UPS的各种电压、电流、频率、功率等参数,并有直观的图形界面显示。
系统可全面诊断UPS状况,监视UPS的各种参数。
一旦UPS报警,将自动切换到相关画面,并在现场伴随有报警声音。
可根据用户需要设置短信通知。
对于重要的参数,可作曲线记录,可查询一年内的曲线,使管理人员对UPS的状况有全面的了解。
及时地发现并解决UPS运行中出现的各种问题。
2.5.2.蓄电池监测系统
随着社会的进步和信息化、自动化程度的不断提高,人们对电力行业的依赖程度进一步加深,也就对供电系统的可靠性提出了更高的要求。
无论在电力变电站、通信机房还是UPS系统中,蓄电池作为备用电源在系统中起着极其重要的作用。
平时蓄电池处于浮充电备用状态,由交流市电经整流设备变换成直流向负荷供电,而在交流电失电或其它事故状态下,蓄电池是负荷的唯一能源供给者,一旦出现问题,供电系统将面临瘫痪,造成设备停运及重大运行事故。
Ø监控对象
机房配置的12V蓄电池。
Ø通讯方式
通过加装蓄电池检测仪与每节或每组电池进行连线监测,电池检测仪通过RS485或RS232(可设置)根据需要接入,并准确设置,直接接入监控服务器或串口服务器(如果是RS232接口,需通过通讯转换模块将RS232转换成RS485信号),由监控平台软件进行蓄电池的实时监测。
Ø应急功能
利用电池监测仪,采集每节电池的电压、内阻及电池总电压;在电池总进线及输出端安装直流电流传感器,实时监测电池组的总输入和输出电流;通过安装电池表面温度传感器,实时监测电池组的温度。
系统可对监测到的各项参数设定越限阀值(包括上下限、恢复上下限),一旦蓄电池发生故障,系统将自动切换到相应的监控界面,且发生报警的该项状态或参数会变红色并闪烁显示,同时产生报警事件进行记录存储并有相应的处理提示,并第一时间发出多媒体语音、电话/手机短信、声光等对外报警。
提供曲线记录,直观显示实时及历史曲线,可查询一年内相应参数的历史曲线及具体时间的参数值(包括最大值、最小值),并可将历史曲线导出为EXCEL格式,方便管理员全面了解蓄电池的状况。
2.5.3.供配电监测系统
机房区所有供电电源的质量好坏将直接影响机房设备的安全,因此采用智能电量监测仪对机房市电进线的供电参数实行监测非常重要。
Ø监控对象
对机房配电柜进行监控,设计在配电柜上安装电量仪对市电进线进行各项供电参数监测。
Ø通讯方式
可通过电量仪的RS485通讯接口将信号接入监控服务器或串口服务器,由监控平台软件进行市电的实时监测。
Ø应急功能
实时监测市电进线三相电的电压、相电流、线电压、线电流、有功、无功、视在功率、频率、功率因数、电度等参数。
系统可对监测到的各项参数设定越限阀值(包括上下限、恢复上下限),一旦市电发生越限报警,系统将自动切换到相应的监控界面,且发生报警的该项状态或参数会变红色并闪烁显示,同时产生报警事件进行记录存储并有相应的处理提示,并第一时间发出多媒体语音、电话/手机短信、声光等对外报警。
提供曲线记录,直观显示实时及历史曲线,可查询一年内相应参数的历史曲线及具体时间的参数值(包括最大值、最小值),并可将历史曲线导出为EXCEL格式,方便管理员全面了解市电的供电状况。
2.5.4.精密空调监控系统
机房温度出现异常时,将导致机房其他设备运行所需的环境失去保障,因此设计对机房内精密空调的运行状态和参数进行实时监测,同时可对精密空调进行远程的开关机控制。
Ø监控对象
对机房精密空调运行状态进行监控。
Ø通讯方式
通过UPS设备提供的通讯接口RS485或RS232,将UPS的监控信号直接接入监控服务器或串口服务器(如果是RS232接口,需通过通讯转换模块将RS232转换成RS485信号),或者直接通过TCP/IP网络接口接入交换机/监控主机,由监控平台软件进行UPS的实时监测。
Ø应急功能
实时监视精密空调压缩机、风机、水泵、加热器、加湿器、去湿器、滤网、回风温度和湿度等的运行状态与参数,并可对精密空调实现远程开关机的控制(能监测到的具体内容由厂家的协议决定,不同品牌、型号的精密空调所监控到的内容不同)。
同时支持与其它子系统的联动控制,如当温度过高时自动联动启动空调进行制冷。
系统可对监测到的各项参数设定越限阀值(包括上下限、恢复上下限),一旦精密空调发生故障,系统将自动切换到相应的监控界面,且发生报警的该项状态或参数会变红色并闪烁显示,同时产生报警事件进行记录存储并有相应的处理提示,并第一时间发出多媒体语音、电话/手机短信、声光等对外报警。
提供曲线记录,直观显示实时及历史曲线,可查询一年内相应参数的历史曲线及具体时间的参数值(包括最大值、最小值),并可将历史曲线导出为EXCEL格式,方便管理员全面了解精密空调的运行状况。
2.5.5.服务器监控管理
(1)服务器单点综合监控
在一个界面中,综合展现某台具体服务器的配置、性能、历史数据和故障信息。
服务器性能重点显示包括实时和最近24小时CPU平均利用率、MEM利用率、文件系统利用率。
(2)服务器性能管理
实现对主机性能、故障、进程、磁盘、文件系统、日志的监控,并生成报表和告警信息,主要的性能管理内容包括:
服务器CPU性能(5分钟、小时、日、周)
服务器内存性能(5分钟、小时、日、周)
服务器磁盘性能(日、周)
服务器流量性能(5分钟、小时、日、周)
服务器CPU峰值分析
CPU峰值分析(小时/日)
磁盘I/O繁忙分析
服务器I/O性能统计(小时/日)
(3)服务器接口流量管理
提供服务器小时、日、周、月流量趋势分析,并提供流量阀值告警,当服务器接口流量达到阀值时,产生相应阀值级别的告警事件。
(4)服务器进程管理
包括对服务器各进程性能的TOPN排名和进程性能趋势分析。
包括进程占用cpu利用率、占用cpu的时间、驻留内存和虚拟内存的大小。
(5)服务器监控管理主要指标
服务器监控管理的主要指标包括: