DCIM标准方案初版V32文档格式.docx
《DCIM标准方案初版V32文档格式.docx》由会员分享,可在线阅读,更多相关《DCIM标准方案初版V32文档格式.docx(37页珍藏版)》请在冰豆网上搜索。
为此中华人民共和国工业和信息化部在2015年3月颁布了国家绿色数据中心的试点工作方案,说明国家也开始关注数据中心的节能问题,数据中心的管理者开始响应国家号召关注节能措施。
但是,目前数据中心行业的现状是,部分数据中心用户不知道自己的PUE是多少,不知道能耗的使用分布;
部分数据中心用户知道了PUE和能耗分布,但不知道从哪方面去降低能耗,控制PUE;
部分数据中心用户知道如何降低能耗,但缺乏工具,无从下手,最后不了了之。
管理效率低——投产后的数据中心最关注的是稳定和高效,稳定与管理团队的日常运维相关,高效与科学化的监控管理系统相关,此中包含的三要素就是:
数据中心——监控管理系统——管理团队。
由此可知,监控管理系统相当于数据中心和管理团队之间的纽带,管理人员通过监控管理系统去感知数据中心的各项指标参数正常与否,结合数据调整运维流程,应对突发事件。
目前,绝大多数数据中心投入使用的监控管理系统繁多复杂,且各系统间的相互独立造成信息孤岛;
另一方面,现有的许多监控管理系统自动化、智能化程度不够,造成日常运维管理对人力依赖大。
运维团队一旦出现核心人员流失时,相关的管理经验和资料必然流失,甚至造成短时间内难以应付保障业务持续性的日常运维。
资产难管理——数据中心管理诸多管理工作中,涉及IT资产上架、下架、维护、盘点等工作十分头疼。
现有对IT资产的管理主要是依靠人工+简单系统统计来实现,例如定期对在架的资产盘点,在缺乏智能资产管理系统的状态下,处理这些工作对人手依赖程度高,工作内容简单重复,很难保证操作与记录的准确性,导致账实不符。
容量利用率低——数据中心的配电容量、制冷容量、机柜U位容量决定了该数据中心的计算能力。
在缺乏有效的管理工具的状况下,IT设备部署需求与数据中心容量实际供给情况难以匹配,导致基础设施容量实际利用率低。
据Gatener,90%以上的数据中心容量利用率不到70%。
故障定位难——数据中心管理人员对监控系统的核心关注点在于告警准确性,但实际上因为数据中心本身复杂性高,当一台设备出现故障时,经常引发并发告警。
因此,在基础设施的管理层面,必须依靠监控系统来精准定位故障,以确保管理人员第一时间知道后迅速处理恢复。
鉴于以上数据中心管理者所面临的各种痛点,应当采用一套可将:
基础设施、资产、容量、日常运维、机房安全性作出统一管理的系统。
数据中心基础设施管理(DCIM)系统就应运而生,亦是当前数据中心行业发展的必然趋势。
共济DCIM定义如下:
DCIM(DataCenterInfrastructuremanagement)数据中心基础设施管理系统融合基础设施监控、资产管理、容量管理、能耗管理、变更管理、可用性管理,在保证数据中心可用性前提下,提升效率。
1.2.需求分析
据XXX用户数据中心现状分析/XXX初步交流/XXXX项目招标技术文件/(请具体分析用户需求)
1.3.项目目标
为XXX客户布署数据中心基础设施管理系统。
实现以下目标:
1)实现数据中心基础设施集中监控,全面直观展示数据中心基础设施运行状态,精准定位故障,分析预防故障。
2)实现数据中心资产全生命周期智能管理,给客户提供面向企业内部统一的资产管理平台,提供机房实物资产自动化盘点工具,并为机房容量管理、配置管理等IT服务管理提供数据接口,协助管理员高效运维机房业务。
(根据实际情况删减)
3)建立数据中心各物理层级SPC容量模型,达到精细分析、处理与显示各层级容量数据。
综合U空间、供电、制冷、承重、电力口、光口、网口等因素构建容量模型,最大化提升资源利用率。
4)全面分析数据中心能耗分析分布,通过标准对比,提供能耗控制措施及自动化节能控制。
5)提供有效的变更管理工具,涉及数据中心的实现规范化流程管理。
6)实施展示数据中心各项指标的可用性。
第2章系统设计
2.1.设计概述
结合项目情况进行描述:
DCIM系统通过统一的操作平台和统一的通信平台,完成对XX数据中心的动力系统(供配电系统)、环境系统、安防系统(包括视频监控系统、门禁系统、防盗报警系统)、配线系统、IT管理系统)等各子系统无缝数据集成,实时获取各子系统监控数据,通过对各子系统监控数据处理、分析及逻辑判断,实现上述各子系统的集中视图、集中监控、集中告警、集中数据分析和统一运维管理。
对于各子系统集成,采用分布式部署、分散控制原则通过分布式部署系统采集网关,完成各子系统数据采集和分散控制交互,从而达到子系统之间的数据无阻塞交互、各子系统之间实现互通互联。
DCIM系统作为开放式信息交互平台,能够采用多种方式实现不同子系统厂商产品的信息接入及功能集成,如采用OPC、SDK、Webservice、Socket等多种方式。
针对各建筑内分散、相对独立的系统,通过独立部署系统采集网关的方式经由运维网络实现各系统之间的互联互通。
所有信息汇聚至DCIM系统,DCIM系统对外提供C/S客户端服务,在运维网络的任意一台工作站上,运维人员均可采用C/S方式对自身授权范围内的各上述子系统系统进行实时操作。
整体操控界面采用组态方式,提供多种展示工具,实现动态图形、文字、图像相结合,满足运维人员的查看、查询及管理需要。
DCIM系统通过系统网关完成各子系统之间的协议对接、标准协议转换、数据转换,实现综合监控系统与各子系统间的通讯联网和数据交互。
2.2.设计依据
XXX初步交流/XXXX项目招标技术文件/
《电子信息系统机房设计规范》(GB50174-2008)
《电子信息系统机房施工及验收规范》(GB50462-2008)
《电子计算机场地通用规范》(GB/T2887-2000)
《数据中心基础设施监控白皮书》
《数据中心基础设施管理白皮书》
《综合布线系统工程设计规范》(GB50311-2007)
《供配电系统设计规范》(GB50052-2009)
2.3.系统关键参数
参数类型
参数说明
容量
单台服务器50万测点
并发访问
200个
用户数量
大于5000
报警数据采集
小于6秒
命令下发控制
小于5秒
变化数据采集
页面响应速度
小于1秒
在架资产盘点
小于10秒
运行网络环境
内部网络不低于百兆带宽;
如需外网方位,需VPN网络做安全控制
运行服务器环境
不低于如下配置:
CPU:
Intel®
Core™I5以上
内存:
8G以上
硬盘:
1T以上
操作系统:
CentOS6.4
2.4.系统架构
2.4.1.物理架构
Ø
数据采集处理层
数据采集处理层设计为系统的数据入口,是系统管理所需基础设施数据的来源,其通过提供标准接口及协议,接收前端系统(如:
动环系统、楼宇监控系统、安防监控系统、BA系统等第三方系统)的监控数据。
管理服务层
管理服务层以下服务:
基础设施监控服务、能效管理服务、机房可用性监控服务、资产管理服务、容量管理服务、变更管理服务、报表报告服务、告警告知服务。
通过对采集数据进行二次计算,形成上层管理所需的数据。
(如,通过采集层采集的能耗数据,计算PUE;
通过配电、空调等设施状态数据,计算出数据中心当前可用性等级)。
随着数据中心管理成熟度的提高,增加功能模块扩展方式拓展运维管理功能,易满足数据中心管理需要,比如拓展增加工单管理、巡检管理等等模块。
展示层
展示层提供丰富的展示媒介,包括移动终端、PC、大屏等方式;
提供2D/3D展示效果;
提供友好的用户交付界面。
随着应用设备的发展,根据应用需要,在应用层增加相应的展示模块,即可实现多样的展示方式。
2.4.2.功能架构
系统采用模块化的架构进行设计,确保系统的稳定可靠运行,任何模块出现故障不会影响同级别的其他模块的正常工作;
系统采用分布式系统架构,确保系统后续的扩容能力和系统反应速度。
DCIM系统基于网络分布式部署,运维网络内的任意一台或多台集成工作站,运维人员权限相同时,系统将以相同的界面操作,管理整个机房权限范围内的子系统,并具备授权的所有操作功能。
当需要增加监控工作站时,可在机房区内的任何地方的运维网上增加网络点、工作站即可,通过系统提供的C/S、B/S方式进行管理,以最大限度保护投资,完成监控功能。
第3章DCIM系统功能
3.1.个人工作台
使用共济数据中心基础实施监控管理系统的运维人员,可以根据自己的工作需要,设置对应的个人工作台,在工作台中,显示自己关注或与自己相关的监控管理工作,以便只要打开DCIM客户端,就能立即查看自己所关心的、自己所要做的工作。
由系统管理员对不同角色的用户账户进行分配管理,具备提供开户、角色的权限修改。
其它普通用户可对自己账户进行页面风格设定、口令设置等一系列功能。
系统具有设置不同角色浏览不同界面、子系统的能力,如:
电工只可查看配电设备的监控信息,机电设备管理员通过只可查看机电设备的监控信息,高级管理员可查看所有信息。
基于对用户的管理,系统在展示界面中以“个人工作台”体现角色的分配,根据人员所处的“管理”、“决策”、“执行”层级自行定义用户的工作台界面。
3.2.基础设施监控子系统
3.2.1.设备监控
序号
监控分类
监控对象
数量
监控指标
效果示例
1
动力监控
低压进线总柜
X台
低压进线总柜:
监测其三相电的相电压、线电压、相电流、频率、功率、电度参数,以及断路器的分/合状态;
具有设备参数显示、故障波形捕捉、事件记录监控;
监测其三相不平衡度、零地电压、谐波含量参数。
ATS自动切换开关
ATS自动切换开关:
监测ATS设备的常用、备用电源线电压、频率参数,以及常用、备用电源的开/关状态。
(ATS应自带通讯接口,同时需ATS厂商开放通讯协议)
UPS输入配电柜
UPS输入配电柜:
监测其三相电的相电压、线电压、相电流、频率、功率、电度参数;
监测断路器的分/合状态。
低压配电柜
低压配电柜:
监测三相电的相电压、线电压、相电流、频率、功率、电度参数;
监测断路器的开/合状态。
UPS不间断电源
UPS不间断电源:
监测UPS三相输入电压,三相输入电流、输入功率、输入频率、三相输出电压、三相输出电流、输出功率、输出频率、电度、旁路电压、旁路电流参数,UPS输入、旁路、逆变器、整流器状态及电池充放电状态;
宜监测电池后备时间参数。
不对UPS进行控制。
(UPS应自带通讯接口,同时需UPS厂商开放通讯协议)
蓄电池组
蓄电池组:
监测蓄电池组总电压、单体电压、充放电电流以及单体表面温度参数;
监测蓄电池单体内阻参数。
UPS输出配电柜
UPS输出配电柜:
列头柜
列头柜:
监测其三相电的相电压、线电压、相电流、频率、功率、电度、各支路电流参数、各支路分/合状态以及断路器的分/合状态。
(列头柜应自带通讯接口,同时需列头柜厂商开放通讯协议)
柴油发电机
柴油发电机:
监测发电机三相输出电压,三相输出电流,输出频率,输出功率参数,以及其工作状态(运行、停机)、工作方式(自动、手动)、市电故障状态;
宜监测其油罐的液位、润滑油油压、润滑油油温参数;
宜监测发电机的转速、水温(水冷)、皮带断裂(风冷)、启动失败,过载状态。
(发电机应自带通讯接口,同时需列头柜厂商开放通讯协议)
PDU
PDU电力分配单元:
监测PDU主输入的电压、电流、功率、电度、各支路电流。
(PDU应自带通讯接口,同时需PDU厂商开放通讯协议)
STS
STS静态转换开关:
监测输入、输出线电压,输入、输出相电流,频率,功率因数参数,以及双路电源的开/关状态。
(STS应自带通讯接口,同时需STS厂商开放通讯协议)
2
环境监控
精密空调
精密空调:
监测其开、关状态、送风温度/湿度、回风温度/湿度参数;
控制其开、关机。
(精密空调应自带通讯接口,同时需精密空调厂商开放通讯协议)
普通空调
普通空调:
监测普通空调的开、关机状态,控制其开、关机、温度设置;
实现来电自启动。
新风机
新风机:
对机房的独立新风机进行监控;
机房如与其他功能用房建于同一建筑内,并与其他功能用房共用新风系统,宜通过集成方式获取有关机房新风系统的监控数据;
应监测新风机启/停、过滤网压差状态;
宜控制新风机的启、停,同时确保新风机与压差的联动。
温湿度
温湿度:
监测主机房内的温度值、湿度值;
漏水
漏水:
监测机房内有水源区域的漏水状态,显示具体漏水位置。
避雷
防雷器:
监测机房配电设备的各级防雷装置的工作状态。
加湿器
加湿器:
监测加湿器的开、关机、工作状态,以及湿度参数,控制加湿器的开、关机。
(加湿器应自带通讯接口,同时需加湿器厂商开放通讯协议)
微环境系统
微环境系统:
监测机柜温湿度、机柜级电源、机柜烟雾、机柜门状态、机柜附近人员活动情况。
3
安防监控
视频监控
视频监控:
包含视频探测、图像实时监视和有效记录、回放;
对多路图像信号实时传输、切换显示,应能定时录像、报警自动录像,报警自动录像应包含预录像功能,对云台、镜头预置和遥控;
显示、记录、回放的图像质量及信息保存时间应满足机房管理要求,每路视频存储时间应30天或以上。
门禁
门禁:
监测主机房、支持区出入口的开/关状态,自动记录、存储各种刷卡、报警事件;
系统应满足紧急逃生时人员疏散的相关要求,在紧急逃生时,能自动开门;
对受控区域的位置、通行对象及通行时间等进行实时控制,能远程控制开关门。
消防告警
消防告警:
监测消防告警主机的告警信号。
防盗入侵
防盗入侵:
安装入侵探测设备,构成点、线、面、空间或其组合的入侵报警系统;
显示和记录报警部位和有关警情数据,提供与其它子系统联动的控制接口信号。
4
IT设备监控
服务器
使用资产检测条:
在架位置
使用IT监测:
实时功耗、进风温度、利用率、硬件错误报警(风扇故障)
远程开关机、远程控制功耗
交换机
实时功耗、进风温度
存储设备
:
5
第三方系统集成
消防系统
X套
消防系统:
基础设施监控管理系统应通过集成方式获取消防系统的监控数据;
监测消防系统的各种参数和报警事件,不对消防系统进行控制;
消防系统提供集成接口及协议。
高压变配电系统
高压变配电系统:
基础设施监控管理系统应通过集成方式获取高压变配电系统的监控数据;
监测高压变配电系统内各种配电设备的参数、状态及报警事件,不进行控制;
高压变配电系统提供集成接口及协议。
配线系统
X
套
配线系统:
基础设施监控管理系统应通过集成方式获取楼宇自控系统的监控数据;
展示配线路由,监测配线设备参数、状态及报警事件,不进行控制。
配线系统提供接口及协议。
楼宇自控系统
楼宇自控系统:
监测楼宇自控系统内各种设备的参数、状态及报警事件,不进行控制;
楼宇自控系统提供集成接口及协议。
智能照明系统
智能照明系统:
基础设施监控管理系统应通过集成方式获取数据中心的智能照明系统监控数据;
应监测智能照明系统的灯光状态;
进行开关控制、场景切换、亮度调节及联动控制;
智能照明系统应对第三方系统提供集成接口及协议。
3.2.2.告警功能
系统提供灵活多变的告警管理功能:
报警机制:
系统对报警事件按优先级的高低进行处理,并具备过滤机制。
报警方式:
灵活多样,可以根据报警事件的报警级别提供不同的报警方式:
手机、短信、电话等告警模式,同时告警信息可以限次播放,而且在两次告警间的停顿时间可以设置。
定时信息发送:
系统可通过短信等方式定时或按指定时间段发送机房相关信息,如:
每天8点至24点期间逢整点发送指定测点温度、定时(每天中午12点及晚上8点)发送机房整体运营状况等。
排班管理:
根据预先设置的规则自动调整值班班次,实现自动短信通知值班人员进行上班提醒、值班情况考勤管理等功能。
可与报警系统进行关联,还可以针对值班顺序作相应的报警发送,避免发生报警骚扰。
按管理范围、值班情况报警:
可以根据排班情况进行报警,报警只发给值班人员,休假时可以免除收到报警,避免形成“骚扰”;
并可根据管理员管理范围划分进行报警,设置好后只会收到管辖范围内的报警,避免引起管理混乱。
报警屏蔽:
可以屏蔽掉不重要的报警信息,增强系统的灵活性、提高对数据的可信度。
报警级别:
报警信息可分级管理,用户可以根据实际发生的报警情况的紧急程度,选择不同的报警级别,对不同的报警级别,系统会以不同的报警方式对外报警。
报警升级:
当一条报警信息在规定时间内没有得到确认,变会以升级的方式向上一层用户报警。
主要有人员升级与设备升级两种方式。
人员升级是指第一级报警接收人员在规定时间内没有确定报警信息,报警信息便发送给系统中设定好的上一级用户,以使报警信息能够得到及时处理。
设备升级是指当使用第一种报警方式发出的报警信息在规定时间内没有得到确认,系统便自动使用设定好的新一级报警方式发送报警信息,以使报警信息能够得到及时处理。
报警对象的准确定位:
对报警的设备、事件、内容等进行准确定位,例如:
“XX机房的当前温度为27.5度,温度过高,请立即查看”“XX机房UPS组电压偏低,请立即检查”。
报警过滤机制:
例如当某台UPS市电供入出现故障,可能会产生一系列的故障事件,如组电压偏低、单相参数为零、逆变器参数骤变等等,报警过滤机制则通过智能化的分析手段,对故障告警进行过滤,可准确定位故障为“UPS市电供入断开”,而不会发出一系列无关的告警事件,防止短信骚扰管理人员。
短信查询:
可以向监控系统发送短信获取设备数据。
报警跟踪:
系统提供对于任意一条报警信息的状态进行跟踪统计,包括报警时间,报警内容,确认时间,处理时间,处理日志以及处理人等情况的统计。
并可对各项报警信息进行及时度统计。
未恢复报警事件列表:
提供设备报警状态的显示列表,可查看哪些设备有报警,是否报警恢复。
设备屏蔽的邮件提醒解锁功能:
对设备屏蔽报警后,可设置多长时间后通过邮件方式提醒管理人员进行解锁,且下次任何人员登录时系统自动显示所有已屏蔽的设备列表。
预警管理:
设备告警支持预警功能。
用户可为关键的数据点设定预警阀值,系统通过趋势判断,在设备产生真正的告警之前先产生预警,提醒用户及时处理,避免真正告警的产生。
告警发送记录与查询:
告警平台支持对所有告警发送任务的跟踪和记录,并提供方便的查询界面,便于用户对历史的发送情况进行管理。
双向短信查询系统支持双向短信查询,可以查询设备的实时数据、状态,也可以查询指定时间段、指定级别的系统事件。
查询内容可由用户自行定义。
每一组查询都有权限控制,只有经过授权的手机才可以执行相应的查询。
3.2.3.设备展示功能
在系统中可动态的展示机房内重要设备的关键参数,展示方式有2D和3D展示模式。
2D展示
系统直观显示出机房内部布局情况,并通过系统数据采集和处理,将每一机房内智能设备的关键参数清晰显示。
根据设备的种类分配每一个子系统,例如:
电力子系统
通过一张电力拓扑图,能快速掌握机房的电力系统,并通过该拓扑图帮助电力运维工程师管理机房内电力设备,在日常运维中发现风险点,保障机房供电安全。
3D展示
传统数据中心监控系统主要采用“示意图+图例+数据”的展示方式,随着数据中心的日益扩大和用户需求的不断提升,这种方式已无法满足大型数据中心群的展示需要。
为提高数据中心群的客户体验,我们推出了一套可将数据中心平面监控转化为具有高度现场感、仿真感的立体监控系统。
通过前期的建模,将现实的建设设备模拟成3D模型,并在模型中动态显示出设备的关键参数。
3.3.能效管理子系统
3.3.1.能效管理概述
信息化发展使数据中心能耗逐年上升,运行费用成为重大经济负担,巨大的碳排放也污染了环境;
数据中心高能耗已经成为公众关注的社会问题。
能源消耗和空间利用是数据中心最大的成本所在。
对于IT管理者而言,这也是限制数据中心扩容的重要因素,但要确定一个数据中心的能效水平的高低,远比一般人想象的复杂的多。
数据中心能效管理主要是先通过前端的数据采集系统计算出各个分项能耗,然后通过对比分析、统计,通过系统的智能判断与报表的分析结果,告诉管理人员如何对数据中心的能耗进行优化改进。
3.3.2.能效管理功能介绍
3.3.2.1.能效展示
传统数据中心能耗如下:
能效分析模块为客户提供能效视图,让客户清楚整体数据中心的能源都消耗在哪些环节,并且提供分析工具,帮助用户找出各种异常的用电行为,找出可以节能的依据。
PUE展示可根据用户实际机房配电情况而定,采取多种方式确保PUE展示准确,能耗使用分布展示准确。
PUE=机房总能耗/IT设备能耗=1+CLF+PLF+ALF
CLF(制冷能效因子)=制冷系统能耗/IT设备能耗=PM5/PM3
PLF(供配电能效因子)=供电系统能耗/IT设备能耗=(PM1+PM2-PM3-PM4-PM5-PM6)/PM3
3.3.2.2.能耗分析
首先需要统计出数据中心的能耗系统图,了解各个模块能耗情况。
如能源输入能耗、变配电能耗、负载能耗等。
其次对各个分项能耗进行精细化分析,如对单台IT设备能耗进行统计,制冷子系统能耗、通风子系统能耗、变配电子系统能耗、照明子系统能耗等。
数据采集完成后,通过能耗分析管理系统平台分析,为我们提高数据机房的电源使用效率指明方向。
分析思路如下:
●显示对标
显示对标分为长期分析对标和短期测量对标。
长期