数据中心基础设施集中管理方案.docx

上传人:b****7 文档编号:8971353 上传时间:2023-02-02 格式:DOCX 页数:24 大小:5.55MB
下载 相关 举报
数据中心基础设施集中管理方案.docx_第1页
第1页 / 共24页
数据中心基础设施集中管理方案.docx_第2页
第2页 / 共24页
数据中心基础设施集中管理方案.docx_第3页
第3页 / 共24页
数据中心基础设施集中管理方案.docx_第4页
第4页 / 共24页
数据中心基础设施集中管理方案.docx_第5页
第5页 / 共24页
点击查看更多>>
下载资源
资源描述

数据中心基础设施集中管理方案.docx

《数据中心基础设施集中管理方案.docx》由会员分享,可在线阅读,更多相关《数据中心基础设施集中管理方案.docx(24页珍藏版)》请在冰豆网上搜索。

数据中心基础设施集中管理方案.docx

数据中心基础设施集中管理方案

 

数据中心基础设施集中管理方案

1.项目概述及需求理解

1.1.项目背景简介

伴随着数据中心规模的不断扩大,业务量的逐渐增大,对数据中心的运维管理也变的越来越重要。

一旦基础设施系统出现问题,而没有及时地得到妥善解决,常常会给企、事业造成很大的损失。

怎样能7x24小时保证设备系统的正常运行,避免各种故障的发生,优化和改进传统的运维模式,提高客户服务的及时性和满意度就显得非常重要。

因此,建设一套数据中心基础设施管理系统势在必行。

一个完备的运维管理系统能够提供7x24小时检测基础设施运行状态、各种资源状态的信息。

运维管理人员依靠流程管理系统可以及时排除故障避免造成重大损失,控制运维质量提高服务水平。

1.2.项目管理范围

项目内容:

Ø设施故障发现与警报;

Ø记录日常运维日志信息;

Ø设施故障统计;

Ø设施软硬件信息统计;

Ø服务进程管理;

Ø将数据信息存储备份,并采用不同方式直观的展示出来;

Ø服务人员绩效、考核管理;

Ø将数据生成报表;

1.3.项目建设原则

数据中心基础设施管理系统建设指导思想是:

“统一规划、分步实施、已有纳入、新建遵循”。

数据中心基础设施管理系统项目建设是要建设一个集中管控资源的运维平台,所以需充分考虑对已有各种产品组件做针对性的开发、整合工作。

在项目建设过程中,除满足系统功能需求外,遵循如下原则:

●安全性原则:

系统设计注重安全方面的设计,确保系统的安全运行。

系统提供安全认证技术,确保登录身份认证安全性、有效性。

●稳定性原则:

保证系统不间断运行,系统执行监控及操作任务时或出现自身故障,绝不能影响被监控及操作对象的正常稳定运行。

●开放性原则:

系统遵循行业主要的标准化组织所提供的标准或建议,采用标准的、开放性的技术,能够实现与其他厂商的产品无缝地连接;采用国际标准化组织及工业界广泛接受的有关标准和基于标准的通用软硬件平台。

●可扩展性原则:

在保持系统的基本体系结构长期稳定的前提下,可以有效地容纳和支持基础设施规模的不断扩大和复杂、业务种类的增多。

同时,能够在应用体系结构和软件模块划分两个方面支持整个应用的良好扩展性。

在体系结构方面采用多层结构划分,实现各层的高聚合和层间低耦合。

尽量使用模块化和插件化,使得扩展时对原系统的影响最小化。

●用户体验优化原则:

具有较高的易用性,界面友好,美观统一,并对人机交互进行优化设计。

●灵活性原则:

系统各子系统及子系统内功能模块具有一定的独立性,同时具有系统相关性和整体一致性。

系统提供自动化升级维护功能,系统的维护及拓展灵活、方便。

●规范性原则:

统一接口标准,规范数据字典。

定义监控接入标准,规范未来新建系统的监控。

1.4.项目建设目标

加强数据中心的维护平台建设,提高数据中心的运行管理水平,通过运维体系的建设,结合构建集中式的服务热线、运维流程、系统监控和综合展示系统,通过系统联动,及时、准确、全面反映与掌握数据中心的运行状态,保障各业务系统的正常运行,并达成如下目标:

(1)强化主动监控,实现集中管理。

以设施资源可用性监控为主线,构建数据中心统一集成的设施资源及应用服务监控平台,能够主动、及时地发现问题,并调度资源解决问题,形成数据中心运维管理主动服务的新局面。

(2)帮助定位故障,快速恢复系统运行。

建立集中的告警分析及展现平台,提供灵活、自动化的事件处理能力。

当故障产生时,可以进行故障的快速定位,发现故障原因,调度资源快速恢复系统服务,从而缩短故障解决时间,降低维护成本,提高系统整体可用性。

(3)掌握运行质量与效率,合理利用资源。

建立数据中心基础设施管理系统平台后,可以实时了解数据中心全部资源的负载与使用情况,根据需要从整体角度考虑资源的使用,同时可以根据业务高峰期的不同来调剂业务系统对资源的使用。

(4)规范运行管理,有序开展维护。

参照数据中心运维规范,对运维管理工作进行优化,对服务管理进行改善,将管理数据电子化,管理过程规范化。

根据相关制度进行运行维护管理,对内完善流程,对外提高服务,加强管理,使流程更规范更合理,使技术人员具备更高的工作效率,提高业务技术能力和解决实际问题的能力。

(5)共享运维经验,完善知识库。

把运维过程中产生的丰富经验进行积累和总结,形成有效的知识库,建立知识的共享机制,提供信息共享和交流的平台,提高数据中心运维人员的工作效率。

1.5.解决方案概述

DCIM系统是在在分析了国内数据中心管理现状和需求后,自主研发而成。

秉承以客户为中心、流程为导向的理念,实现对基础设施资源的全面管理,完美整合了人员、技术和流程三大要素,帮助用户以较低的成本提供稳定、优质的服务,共同实现基础设施服务的目标。

DCIM系统提供了“无缝式基础设施监控系统”功能,其系统架构清晰,采用模块化的设计理念,各功能模块既可独立运行、松散耦合;亦可整体功能无缝衔接覆盖整个业务系统,灵活的自由组合真正实现个性化的基础设施无忧运维。

DCIM系统提供一个图形化、可定制、统一的监控管理平台。

通过它实现对基础架构性能和告警数据的直接监控与展示,实现对用户环境的整体运行状态的监控管理。

1.故障预警和管理

前瞻性地发现系统的故障和性能问题,能够快速识别、隔离、诊断和修复生产中出现的问题。

1)前瞻性发现基础设施和应用系统的故障。

2)前瞻性检测复杂的应用性能问题。

3)基于业务的性能影响分析报告

4)快速识别、隔离和诊断问题的起因,事故根本原因分析。

5)对一些简单的故障问题,提供自动化修复故障的功能;对复杂的故障和性能问题,尽可能提供修复故障和改善性能的建议。

6)提供的丰富的事件通知功能,事件通知方式包括:

-Mail自动向指定邮箱发送告警邮件。

-短信自动向指定手机发送告警短信。

-声音自动产生声音告警。

-图像自动以图标形式显示告警事件。

-其它通过二次开发可实现特殊要求的告警方式。

7)提供监控参数化配置管理,参数超过设定阀值,产生报警信息。

2.多层次的视图展示

直观、准确地体现各层面的系统和业务运行状态,分别展示不同管理层次和范围的系统运行状态。

根据企业的业务特点和管理习惯,可将展示视图分成一级视图、二级视图和三级视图,分别展示不同管理层次和范围的系统运行状态(如下图所示)。

3.集中统一的管理界面

用户在统一监控管理平台上可查看所有视图,提供直观的图形用户界面。

1)基于上下文环境和组合视图,降低用户诊断问题的时间。

2)基于角色和权限的控制,增强管理的安全性。

3)提供可定制化的工作区和视图,提高操作的灵活性。

4.开放的接口

能够集成第三方监控工具,实现将第三方监控(例如BA、安防、柴发、电力或特定应用管理工具等)完全变为监控系统的一部分。

5.丰富的报表展示功能

提供统一的报表界面,具备强大的数据展现能力:

1)提供网络、系统、数据库、网络、中间件、应用和业务运转状况的集中统一报表

2)提供实时与历史性能报表

3)提供数据分析、展现和用户报表定制功能

4)预制报表模板

5)自动周期性报表,如日报、周报、月报、季报、年报等

6)支持PDF、HTML、Excel等报表格式

2.系统架构及实现原理

2.

2.1.基础设施管理

2.1.1.资产管理

3.2.1.1资产台账管理

IT设备基本信息管理:

单台设备的基本信息包括设备名称、固定资产号、供应商、供应商电话、保修到期时间、技术状况、设备位置、资产类型、IP地址,购买日期,设备所使用的操作系统,供应商信息等,要便于管理员编辑查询;能够对物理资产信息按照需求字段进行导出或导入。

3.2.1.2设备出入管理

管理员可以根据设备出入机房门的动作,在系统中录入相应信息,可以在数据模型基础上完成规划合理性的检验,从而达到资产配置的最优化。

3.2.1.3上下架位置管理

上、下架作业:

管理员能在系统中记录和编辑IT设备目前是上架状态还是下架状态。

位置管理:

管理员能在系统中记录和编辑设备的位置信息,可以精确到机柜内设备所在位置的预设和管理,自动记录资产移入移出机柜的情况,对异常的资产进出机柜进行报警。

3.2.1.4固定资产生命周期管理

对资产的全生命周期,从入库、上架使用、迁移、保养、维修、返库到报废的全过程进行监控和管理。

3.2.1.5报表管理

根据机房资产类型、位置、负责人、折旧等多方面,自动生产各类报表,便于规划设计和部署,可以按照历史日期查询变更历史记录,并生产对应的历史记录报表。

报表格式包括Excel、PDF、HTML等,显示方式包括曲线图、饼图和柱状图。

3.2.1.6资产定位管理

系统可根据资产的具体情况,进行实时的定位监控。

通过在各个机架安装RFID资产检测条,覆盖所有固定资产,从而实现贴有RFID标签的固定资产的实时定位监控。

2.1.2.容量管理

3.2.2.1容量建模

容量建模部分是容量管理功能的内核,旨在建立数据中心各物理层级SPC容量模型,以便精细分析、处理与显示各层级容量数据。

综合U空间、供电、制冷、承重、电力口、光口、网口等因素构建容量模型。

涵盖数据中心、机房、虚拟机房、列、机柜等不同层级。

3.2.2.2容量展示

按容量模型,分管理层级或设施物理层级在页面上实时显示SPC等容量数据、预警与告警信息。

3.2.2.3容量分配及优化

容量预分配功能模块旨在对数据中心的容量分配进行管理,可以提供可用机位、机柜位的搜索、预占、审核和上线功能。

对于已经预占的机位和空间,考虑不同项目的优先级,管理员可以审核、取消、编辑和再分配,以确保高优先级项目的顺利执行,并避免资源的随意占用和资源闲置。

1)预占管理

预占管理模块旨在根据工程项目需求,对机房或机柜的可用空间进行查询、浏览、预占。

根据项目实际情况,管理员可以对已占空间进行调整,以实现场地的有效管理,避免随意占用和资源浪费。

2)预占审批

在机柜或机房预占操作之后,需要由管理员进行审核,审核确认后容量预占才生效。

经审批,优先级高的预占可以插队。

此模块包括的功能有资源预占审批、预占申请详情展示、审批历史查询等功能。

3)上线管理

设备上架后,容量预占状态变成已上架(已占),之后高优先级的项目将无法搜索和使用相关的容量。

能自动检测的主要容量信息(SPC、承重)自动更新,次要容量信息(网络端口、电力端口)可由工程实施人员更新。

2.1.3.能耗管理

3.2.3.1PUE计算

“PUE概念的引入为数据中心能耗评估提供了一个可供量化的指标评价体系,但是在能耗总量(电量)评估、测量点、能量维度、可操作性等多个方面有所欠缺,所以TGG(TheGreenGrid)提出了对PUE进行分类定义。

根据TGG提出的概念,PUE被分为四类,分别是PUECategory0(PUE0),PUECategory1(PUE1),PUECategory2(PUE2),PUECategory3(PUE3)。

其中,PUE0与2007年提出的概念是一致的,而PUE1,PUE2,PUE3是新扩展的概念。

最大的区别是,PUE0是采用功率的比值,而新扩展的三项是采用电量作为比值,而这三项的不同是在于对IT设备耗电量的测量点的不同。

定义\级别

PUE0

PUE1

PUE2

PUE3

IT负荷测量点

UPS输出

UPS输出

PDU输出

IT设备输入

IT设备能耗

峰值IT负荷电力需求(kW)

IT负荷12月内累计能耗

IT负荷12月内累计能耗

IT负荷12月内累计能耗

总能耗

总能耗峰值电力需求(kW)

总能耗12月内累计能耗

总能耗12月内累计能耗

总能耗12月内累计能耗

3.2.3.2能耗分析及统计

数据中心能耗主要组成:

◆制冷设备是为保证IT设备运行所需温、湿度环境而建立的配套设施

◆IT设备包括计算、存储、网络等不同类型的设备

◆供配电系统提供满足设备使用的电压和电流,并保证供电的安全性和可靠性

◆其他:

照明、安防设备、灭火、防水、传感器以及管理系统等

能效管理指标的计算数据全部来源于以上能耗单元;

可分析包含PUE、pPUE、CLF、PLF、ERE(如有)等能效指标;

pPUE1=局部耗电总量/局部设备耗电量

▪对数据中心的局部区域或设备的能效进行评估和分析;

▪适合用于基于集装箱、模块化数据中心或者由多个建筑和机房构成的较大型数据中心的局部能效评估;

CLF=制冷设备耗电/IT设备耗电

PLF=供配电系统耗电/IT设备耗电

▪数据中心总耗电≈制冷设备耗电+供配电系统耗电+IT设备耗电

▪以上各项除以IT设备耗电,可以变换得到PUE≈CLF+PLF+1

RER=可再生能源供电/数据中心总耗电

▪用于衡量数据中心利用可再生能源的情况,以促进可再生、无碳排放或极少碳排放的能源利用;

▪可再生能源供电可能来自市电(例如水电),也可能来自于自供(例如数据中心装配太阳能或风能发电机),并假定市电中可再生能源占比为r%。

3.2.3.3温度场管理

通过运算子系统生成实时的温度场3D云图并绘制切面云图,要求有多个方向、剖面等云图,有热点可发出报警事件。

对于每个机房或者机房区域,可以设置多个切面以供温度场浏览。

每个机房区域默认包括5个切面:

部署的三层传感器所对应的三个切面,出风切面和回风切面。

可对已有的切面进行查看和删除。

系统支持查看机房或者机房区域中的当前时刻的温度场云图,温度场效果通过不同的切面来表现。

切面须包括系统自动产生的典型切面和自定义切面。

应可以查看不同切面的温度场云图,也可在云图中双击查看任意点的温度值和温度曲线图。

温度场云图须能提供2D和3D两种展现方式,每幅云图都必须具备缩放功能。

系统支持查看指定机房在某个时段的异常温度报表,异常类型包括:

采集异常、超过上限、超过下限。

 

2.2.基础设施集中监控

基础设施集中监控采用一体化监控采集系统(运行在嵌入式服务器上),系统主要功能有:

机房设备监控:

系统自身提供各种设备通讯接入端口,连接各种设备,例如红外,烟感、水浸、门禁、视频、空调,电源,UPS,发电机,服务器等,一旦发现异常,自动报警,发送报警通知信息并联动控制。

动力监控支持:

UPS、市电电量、配电开关、蓄电池组、精密配电柜、ATS/STS、电源支路电流、PDU机柜电源、防雷器、发电机等设备监控;

环境监控支持:

空调、漏水、温湿度、空气质量、光照度、粉尘含量等监测;

安防、消防支持:

视频监控、门禁管理、入侵检测、火灾检测、极早期监测;

微环境监控支持:

监控机柜内的温度湿度状态、线路状态、供电状态,保障核心设备的稳定运行,辅助分析机房的局部环境及能源应用情况;

联动控制:

对所有设备设置报警上下限,任何设备数据超出范围,系统能够产生报警信息,并联动控制其他接入设备,例如录像、喷淋、新风机、空调等。

2.2.1.UPS监控

Ø监控内容

设计对机房内UPS电源的各部件工作状态、运行参数等进行实时监测,一旦发生故障及报警通过监控平台发出对外报警。

Ø实现方式

通过UPS设备提供的RS485(或RS232)智能接口及通讯协议,采用总线的方式将UPS的监控信号直接接入监控主机的串口,由监控平台软件进行UPS的实时监测。

Ø实现功能(只监不控)

◆实时监视UPS整流器、逆变器、电池(电池健康检测,含电压电流等数值)、旁路、负载等各部分的运行状态与参数(能监测到的具体内容由厂家的协议决定,不同品牌、型号的UPS所监控到的内容不同)。

◆系统可对监测到的各项参数设定越限阀值(包括上下限、恢复上下限),一旦UPS发生越限报警或故障,系统将自动产生报警事件,并第一时间发出语音、电话、短信等对外报警。

◆提供曲线记录,直观显示实时及历史曲线,可查询一年内相应参数的历史曲线及具体时间的参数值(包括最大值、最小值),并可将历史曲线导出为EXCEL格式,方便管理员全面了解UPS的运行状况。

2.2.2.蓄电池监测

Ø监控内容

设计对机房内蓄电池的参数进行实时监测,一旦发生故障通过监控平台发出对外报警。

Ø实现方式

通过加装蓄电池检测仪与每节电池进行连线监测,多台蓄电池检测仪通过RS485智能接口及通讯协议采用总线方式将信号接入监控主机的串口,由监控平台软件进行蓄电池的实时监测。

Ø实现功能

◆实时监测蓄电池组的总电压、充放电电流、电池表面温度(可选,需配置贴片式温度传感器)、单体蓄电池的电压参数。

◆系统可对监测到的各项参数设定越限阀值(包括上下限、恢复上下限),一旦蓄电池发生故障,系统将自动产生报警事件,并第一时间发出语音、E-Mail、声光等对外报警。

◆提供曲线记录,直观显示实时及历史曲线,可查询一年内相应参数的历史曲线及具体时间的参数值(包括最大值、最小值),并可将历史曲线导出为EXCEL格式,方便管理员全面了解蓄电池的状况。

2.2.3.配电参数监测

Ø监控内容

机房市电的供电质量好坏将直接影响机房内用电设备的安全,设计在配电柜上安装电量仪对市电进线进行各项供电参数监测。

Ø实现方式

通过在配电柜中安装带液晶显示的电量仪对进线实现监测,既可在配电柜表面实时看到电量仪采集到的参数,亦可通过电量仪的RS485智能接口和通讯协议采用总线的方式将信号接入监控主机的串口,由监控平台软件进行市电的实时监测。

Ø实现功能

◆实时监测市电进线三相电的相电压、线电压、相电流、频率、功率因数、有功功率、无功功率等参数。

◆系统可对监测到的各项参数设定越限阀值(包括上下限、恢复上下限),一旦市电发生越限报警,系统将自动产生报警事件,并第一时间发出语音、电话、短信等对外报警。

提供曲线记录,直观显示实时及历史曲线,可查询一年内相应参数的历史曲线及具体时间的参数值(包括最大值、最小值),并可将历史曲线导出为EXCEL格式,方便管理员全面了解市电的供电状况。

2.2.4.发电机监测

Ø监控内容

设计对(柴油、燃气)发电机各部件的工作状态及运行参数进行实时监测,一旦发生故障及报警通过监控平台发出对外报警。

Ø实现方式

通过发电机设备提供的RS485(或RS232)智能接口及通讯协议,采用总线的方式将发电机的监控信号直接接入监控主机的串口,由监控平台软件进行发电机的实时监测。

Ø实现功能

◆实时监视发电机的输出电压、电流、功率、油压、水温、转速等参数(能监测到的具体内容由厂家的协议决定,不同品牌、型号的发电机所监控到的内容不同)。

◆系统可对监测到的各项参数设定越限阀值(包括上下限、恢复上下限),一旦发电机发生越限报警或故障,系统将自动产生报警事件,并第一时间发出语音、电话、短信等对外报警。

◆提供曲线记录,直观显示实时及历史曲线,可查询一年内相应参数的历史曲线及具体时间的参数值(包括最大值、最小值),并可将历史曲线导出为EXCEL格式,方便管理员全面了解发电机的运行状况。

2.2.5.精密空调(加湿器)监控

Ø监控内容

机房温度、湿度出现异常时,将导致机房其他设备运行所需的环境失去保障,因此设计对各机房内空调(加湿器)的运行状态和参数进行实时监测,同时可对空调(加湿器)进行远程的开关机控制。

Ø实现方式

通过空调(加湿器)设备提供的RS485智能接口及通讯协议,采用总线的方式将空调的监控信号通过串口服务器转换为网络信号接入监控主机的网口,由监控平台软件进行空调的实时监测。

Ø实现功能

◆实时监视空调(加湿器)压缩机、风机、水泵、加热器、加湿器、去湿器、滤网、回风温度和湿度等的运行状态与参数,并可对空调实现远程开关机的控制(能监测到的具体内容由厂家的协议决定,不同品牌、型号的精密空调所监控到的内容不同)。

◆系统可对监测到的各项参数设定越限阀值,一旦精密空调(加湿器)发生故障,系统将产生报警事件,并第一时间发出语音、电话、短信等对外报警。

◆提供曲线记录,直观显示实时及历史曲线,可查询一年内相应参数的历史曲线及具体时间的参数值(包括最大值、最小值),并可将历史曲线导出为EXCEL格式,方便管理员全面了解精密空调(加湿器)的运行状况。

2.2.6.环境监控(温湿度、风速、氢气)

在机房中有大量的服务器,设备对温、湿度等运行环境的要求非常严格,按照机房功能区域的划分及的实际面积,同时结合设备的密集情况,在机房内安装多个温湿度、风速、氢气浓度传感器,以实时检测机房和重要设备区域内的温、湿度、风速、氢气浓度。

温湿度、风速、氢气浓度传感器将把检测到的数值实时传送到现场嵌入式服务器中,并在监控界面上以图形形式直观地表现出来。

一旦温、湿度值、风速、氢气浓度越限,系统将自动报警框,提示管理员通过调节空调温、湿度值给机房设备提供最佳运行环境。

并且还可以将一段时间内机房里的温湿度、风速、氢气浓度值通过历史曲线直观地表现出来,以方便管理人员进行查看。

温湿度传感器可与空调系统实现联动,当机房的温度越限时,系统可联动设定空调温度及启动空调进行工作等联动动作。

机房内对温湿度值、风速、氢气浓度监控,一旦发生警情及时通知管理人员,使损失降到最低。

2.2.7.漏水检测

鉴于机房设备的重要性,在机房中安装美国泰科的定位式漏水检测系统,用于监测机房的空调有无漏水事件发生,确保设备不受水浸的危害。

机房内精密空调的进出水管均有可能出现漏水,这将威胁着机房内各设备的安全。

设计通过在有可能造成漏水的水源附近安装1套非定位式漏水监测设备,在精密空调底下四周共敷设1根的漏水感应绳,一旦有水泄漏碰到漏水监测绳,感应绳通过漏水控制器将信号传输到现场嵌入式服务器上,同时在集中管理服务器上形象、准确的输出告警信息。

2.2.8.消防(极早期)监测

Ø监控内容

设计对机房内由消防控制箱提供的干接点信号(或在机房内安装不同点位点的极早期烟雾报警器)进行实时火警监测,一旦发生报警通过监控平台发出对外报警。

Ø实现方式

采用采集消防控制箱(极早期烟雾报警器)提供的干接点信号,将信号接入监控主机的串口,由监控平台软件进行消防的实时监测。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 解决方案 > 学习计划

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1