基础设施维护方案Word格式.docx
《基础设施维护方案Word格式.docx》由会员分享,可在线阅读,更多相关《基础设施维护方案Word格式.docx(21页珍藏版)》请在冰豆网上搜索。
5)配备具有相应能力的人员和必要的工具,并定期进行专业培训,以提高服务可用性。
人员能力具体要求;
6)选择适用的运行维护技术,以保证服务的可用性;
7)根据运行维护服务级别要求,必要时应建立体系架构的关键健康检查点,并配备相应的运行维护工具,以保证服务水平。
运行维护工具等级;
8)根据服务要求配备足够的资源,避免由于资源的缺失导致对服务的可用性带来影响。
(1)安全性
采取各种安全手段或措施,有效控制数据中心运行维护服务的各个环节,保护数据中心运
行维护服务中的物理安全、网络安全、系统安全、应用安全和数据安全。
(0)建立适当的信息安全管理机制,以规范数据中心运行维护服务人员的信息安全行为;
(1)对运行维护服务人员采取有效的信息安全管理措施,如进行人员背景调查、签订安全
保密协议等;
(2)对运行维护服务人员进行相关安全管理及安全要求培训,并进行适当的检查,以确保
服务人员了解并遵守数据中心安全、保密相关规定;
(3)充分关注数据中心业务安全需求,结合信息安全技术与管理标准,进行适当的安全评
估,提供相应的安全建议,并对服务对象进行适当的监控和保护;
(4)对数据中心安全进行监控、分析,把安全风险控制在可接受范围内,防止安全事件发
生;
(5)建立有效的安全通报机制,以及时通报安全事件相关情况和相应防范处理措施等。
(2)及时性
采取适当的手段确保提供满足SLA时间指标要求的运行维护服务。
(0)对事件、问题、变更建立明确的分级策略,并与服务窗口时间、响应时间等指标相匹
配;
(1)建立可确保满足需方要求的沟通联络机制,保持沟通渠道通畅,以实现对服务需求的
及时响应;
(2)建立有效的服务资源调度机制及与服务相关方的协同机制,配置必要的备品备件,以
提供及时的服务保障;
(3)特殊时间段(如法定节假日或重大事件等),应提升响应级别,提供必要的现场支持;
(4)建立有效机制,周期性对事件级别定义进行更新,以确保定义准确有效。
(3)规范性
建立适当的服务管理流程、服务活动指导文件或实施规则,以保证服务过程的规范运作。
a)建立有效的服务管理流程文件,以保证服务过程实施规范性;
b)建立或遵循需方的数据中心相关管理制度,如出入场管理制度、安保控制制度等;
c)对于例行操作服务,应制定详细、可操作的技术手册,以降低操作风险;
d)对于非例行操作服务(响应支持、优化改善、调研评估),应在实施前,制定详细的
实施方案,并进行风险评估及分析,采取相应的风险规避措施和回退手段;
e)在服务过程中进行的任何活动,应建立服务档案,可形成服务报告,保留完整的服务记录。
三、服务对象与交付说明
3.1服务对象及内容
(1)定期对硬件设备进行巡检、保养,以保障设备运行正常(具体设备范围因合同而异,基本包括电力系统、空调系统、安防系统、网络系统、监控系统以及综合布线系统等);
(2)定期升级配套软件的版本;
(3)协助采购人制订安全策略,定期检查、排除风险,保障设备及网络环境安全;
(4)针对重要设备,实时监控运行状况,及时发现故障、排除故障;
(5)针对周期性巡检发现的安全隐患进行防范和处理;
(6)提供配件维修、更换服务
(7)系统重部署及调试:
新机上架协助及系统移位协助。
(8)协助采购人,规范硬件管理维护标准化工作。
3.2交付内容
服务交付内容包括调研评估、例行操作、响应支持和优化改善四类,其中:
a)调研评估服务:
根据需方、服务相关方或系统运行的需求,对服务对象的运行状况、运行环境进行现状调研、系统分析和评估并提出相应的建议和服务方案;
b)例行操作服务:
按照约定条件触发或预先规定的常态服务,分为监控、预防性检查和常规作业;
1)监控:
指采用各类工具和技术,对服务对象的动态指标、静态指标、运行状况和发展趋势等进行记录、分析和告警;
2)预防性检查:
保证服务对象的持续正常运行,根据服务对象的监控记录、运行条件和运行状况进行检查和趋势分析,发现其脆弱性,以便消除或改进;
3)常规作业:
对数据中心服务对象进行的日常维护,包括定期保养、配置备份、数据备份、恢复、定期重启等活动,以保证服务对象的稳定运行。
c)响应支持服务:
根据响应的前提不同,分为事件驱动响应、服务请求响应和应急响应;
1)事件驱动响应:
由于不可预测原因导致服务对象整体或部分性能下降、功能丧失,触发将服务对象恢复到正常状态的服务活动。
事件驱动响应的处理过程首先争取在最短的时间内恢复服务或启用备份资源,维持服务的持续提供,并应对事件做出分析、明确诱发
事件的原因和影响的范围,采取有效的防控措施,减少类似事件的再次发生。
事件驱动响
应的触发条件包括外部事件、系统事件和安全事件三种;
2)服务请求响应:
由于需方提出各类服务请求,引发的需要针对服务对象、服务等级做出调整或修改的响应型服务。
服务请求响应需要根据总体服务策略并参考已有的SLA/SOW做出判断,对服务的实施进行影响评估,制定详细的实施方案和回退措施,并在条件允许的情况下执行实施方案和回退方案的测试。
变更型响应服务实施完成后,应进行总结,确认已达到预期的目标。
此类响应可能涉及服务等级变更、服务范围变更、技术资源变更、服务提供方式变更等;
3)应急响应:
指在出现跨越预定的应急响应阈值的重大事件、发生重大自然灾害、由于政府部门发出行政指令或需方提出要求时,应当启动应急处理程序。
d)优化改善服务:
包括适应性改进、增强性改进和预防性改进三种类型;
1)适应性改进:
为保持服务对象在已变化或正在变化的环境中可持续运行而实施的
改造;
2)增强性改进:
根据运行需求或由于服务对象的缺陷,采取相应改进措施增强数据中心的安全性、可用性和可靠性;
3)预防性改进:
检测和纠正服务对象运行过程中潜在的问题或缺陷,以降低系统风险,满足未来可靠运行的需求。
四、运行维护交付内容
4.1服务对象
服务对象包括空调系统(精密空调系统、新风系统)、电力系统(供配电系统、UPS系统、发电机系统)、安防系统(防雷接地系统、消防系统、视频监控系统和门禁系统)、网络系统及设备、PC服务器、小型机等服务器以及综合布线系统。
4.2调研评估
基础设施调研评估服务内容包含但不限于:
a)空调系统(精密空调系统、新风系统):
机房环境指标分析及改进建议、机房热点分析及布置改进建议、机房送风、回风方式改进建议,新风风量、风压指标分析及改进建议;
辅助制冷单元配置建议等;
b)电力系统(供配电系统、UPS系统、发电机系统):
机柜供电分析及改进建议、机房回路调整分析调整建议、机房扩容建议等;
发电机负荷分析及调整建议等;
UPS运行分析及扩容建议,超过设计使用寿命的电池更换建议、整流直流电容、逆变交流电容等;
C)安防系统(防雷接地系统、消防系统、视频监控系统和门禁系统):
防雷接地系统分
析及改进建议、消防系统现状分析和改进建议(按照当地消防管理部门管理要求)、视频监控系
统的分析和改进建议、门禁系统的分析和改进建议等;
d)综合布线系统等:
光纤、铜缆容量、使用效率分析;
应用环境及性能分析;
数量、路由改进或扩容建议;
级别提升建议等。
e)机房电源使用效率:
通过对机房PUE连续监测分析,提供机房能效改进建议,包括但
不限于:
空调系统优化(消除机房热点、冷热通道遏制、改善送回风、使用节能型设备等)、电力系统优化(回路优化、使用节能型设备等)、实施容量管理(对机柜的电力容量、制冷容量及空间容量进行统筹管理,以充分利用资源)等。
f)网络及网络设备调研评估:
(整体或局部)网络实际负荷与承载能力分析;
(整体或局
部)网络预期负荷与承载能力分析与建议;
(整体或局部)网络架构分析与建议;
(整体或局部)
网络路由策略分析与建议;
(整体或局部)网络安全策略分析与建议;
(整体或局部)网络配置
调优分析与建议等。
g)服务器调研评估:
服务器负载情况分析;
服务器安全策略分析;
服务器的高可用性分
析;
服务器性能分析及调整建议。
4.3例行操作
基础设施的例行操作服务包括:
监控、预防性检查、常规作业。
4.3.1监控
对基础设施的监控内容参见表1,包括但不限于:
表1基础设施监控内容表
服务对象
监控内容
空调系统(精密空调
系统、新风系统)
环境温度、环境湿度、出风温度、回风温度,告警情况等
电力系统(供配电系
统、UPS系统、发电
机系统)
供配电系统:
电流、电压、功率因数、有功功率、无功功率、谐波等
发电机:
启停情况、电流、电压、负载率、控制系统供电情况等
UPS:
输入电流电压、输出电流电压、频率、负载率、温度、报警情况、电池充电/放电电压等
电源使用效率:
PUE值(通过监控软件监测或计算得岀)
安防系统(防雷接地系统、消防系统、视频监控系统和门禁系统)
防雷接地系统:
浪涌保护器、避雷器状态等
消防系统:
消防控制系统状态、气体灭火钢瓶压力、灭火器有效期检查
视频监控系统:
告警情况、监控录像等
门禁系统:
门禁状态、告警情况
网络及网络设备
网络设备的健康状况、整体运行状态、各项硬件资源开销状况
链路健康状况如端到端时延变化、链路端口工作稳定性、链路负载百分比、部署路由策略情况下端到端选路变化、路由条目变化
管理权限用户的行为审计
设备软件配置变动审计
设备日志审计
安全事件审计
服务器
服务器整体运行状态
服务器电源工作状态
服务器CPU工作状态
服务器内存工作状态
服务器硬盘工作状态
服务器网络端口工作状态
432预防性检查
在监控服务的基础上对基础设施进行预防性检查。
性能检查和脆弱性检查。
基础设
施预防性检查内容参见表2,包括但不限于:
表2基础设施预防性检查内容表
性能检查内容
脆弱性检查内容
空调
系统
精密空调
高压压力、低压压力(风冷系统),冷冻水压力、温度,冷却水压力、温度(水冷系统),风机运行情