基础设施维护方案Word文档下载推荐.docx
《基础设施维护方案Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《基础设施维护方案Word文档下载推荐.docx(18页珍藏版)》请在冰豆网上搜索。
r)建立有效的服务管理流程文件,以保证服务过程实施规范性;
s)建立或遵循需方的数据中心相关管理制度,如出入场管理制度、安保控制制度等;
t)对于例行操作服务,应制定详细、可操作的技术手册,以降低操作风险;
u)对于非例行操作服务(响应支持、优化改善、调研评估),应在实施前,制定详细的实施方案,并进行风险评估及分析,采取相应的风险规避措施和回退手段;
v)在服务过程中进行的任何活动,应建立服务档案,可形成服务报告,保留完整的服务记录。
三、服务对象与交付说明
3.1服务对象及内容
(1)定期对硬件设备进行巡检、保养,以保障设备运行正常(具体设备范围因合同而异,基本包括电力系统、空调系统、安防系统、网络系统、监控系统以及综合布线系统等);
(2)定期升级配套软件的版本;
(3)协助采购人制订安全策略,定期检查、排除风险,保障设备及网络环境安全;
(4)针对重要设备,实时监控运行状况,及时发现故障、排除故障;
(5)针对周期性巡检发现的安全隐患进行防范和处理;
(6)提供配件维修、更换服务
(7)系统重部署及调试:
新机上架协助及系统移位协助。
(8)协助采购人,规范硬件管理维护标准化工作。
3.2交付内容
服务交付内容包括调研评估、例行操作、响应支持和优化改善四类,其中:
w)调研评估服务:
根据需方、服务相关方或系统运行的需求,对服务对象的运行状况、运行环境进行现状调研、系统分析和评估并提出相应的建议和服务方案;
x)例行操作服务:
按照约定条件触发或预先规定的常态服务,分为监控、预防性检查和常规作业;
1)监控:
指采用各类工具和技术,对服务对象的动态指标、静态指标、运行状况和发展趋势等进行记录、分析和告警;
2)预防性检查:
保证服务对象的持续正常运行,根据服务对象的监控记录、运行条件和运行状况进行检查和趋势分析,发现其脆弱性,以便消除或改进;
3)常规作业:
对数据中心服务对象进行的日常维护,包括定期保养、配置备份、数据备份、恢复、定期重启等活动,以保证服务对象的稳定运行。
y)响应支持服务:
根据响应的前提不同,分为事件驱动响应、服务请求响应和应急响应;
1)事件驱动响应:
由于不可预测原因导致服务对象整体或部分性能下降、功能丧失,触发将服务对象恢复到正常状态的服务活动。
事件驱动响应的处理过程首先争取在最短的时间内恢复服务或启用备份资源,维持服务的持续提供,并应对事件做出分析、明确诱发事件的原因和影响的范围,采取有效的防控措施,减少类似事件的再次发生。
事件驱动响应的触发条件包括外部事件、系统事件和安全事件三种;
2)服务请求响应:
由于需方提出各类服务请求,引发的需要针对服务对象、服务等级做出调整或修改的响应型服务。
服务请求响应需要根据总体服务策略并参考已有的SLA/SOW做出判断,对服务的实施进行影响评估,制定详细的实施方案和回退措施,并在条件允许的情况下执行实施方案和回退方案的测试。
变更型响应服务实施完成后,应进行总结,确认已达到预期的目标。
此类响应可能涉及服务等级变更、服务范围变更、技术资源变更、服务提供方式变更等;
3)应急响应:
指在出现跨越预定的应急响应阈值的重大事件、发生重大自然灾害、由于政府部门发出行政指令或需方提出要求时,应当启动应急处理程序。
zz)优化改善服务:
包括适应性改进、增强性改进和预防性改进三种类型;
1)适应性改进:
为保持服务对象在已变化或正在变化的环境中可持续运行而实施的改造;
2)增强性改进:
根据运行需求或由于服务对象的缺陷,采取相应改进措施增强数据中心的安全性、可用性和可靠性;
3)预防性改进:
检测和纠正服务对象运行过程中潜在的问题或缺陷,以降低系统风险,满足未来可靠运行的需求。
四、运行维护交付内容
4.1服务对象
服务对象包括空调系统(精密空调系统、新风系统)、电力系统(供配电系统、UPS系统、发电机系统)、安防系统(防雷接地系统、消防系统、视频监控系统和门禁系统)、网络系统及设备、PC服务器、小型机等服务器以及综合布线系统。
4.2 调研评估
基础设施调研评估服务内容包含但不限于:
a)空调系统(精密空调系统、新风系统):
机房环境指标分析及改进建议、机房热点分析及布置改进建议、机房送风、回风方式改进建议,新风风量、风压指标分析及改进建议;
辅助制冷单元配置建议等;
b)电力系统(供配电系统、UPS系统、发电机系统):
机柜供电分析及改进建议、机房回路调整分析调整建议、机房扩容建议等;
发电机负荷分析及调整建议等;
UPS运行分析及扩容建议,超过设计使用寿命的电池更换建议、整流直流电容、逆变交流电容等;
c)安防系统(防雷接地系统、消防系统、视频监控系统和门禁系统):
防雷接地系统分析及改进建议、消防系统现状分析和改进建议(按照当地消防管理部门管理要求)、视频监控系统的分析和改进建议、门禁系统的分析和改进建议等;
d)综合布线系统等:
光纤、铜缆容量、使用效率分析;
应用环境及性能分析;
数量、路由改进或扩容建议;
级别提升建议等。
e)机房电源使用效率:
通过对机房PUE连续监测分析,提供机房能效改进建议,包括但不限于:
空调系统优化(消除机房热点、冷热通道遏制、改善送回风、使用节能型设备等)、电力系统优化(回路优化、使用节能型设备等)、实施容量管理(对机柜的电力容量、制冷容量及空间容量进行统筹管理,以充分利用资源)等。
f)网络及网络设备调研评估:
(整体或局部)网络实际负荷与承载能力分析;
(整体或局部)网络预期负荷与承载能力分析与建议;
(整体或局部)网络架构分析与建议;
(整体或局部)网络路由策略分析与建议;
(整体或局部)网络安全策略分析与建议;
(整体或局部)网络配置调优分析与建议等。
g)服务器调研评估:
服务器负载情况分析;
服务器安全策略分析;
服务器的高可用性分析;
服务器性能分析及调整建议。
4.3例行操作
基础设施的例行操作服务包括:
监控、预防性检查、常规作业。
4.3.1 监控
对基础设施的监控内容参见表1,包括但不限于:
表1 基础设施监控内容表
服务对象
监控内容
空调系统(精密空调系统、新风系统)
环境温度、环境湿度、出风温度、回风温度,告警情况等
电力系统(供配电系统、UPS系统、发电机系统)
供配电系统:
电流、电压、功率因数、有功功率、无功功率、谐波等
发电机:
启停情况、电流、电压、负载率、控制系统供电情况等
UPS:
输入电流电压、输出电流电压、频率、负载率、温度、报警情况、电池充电/放电电压等
电源使用效率:
PUE值(通过监控软件监测或计算得出)
安防系统(防雷接地系统、消防系统、视频监控系统和门禁系统)
防雷接地系统:
浪涌保护器、避雷器状态等
消防系统:
消防控制系统状态、气体灭火钢瓶压力、灭火器有效期检查
视频监控系统:
告警情况、监控录像等
门禁系统:
门禁状态、告警情况
网络及网络设备
网络设备的健康状况、整体运行状态、各项硬件资源开销状况
链路健康状况如端到端时延变化、链路端口工作稳定性、链路负载百分比、部署路由策略情况下端到端选路变化、路由条目变化
管理权限用户的行为审计
设备软件配置变动审计
设备日志审计
安全事件审计
服务器
服务器整体运行状态
服务器电源工作状态
服务器CPU工作状态
服务器内存工作状态
服务器硬盘工作状态
服务器网络端口工作状态
4.3.2 预防性检查
在监控服务的基础上对基础设施进行预防性检查。
性能检查和脆弱性检查。
基础设施预防性检查内容参见表2,包括但不限于:
表2 基础设施预防性检查内容表
性能检查内容
脆弱性检查内容
空调系统
精密空调
高压压力、低压压力(风冷系统),冷冻水压力、温度,冷却水压力、温度(水冷系统),风机运行情况,灰尘情况等
机房热点情况、室内机漏水检查、室外风机运转情况、加湿罐阳极棒检查、过滤网检查等
新风系统
风机运行情况、风速,预处理系统工作状态,上下水情况等
过滤网检查、风压差检查
电力系统
配电系统
接地电阻、零序电流、器件发热情况等
导线、器件发热情况,防浪涌器件情况等
发电机
转速、发热情况等
油位,吸气、排烟通道等
UPS系统
器件发热情况、电池情况(外观、非免维护电池检查液位、接线柱)、检查通风情况(风扇、入气口、出气口)等
器件、导线发热情况,电池放电时间、通风情况等
安防系统
防雷接地系统
接地电阻测试
引下线检查、接地汇接排检查
消防系统
钢瓶压力、有效期、探头污染等
启动瓶、管道开关、气体压力等
视频监控系统
画面清晰度(不同照度情况下)、录像硬盘(磁带)容量、云台运行等
监控系统运行状态、监控死角问题等
门禁系统
服务器、控制器、读卡器、门磁等工作状态
门禁系统与消防系统和视频监控系统的联动检查(如果有此功能),异常情况报警检查
综合布线系统
光纤、铜缆链路测试,性能测试等
线缆两端应贴有识别标签,标志要与实际拓扑图完全一致
设备机身、板卡或模块的工作情况
CPU使用峰值情况
内存使用峰值情况
主要端口的利用率
链路的健康状态,包括IP包传输时延、IP包丢失率、IP包误差率、无效IP包(包括攻击性IP包、欺骗性IP包、垃圾IP包等)
检查其它的关键指标项,例如各类关键表项、会话连接数等
是否需要升级系统微码
设备链路的冗余度要求
安全事件周期性整理分析
设备生命周期评估
备件可用性周期性检查
服务器的资源分配情况和策略
文件系统空间使用情况
IO读写情况
网络流量情况等
与存储的链路性能测试
服务器资源分配是否超过预定阀值
服务器关键部件是否满足运行冗余度要求
服务器关键部件的微码版本是否需要升级
服务器关键部件链路的冗余度要求
服务器硬盘是否RAID保护
服务器文件空间使用是否达到预定阀值
4.3.3 常规作业
基础设施的常规作业包括基础类操作、测试类操作和数据类操作,其中:
a)基础类操作:
按服务管理手册的有关规定,执行设备的日常运行、维护和保养;
b)测试类操作:
按服务管理手册的有关规定,对基础设施各系统功能、性能进行测试;
c)数据类操作:
按事先规定的程序,对基础设施运行日志、记录等数据进行操作。
基础设施常规作业内容参见表3,包括但不限于:
表3 基础设施常规作业内容表
基础类操作
测试类操作
数据类操作
启停机、清洗更换滤网、清洗更换加湿系统、清洁冷凝器等
漏水报警测试、周期性主备切换/应急演练等
运行日志备份,报警记录备份、清除等
启停机、清洗更换滤网等
消防联动测试
运行记录备份(如果有)
除尘、合闸、分闸等
互投测试等
运行记录备份
更换三滤、清洁等
空载测试、带载测试、切换演练等
旁路、清洁等
旁路测试、电池放电测试、周期性主备切换/应急演练等
接地端子、汇流排紧固,浪涌、防雷保护器复原等
探头清洗等
启动测试、探头测试等
报警记录备份、清除
视频监控头清洁,云台保养
器件灵敏度、画面清晰度(不同照度情况下)、云台运行等
出入记录导出、备份,监控图像记录备份、清除,报警记录备份、清除等
门禁授权等
门禁系统与消防系统和视频监控系统的联动检查测试(如果有此功能),掉电测试
线路跳接等
链路测试、性能测试
布线系统拓扑图数据更新
设备操作系统软件备份及存档
系统微码升级
设备软件配置备份及存档
监控系统日志备份及存档
监控系统日志数据分析与报告生成
网络配置变更文件的审核
网络配置变更的操作
网络配置变更的记录
配置文件备份
过期日志和文件系统空间清理
服务器硬盘RAID配置检查(如有RAID控制器)
更换控制器电池(如有RAID控制器)
4.4 响应支持
4.4.1 事件驱动响应
针对设备的软、硬件故障引起的业务中断或运行效率无法满足正常运行要求,而进行的响应服务,包括但不限于:
a)空调系统:
故障排查、关闭部分机组以维持机房最低温湿度指标、关闭新风系统等;
b)电力系统:
配电系统包括故障排查、投入备用电源回路、关闭非重要回路等;
发电机系统包括故障排查、启动发电机、油料补充等;
UPS系统包括故障排查、旁路系统、关闭非重要输出等;
c)安防系统:
防雷接地系统包括浪涌保护器复原、更换,接地电阻降阻等;
消防系统包括故障排查、系统启动、报警联动、疏散警示等;
视频监控系统包括故障排查、监控头或硬盘更换、检查告警、数据恢复等;
门禁系统包括故障排查、手动开启或关闭门禁系统、检查告警或监控记录等;
d)综合布线系统:
线缆更换等。
e)网络及网络设备事件驱动响应
✧故障定位;
✧停止、启动进程;
✧中断、连通网络连接;
✧关闭、启动端口;
✧网络备件更换;
✧更改、恢复配置。
f)服务器事件驱动响应
✧服务器重启;
✧更换故障部件,包括主板、电源、CPU、内存、硬盘等;
✧服务器关键部件微码升级;
✧服务器硬盘RAID配置修复。
4.4.2 服务请求响应
根据应用系统运行需要或需方、服务相关方的请求,而进行的响应服务,包括但不限于:
调整温度、湿度参数等,调整新风量等;
配电系统包括增减回路、增减供电类型(如直流、110V)等;
分支回路相位调整等;
发电机为指定负载供电等;
UPS系统包括旁路操作、为指定负载供电等;
防雷接地系统包括新设备接地等;
消防系统包括增减终端设备、检查及提供告警及监控记录、备份或清除记录等;
视频监控系统包括调整摄像机位置、增加摄像机,增加录像机容量等;
门禁系统包括增加、删减、变更门禁权限等;
链路跳接、跳线更换,布线扩容等。
e)网络及网络设备服务请求响应
✧增加、降低网络接入的数量或速度;
✧更改网络设备配置;
✧启动、关闭端口或服务;
✧更换、更新或升级设备硬件或软件。
f)服务器服务请求响应
✧服务器设备搬迁;
✧服务器设备停机演练;
✧服务器设备清洁维护等。
4.5 优化改善
4.5.1 适应性改进
根据应用系统特点和运行需求,对基础设施进行调整,包括但不限于:
调整温湿度参数等、调整机组位置、增减新风风量等;
配电系统包括更换开关、导线以适配负载容量等,发电机包括调整启动方式等;
调整防雷接地系统、消防系统、视频监控系统和门禁系统,以适应应用系统的变化;
调整综合布线系统,以适应应用系统的变化。
e)网络及网络设备适应性改进
✧路由策略调整;
✧设备或链路负载调整;
✧安全策略调整;
✧监控对象覆盖范围调整;
✧局部交换优化;
✧局部冗余优化。
f)服务器适应性改进
✧服务器硬盘RAID配置调整;
✧服务器网络、光纤链路冗余调整;
✧服务器电源供电接入冗余调整。
4.5.2 增强性改进
根据应用系统的特点和运行需求,通过对基础设施的运行记录、趋势的分析,对基础设施进行调整、扩容或升级,包括但不限于:
增减精密空调机组、增减APU单元,增加新风机组、预处理装置等;
配电系统包括增加回路、增加ATS设备等;
UPS系统包括增加主机数量、增加电池数量等;
防雷接地系统包括增加冗余引下线、接地装置,降低接地电阻阻值等;
消防系统包括增加传感器和喷头数量,更换高性能控制主机;
视频监控和门禁系统包括增加报警联动、增加终端数量、增加存储容量等;
线路扩容、更换高性能布线等。
e)网络及网络设备增强性改进
✧硬件容量变化,如网络设备硬件、软件升级、带宽升级等;
✧整体网络架构变动;
✧网络架构容量变化,如网络子系统的增减等;
✧系统功能变化,如新增功能区、新增安全系统、新增审计系统等;
✧路由协议应用及部署调整;
✧整体安全策略收紧;
✧交换优化;
✧冗余优化。
f)服务器增强性改进
✧为本服务器从存储系统上分配更大空间;
✧服务器CPU个数增加;
✧服务器内存容量增加;
✧服务器磁盘空间扩容;
✧服务器网卡和HBA接口卡增加等。
4.5.3 预防性改进
根据对基础设施的运行记录、趋势的分析,结合应用系统的需求,发现基础设施的脆弱点,有针对性地进行改进性作业,包括但不限于:
调整机组位置,调整出回风方式等;
配电系统包括更换开关、更换导线、调整回路等;
发电机包括更换或添加高标号油料等;
防雷接地系统包括焊接点加固、防腐处理等;
消防系统包括消防系统预防性改进(按照当地消防管理部门管理要求);
视频监控和门禁系统包括门禁系统支持与消防系统和视频监控系统的联动;
弱电线缆与强电线缆的物理隔离,鼠患排查等。
✧配置参数优化,例如关闭不必要的服务、打开缺省的增强功能、加快三层网络路由收敛速度、加快二层网络生成树收敛速度等;
✧安全优化,例如密码加密,TELNET控制等;
✧提高软件配置命令可读性。
f)服务器预防性改进
✧检查服务器硬盘RAID配置,及时修复或更换故障硬盘;
✧增加服务器网卡、光纤卡以及链路冗余情况;
✧增加服务器电源供电模块冗余。
五、服务管理制度规范
5.1服务时间
(1)接收服务请求和咨询:
在5*8小时工作时间内设置由专人职守的热线电话,接听内部的服务请求,并记录服务台事件处理结果。
(2)在非工作时间设置有专人7*24小时接听的移动电话热线,用于解决内部的技术问题以及接听7*24小时机房监控人员的机房突发情况汇报。
(3)服务响应时间:
故障级别
响应时间
故障解决时间
备注
I级:
属于紧急问题;
其具体现象为:
系统崩溃导致业务停止、数据丢失。
30分钟,2小时内提交故障处理方案
12小时以内
具体时间因项目而定
II级:
属于严重问题;
出现部分部件失效、系统性能下降但能正常运行,不影响正常业务运作。
24小时以内
III级:
属于较严重问题;
出现系统报错或警告,但业务系统能继续运行且性能不受影响。
48小时以内
IV级:
属于普通问题;
系统技术功能、安装或配置咨询,或其他显然不影响业务的预约服务。
5天内
技术支持人员在解决故障时,会最大限度保护好数据,做好故障恢复的文档,力争恢复到故障点前的业务状态。
对于“系统瘫痪,业务系统不能运转”的故障级别,如果不能于12小时内解决故障,将在合同小时内提出应急方案,确保业务系统的运行。
故障解决后24小时内,提交故障处理报告。
说明故障种类、故障原因、故障解决中使用的方法及故障损失等情况。
5.2行为规范
(1)遵守用户的各项规章制度,严格按照用户相应的规章制度办事。
(2)与用户运行维护体系其他部门和环节协同工作,密切配合,共同开展技术支持工作。
(3)出现疑难技术、业务问题和重大紧急情况时,及时向负责人报告。
(4)现场技术支持时要精神饱满,穿着得体,谈吐文明,举止庄