ImageVerifierCode 换一换
格式:DOCX , 页数:11 ,大小:24.93KB ,
资源ID:19287870      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/19287870.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(数据中心运维操作标准及流程Word格式.docx)为本站会员(b****5)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

数据中心运维操作标准及流程Word格式.docx

1、1.3.3测试验证内容 验证应覆盖所有关键子系统和设备应具备的功能和关键的操作程序,确保满足设计要求,必要时可做故障情景模拟来检验。 测试验证中发现设计或者建设阶段的问题, 应该在报告中充分体现;可以改造的部分,应要求建设单位进行改造;不能改造或暂时不 需改造部分, 应作为风险点在运维过程中予以特别的重视, 并制定相 关预案。1.3.4设施健康评估 当接手已在运行的机房基础设施的运维工作前, 运维团队应对设 施的情况进行健康评估,了解潜在风险点,其中能够改造的部分,应 该申请予以优化改造。 不能改造的部分, 应该作为风险点在运维中予 以特别的重视,并制定相关预案。1.4技术文档 完整并准确的技

2、术文档是后期运行、维护、维修、故障诊断、优 化改造的基础。 运维团队在开展运维工作前, 应从施工单位得到场地 基础设施的全套相关文档, 包括但不限于: 机房的规划设计资料及竣 工图纸、全套设备的清单及相关操作文档和保修保养资料、 机房自动 操作系统的逻辑图及说明文档、监控系统的点表、验收测试文档、机 房所在建筑的建筑设计资料、竣工图纸。整体文档应在限定时限内进入运维管理知识库 , 并按照质量管理 的原理和要求设定文档的起草、变更、审核、批准、保存、分发等职 责权限。1.5管理边界为了明确管理责任, 机房基础设施运维团队应将可能影响机房基 础设施运维目标达成的外界因素整合成管理边界报告, 提交业

3、主管理 层并组织研讨, 形成明确的决策, 制定完整的协调沟通机制及权责界 限。这些因素包括但不限于:不归本部门负责,但可能对于本部门有 重大影响的供电、供水、供暖、制冷、消防、安防、监控、运营商线 路接入等系统。2安全管理和质量管理建议2.1人员安全机房基础设施运维团队要编制正式的机房生产环境(工作场所) 的安全方针,设定严格的安全生产规范; 并根据安全方针制定有效的、 明确的安全计划,来教授和培训安全原则、危险识别、纠正缺陷和控 制风险。并加强对于该部分规范的合规度的培训、考试和审核检查, 以确保机房运维人员的人身安全。相关安全生产规范主要包括:机房生产环境安全管理规范;机房基础设施各系统安

4、全管理手册;机房基础设施涉及安全的应急预案;机房基础设施管理过程涉及的技术方案中的安全管理策略。机房基础设施中与电气相关的工作存在着固有危险。 设施运维团 队应当创建一份正式电气安全计划, 以最小化所有工作人员受到电气 伤害的风险, 确保现场电气系统达到相关法规标准。 电气安全计划中 的条款应规定电气工作人员在有资质和具备合理安全工作流程的前 提下才能进行操作, 并应利用防护设备和其他控制手段, 如上锁挂牌 设备。此计划的创建旨在防止员工受到电击、烧伤、电弧和其他潜在 电气安全隐患,同时要求其遵守法规标准。相关国家、行业规程包括但不限于:GB 26860电力安全工作规程 发电厂和变电站电气部分

5、; DL 408 电业安全工作规程。2.2物理环境安全应了解周边社会环境信息, 评估潜在的安全风险并制定预案。 这 些信息宜包含但不限于:周边交通路况、医院、供油站、消防站、变 电站、供水、供电、供气、网络通信线路等。可建立周边社会环境管 理资料库。应了解机房所在地的历史自然灾害情况。包含但不限于 GB50174 及 TIA-942 中提到的所有评估机房选址的外部因素, 并制定相应的管 理预案。应建立并执行严格的机房设备、人员、车辆进出管理制度。 应设立不同安全区等级 ( 参考 ISO27001 信息安全管理中的物理 安全控制)并制定访客管理制度 , 用以有效管理访客。2.3质量管理 在机房基

6、础设施运维过程中建立完善的质量管理体系, 是保障以 上机房基础设施运维趋于卓越的重要因素和手段。 机房基础设施运维 团队的所有关键工作应包括以下的质量管理要素:2.3.1质量保证 过程制定; 程序制定; 过程审核和批准; 过程和程序培训。2.3.2质量控制 事件回顾; 质量检查和检验; 定期质量审核。2.3.3质量改进故障分析; 经验教训; 优化及创新计划。3人员管理建议3.1组织及人员3.1.1组织架构机房运维团队应有清晰的组织架构, 同时对各岗位有明确的岗位 职责说明并在计算机化维护管理系统( CMM)S中实现权责匹配,同步 更新。中大型数据中心场地基础设施运维团队中除现场负责人外, 可

7、按照工作内容分设以下几个主要职能岗位:运维巡检团队 主要职责:对基础设备设施进行巡检,担任值班工作,第一时间 发现故障或问题,并作为管理程序的执行者。技术管理团队 主要职责:对机房基础设施提供运维技术支持,解决技术问题, 承担机房基础设施一般性的优化改造工程的项目管理工作, 宜包括电 气、空调、弱电等系统的技术人员。 物理环境安全管理团队 主要职责:对物理环境安全进行管理,进行安全巡检等工作。3.1.2人员配制机房基础设施运维人员的配备应根据运维管理目标或 SLA 来确 定。中高等级的机房,可按照 7X24 的运行要求配置运维人员。上岗 人员应具备国家要求的相应资格证书。 应在运维管理程序中明

8、确规定 资质等级与操作权限的一致性。高等级以及具有一定规模的机房, 每个班组应配备具有电力、 暖 通、弱电专业能力的运维人员, 以达到“即时应急响应” 的工作状态。 等级相对低的机房,每个班需要至少配备一人,达到“即时报警”的 工作状态。运维团队的关键岗位应有人员备份和储备。机房基础设施运维管理团队的关键管理人员或关键岗位人员在 正常运维工作开展中应采用 A、B 角色配置,日常工作中应注意角色 的分配和工作的配合。 其它岗位人员宜建立良好的循环机制, 人员可 进行岗位轮换和交叉培训,使所有人员掌握全面的基础知识。3.1.3绩效管理为了提高机房运维人员的技术技能、 职业素养和提倡团队合作精 神,

9、专业地、高效率地运行和维护机房基础设施,有必要建立人员的 关键绩效指标, 定期对所有人员的短期和长期绩效进行评估, 奖优罚 劣,推动整个运维团队技术和素质的发展和改进。3.1.4人员管理制度为了保障机房基础设施运维团队的创新性、稳定性、持续性,应 通过建立合理的人员管理制度,约束人员的工作态度、行为规范,提 高人员的工作热情、工作效率和执行力,激发人员正面影响,使团队 一直保有活力来共同努力达成服务等级协议的要求, 运维团队应该建 立运维人员的各项管理制度。这些管理制度应该主要包含(但不限 于):日常活动管理制度 ;人员安全操作制度 ;运维人员基本素质养成管理制度 ;安全运行奖惩制度 ;节能运

10、行奖惩制度 ;技术创新奖励制度 ;人员晋升制度;人才储备制度;3.2培训及认证3.2.1员工培训及资格认证计划 对于机房基础设施运维团队新员工应进行完整及严格的培训, 以 确保其尽快具备岗位需要之知识及能力。 培训内容应包括机房基础设 施的所有系统的工作原理、操作流程、应急预案、以及管理制度等。对于所有运维人员宜设定以知识更新、 技能提高为目标的年度培 训及认证计划。 宜要求运维人员不断提升理论知识, 以便于在缺乏操 作程序的应急状态下进行正确的处置。可借助行业第三方专业培训及职业技能鉴定平台, 积极开展运维 人员任职资格的评定工作。3.2.2历史事件分析学习 运维团队应将机房基础设施历史事件

11、的总结分析作为培训的重要素材,进行全员培训;对于新员工应在上岗前予以培训,以避免相 同的事件再次发生。3.2.3组织学习运维团队管理者应积极参与行业交流, 了解行业最佳的运维管理 实践,并从行业故障案例中总结经验,做好自身整改。3.3运维外包服务商3.3.1基础设施运维外包服务商的选择 机房基础设施属于关键性设施, 选择外包运维团队时应考察其机房基础设施的运维服务的资质、 能力和经验。 如机房作为商业物业的 一部分整体外包运维, 应要求外包运维机构针对机房基础设施设施部 分设立专门的有机房基础设施运维经验的团队, 并严格按机房基础设 施的运维规程规范执行。3.3.2运维外包服务商的管理 对于外

12、包服务商的员工的管理原则应该参照运维团队内部员工 同等要求,相关人员只有在进行培训并得到相关的认证后才能从事相 关的工作。外包服务商需要严格遵循数机房基础设施既定的操作流程和安 全守则。机房基础设施运维管理的最终责任承担者是机房管理者, 责任无 法外包。因此, 机房应保留运维核心管理人员,对于外包团队的工作 进行审核、监督和绩效评估管理。4设施管理建议4.1资产数据库 数据中心应建立完整及实时更新的资产数据库。 数据库应包括所 有关键基础设施设备的清单, 还应记录设备设施的运行情况、 事件情 况、变更情况、维护保养频次等信息。资产数据库应最少包括以下信息: 资产 ID:每个资产的唯一标识号 种

13、 类:一级分类(如电气、制冷、消防系统)子类:二级分类(如 UPS、电池、 PDU等)描述:资产的文字说明制造:资产的制造厂家型号:制造厂家的产品型号规格:资产的规格或者标称值位置:位置 ID (房间或区域)购 买 人:资产维护的负责人序 列 号:制造厂家的序列号安装日期:资产的投产日期保修期限:保修到期的日期更 换:预计的资产更换日期维护频次:年检、季检、月检等4.2预防性维护4.2.1预防性维护计划预防性维护是为了延长设备的使用寿命和减少设备故障的概率 而进行的有计划的维护。 其目的是通过定期检查和保养, 使设备的某 些缺陷或隐患在变得更严重之前被发现。运维团队应根据系统设备情况与供应商进

14、行沟通, 按照供应商的 建议提前制定年度、季度、月度预防性维护计划。各专业运维人员需 按照各设备系统特性、 维护流程及规范, 及时、完整地落实维护工作, 并形成客观实际的记录和报告予以存档。 运维团队还应定期对设备的 运行状态数据进行统计和趋势量化分析, 对于异常的趋势, 做出报警及相关预案预防性维护包括并不限于以下系统设备或内容: 冷水机组、精密空调;UPS,开关、和发电机组;消防系统和监控系统检验; 蓄电池放电测试;配电装置(高低压配电装置)的绝缘性定期试验; 二次保护定值实验;每年雨季之前进行的数据中心防雷接地装置测试等。4.2.2工单管理 运维团队应建立预防性维护及保养的工单管理系统,

15、 工单应列出工作内容、完成相应工作需要的工具及备件、工作预计完成的时间、 工作负责人等信息。计算机化维护管理系统应该对每份工单从产生到完成进行全程 的跟踪。4.3操作流程 机房基础设施的所有操作, 均应事先制定详细的操作流程,经 过审核后存档并在后期运行阶段严格执行。4.3.1维护作业程序 MOP 对机房关键基础设施设备的每次维护、维修、安装操作, 都应 事先制定一份 MOP。可要求设备供应商提供 MOP的建议,但对于 MOP 最终确认审核的责任在于运维团队,批准责任在于运维管理团队。4.3.2标准操作流程 SOP 所有关键基础设施设备在各种情况下都能执行的常用操作都应 制定标准操作流程 SO

16、P。例如手动启动发电机组的操作流程, 或将 UPS 转换到旁路的操作流程等。4.3.3应急操作流程 EOP 应急操作流程适用于有可能发生的严重故障情况。以下为部分严 重故障的例子:一路市电供电时中断; 双路市电供电时同时中断; 单个精密空调时故障停机; 全部精密空调都故障停机; 单台 UPS时故障停机。4.4工具及备件管理 运维团队应根据资产分类清单及其分类制定最低备件库存清单 并及时补充备件。测试分析仪器仪表方面可配备进行电气性能参数测试、电池测 试、接地电阻测试、绝缘性能测试、设备运行温度测试、风速测试、 环境温度测试、噪音测试等的仪器仪表。仪器仪表应该定期校准。应制定相关规定对操作工具、

17、 仪器仪表实行人员负责制或者交接 班负责制等管理制度。备件和工具应定期进行盘点。4.5供应商管理应该按照机房基础设施运维的资质、 以往的经验、 业界的口碑等因素,以注重预防性和预测性维护和提高可用性的相同标准来选择合 格的供应商。所有供应商到达机房执行维护程序之前, 应通过机房相关规程的 培训,获得机房运维团队和运维管理层的批准。 在执行维护活动的过 程中要严格遵循操作流程。 操作时需由运维团队的人员陪同并监督记 录流程的执行情况。供应商的每次机房维护活动都应该提交现场服务报告并存档。运维团队应该建立供应商的绩效评估方案, 并定期对供应商进行 绩效评估。应设立供应商管理文档,记录所有供应商的联

18、系方式、服 务承诺( SLA)、工作范围、针对设施的培训和认证情况等信息。4.6生命周期管理应基于设施设备的合理生命周期, 结合风险评估, 制定设备维护、 升级或更换的计划及预算,及时报告给运维管理部门。风险评估主要评估内容包括:资产重要性识别;资产威胁识别;资产脆弱性识别;风险值的计算;在评估更换设备的方案时, 可综合考虑原有设备的维护费用以 及新设备在能效方面的改进,做好综合投资回报分析;对于冗余设备宜设立轮换运行机制, 以延长整体设备的生命周4.7运维管理系统机房可建立自动化维护管理系统( MM)S,集中实现资产管理、维护调度、信息安全、文档管理、工单管理的职能并记录所有的运维工 作任务

19、及完成情况。5 运行管理建议5.1运行管理制度机房基础设施运维团队应建立并严格执行运行管理制度,包括:5.1.1巡检相关管理制度日常巡视巡检管理制度;值班管理制度;交接班管理制度;通知矩阵。5.1.2工作流程相关管理制度工单处理流程;例会制度;工作总结报告制度(日、周、月、季、年总结报告) ;交付管理规范;运维质量管理办法文档管理制度; 工具备件管理制度。5.1.3安全相关管理制度机房出入管理制度;机房现场管理制度;机房卫生管理制度; 信息安全相关管理制度。5.1.4故障处理管理制度设备操作管理制度;设备故障处理流程;应急准备和应急响应流程;维护作业计划管理制度;故障隐患跟踪反馈管理制度; 紧

20、急事件汇报流程。5.1.5经营相关管理制度员工行为规范;考勤管理制度;人员管理考核制度。5.2设施监控、巡检、及交接班管理应配备环境、 动力、安防等监控系统以便于运维人员及时了解设 施各系统及设备的运行状态和及时发现异常情况。应规定相应的运行人员对设施运行状态的巡视频次、 巡视工作内 容及规范。运行人员交接班时应对当班执行的操作、 变更及观察到的任何异 常数据或现象进行交接和签收。5.3机房清洁管理应划定保洁区域, 定期做好机房保洁工作, 保证地板及地板下的 无尘状态。重要区域进行保洁工作时应有运维人员现场监督和指导。5.4标签标识管理 应建立针对数据中心场地基础设施设备和物理环境完整的、 清

21、晰 的标签标识管理系统。应至少包括:设备标识:包括设备名称、型号、编号、资产编号等; 线缆标识:包括起始端信息、终止端信息、设备名称等; 警示标识:如“设备已带电 / 危险”、“禁止合闸”、“禁止 分闸”等;物理环境标识:如位置标识、区域标识等; 系统图展板标识:如电气、暖通、消防、弱电系统图展板。这 类标识便于运维人员清晰、 快捷地掌握区域及整个数据中心系统的配 电、制冷、消防、弱电的原理及关键点位。5.5变更管理 任何对于设施运行状态的变更应进行预先的风险分析, 并基于风 险等级,设定相应级别的事前审核流程。 在变更方案及变更时间窗口 确认后,应进行相应范围的告知。变更结束后,应向相应范围

22、部门通 报变更结果。5.6事件管理 应制定事件管理流程,明确不同等级事件下相应的处理流程。5.6.1事件等级定义 一般事件:任何没有达到机房设计和运行标准的异常事件;严重事件:任何没有达到机房设计、运行标准的事件,且对提供 的服务造成中断的事件;重大事件:任何没有达到机房设计、运行标准的事件,且对提供 的服务造成中断,且影响范围大的事件。5.6.2事件升级 当事件暂时无法排除,需要逐级报告,进入事件升级流程。 如遇特殊情况, 与直接主管联系不上时, 可越级向上一级主管报 告。5.7应急响应5.7.1设施应急预案演练 运维团队应针对应急操作流程 EOP进行定期的演练工作, 主要包 括:沙盘演练:

23、 参与演练的运维人员集合, 并分别口述在发生紧急 情况下自身所应承担的职责及将会执行的方案及步骤;跑位演练: 参与演练的人员跑位到模拟故障现场, 模拟处理故 障,参与人员应清晰地说出故障的处理方案及步骤。应急演练的演练原则是: 尽量接近真实情况, 在条件允许的情况 下尽量真实地处理故障。 在运行中的一些特定场景下也可以进行应急 演练,如发电机带载实验等。5.7.2人员安全应急流程 机房基础设施运维团队应针对影响运维人员健康的人身事故制 定应急流程并定期演练。 应急流程可包括设置现场急救包以及联系当地医疗急救机构的方式等。5.8容量管理 容量管理可包括但不限于以下方面:5.8.1空间容量 IT

24、设备摆放空间; 基础设备设施摆放空间; 综合布线线路空间,配线架管理。5.8.2能力容量 电力供应容量; 空调供应容量; 综合布线信息点容量; 互联网接入容量。设施运维团队应与 IT 部门定期沟通,动态了解 IT 需求的预测, 并通报设施容量的使用情况。 可制定 3个月至 36 个月周期的 IT 需求 及设施可用容量两者的对比分析表。当机房基础设施不能满足 IT 增长的需求时, 应提前制定并上报 扩容或者新建机房的计划。5.9能效管理5.9.1能效监测 机房基础设施运维团队应了解并记录机房在不同工况及不同外 界气候条件下的电力使用效率 PUE 的变化情况,从中发现趋势,以 不断优化运行方案。5

25、.9.2了解 IT 设备运行特征机房基础设施运维人员应具备一定的 IT 设备相关知识,了解服 务器、网络、存储等设备的运行特点和功耗情况。还应了解客户或用 户的业务基本情况,了解 IT 设备的运行峰谷期。应与客户或用户相关部门做好沟通,针对高密度 IT 负载的部署 做出预测,并制定相关应对方案。5.9.3管理气流组织 应封堵设施建筑所有可能的漏风口,维持设施的正压。 应疏导设施内气流的流向、 封堵所有可能的漏风口、 对机柜内所 有空闲 U位安装盲板、 关闭不必要的出风口、 保证冷空气的最佳使用 效率。5.9.4运行阈值设定 应基于安全性及运行效率的综合考虑,建立运行阈值设定指南, 设置监控报警阈值、空调回风温度等。5.10预算管理 运维团队应做好运维财务预算, 上报主管领导及财务部门, 并做 好预算必要性的沟通解释工作。预算应包括但不限于以下内容: 基于 SLA的人力预算;备件及工具、仪器采购费用; 应急维护材料费用;专业外包维保和应急服务费用;政策性等强制检测服务费用;整改或节能改造预算;突发问题备用金。

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1