数据中心管理制度Word格式文档下载.docx
《数据中心管理制度Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《数据中心管理制度Word格式文档下载.docx(17页珍藏版)》请在冰豆网上搜索。
2
1.目的
为正常有序地开展物流园数据中心工作,保障机房设备与软件系统的安全、稳定、高效运行,结合本园区业务及数据中心具体情况,特制订本制度。
2.适用范围
本制度适用于信息部数据中心的日常管理。
3.数据中心环境管理
3.1每月5日由白班值班人员用吸尘器吸一次机柜和地板的灰尘,保持数据中心整体环境干净、美观、整洁有序,确保机房内无纸类、塑胶等易燃物品,保持无尘洁净环境。
3.2每月20日由白班值班人员对空调的过滤网进行清洗。
3.3进入机房者必须脱鞋或穿鞋套。
3.4机房内严禁吸烟,不得携带任何易燃、易爆、腐蚀性、强电磁、辐射性等对设备正常运行构成威胁的物品进入机房;
严禁将食物、水带入数据中心。
3.5数据中心机房地板及各类物品出现污垢时,必须及时采取措施清理干净(用抹布和酒精棉球擦),保持机房无尘洁净环境。
3.6机房温度控制在21℃~23℃范围内。
3.7机房内相对湿度控制在40%~60%范围内。
3.8检查发现服务器没有固定好的应立即用螺丝固定。
3.9规范各服务器的摆放,同一型号,同一应用的服务器尽量放在一起。
3.10各机柜的设备需用标签标明设备名称、IP、用途,线缆需用标签在两头标明连接的对端位置。
4.数据中心日常维护
4.1日常检查管理
4.1.1值班人员每天巡查服务器运行状况、网络连接状态、存储设备运行情况,认真填写机房巡视记录(见附件3:
机房巡检表),机房巡视周期为每天两次,其中8:
30、17:
00均为交接班巡视。
4.1.2每天检查动力电力状态、UPS工作状态、精密空调状态、消防设施、新风系统、传感系统、环境监控系统等是否正常运转,无警报发出。
4.1.3做好数据中心安全管理工作,出现机房盗窃、破门、火警、水浸、110报警等突发事件时,数据中心值班人员按照应急预案(见附件6:
机房突发事故应急处理预案)开展救援管理工作。
4.1.4数据中心工程师负责建立完善的《机房设备信息汇总表》(见附件7)及常用操作文档,禁止恶意破坏操作日志,并在文件服务器上将汇总表共享给数据中心所有成员。
4.1.5值班人员每班巡检1次各设备LED指示灯报警状态,按本制度异常管理相关条款处理报警事件。
4.1.6值班人员每天上班监控系统状态,按本制度异常管理相关条款处理报警事件。
4.1.7设备进入机房并部署完毕后,值班人员需立即将设备相关信息更新进《机房设备信息汇总表》(见附件7)。
4.1.8设备进出机房需要在《机房设备进出登记表》(见附件4)进行登记,处理相应的记录文档。
4.1.9对设备进行物理、逻辑配置等操作,需在操作前向信息部负责人提交申请,同时提交完善的方案文件。
得到部门负责人同意后方可进行变更操作,并需填写《机房设备变更日志》(附件5)。
4.1.10数据中心负责人负责每周对巡检结果进行检查。
4.2异常管理
4.2.1小型机、数据库、中间件服务器、应用PC服务器、路由器、交换机设备、存储设备是数据中心的关键设备,必须配置相应的监控系统观察和追踪设备异常情况。
4.2.2当设备出现异常时,设备供应商、服务提供商现场工程师进入机房须先提出申请,并提交完善的方案,取得信息部负责人批准后,在数据中心工作人员陪护下操作。
4.2.3任何存在风险的异动操作都必须首先备份相关系统,预备回滚措施。
当出现意外情况时,能够迅速恢复到正常状态。
4.2.4自然灾害发生情况下,可以用灾难恢复来保护数据安全。
4.2.5异常包括但不限于以下情况,任何干扰或者可能干扰公司业务正常运转的情况都属于异常情况:
4.2.5.1设备工作环境异常:
电源断电、网络中断、温湿度异常等;
4.2.5.2设备物理故障异常:
服务器硬件故障、交换机硬件故障等;
4.2.5.3设备系统资源异常:
CPU使用率长时间大于85%、硬盘空间使用率大于85%、内存或者交换空间使用率大于85%;
4.2.5.4服务应用异常:
中间件停止工作、数据库停止工作。
4.2.6当设备出现异常时,按异常设备处理流程处理异常情况。
4.2.6.1异常出现时,值班人员立即着手解决;
4.2.6.2值班人员不能在异常出现10分钟内解决的,或者预计不能解决的,立即联系相关设备负责人,尝试在指导下解决问题,或者由设备负责人远程处理;
4.2.6.3异常出现20分钟内不能解决的,设备负责人需立即到场处理问题,并通知数据中心负责人异常情况;
4.2.6.4异常出现1个小时不能解决的,或者预计不能解决的,由信息部助理联系维保服务商或者厂商工程师提供协助。
5.罚则
5.1初次违反本制度,须学习本制度,并向数据中心负责人提交检讨报告。
5.2季度累计两次(含)违反本制度,须提交事故报告及个人惩戒保证,当月绩效中的工作质量分和工作态度分各扣5分,扣完为止,同时在部门内部通报批评。
5.3违反以上制度,致使公司生产业务正常运行受到影响的,按公司《责任追究制度》处理;
5.4造成一次性损失1500元以上或季度累计3000元以上的,或未经部门负责人许可复制非公开资料的按劳动合同第二十八条规定和保密协议第七条规定处理。
6.本《数据中心管理制度》自发布之日起实施。
7.本《数据中心管理制度》由公司信息部负责解释。
8.制度类附件
8.1制度类附件1《执行信息服务中断任务操作指引》
8.2制度类附件2《异常处理等级提升操作指引》
8.3制度类附件3《机房巡检表》
8.4制度类附件4《机房设备进出登记表》
8.5制度类附件5:
《机房设备变更日志》
8.6制度类附件6:
《机房突发事故应急处理预案》
8.7制度类附件7《机房设备信息汇总表》
8.8制度类附件8《申请进入机房操作指引》
制度类附件1《执行信息服务中断任务操作指引》
执行信息服务中断任务工作指引
1、目的
为了保障设备升级、切割、重新部署等离线或停机维护事项稳健进行,有效配合各部门工作正常开展,特制定本工作指引。
2、适用范围
适用于信息部门离线或停机中断服务事项的操作。
3、职责
1、运维工程师负责提前与相关服务使用部门沟通,确认维护方案可行,且服务能够中断,执行中断任务,并保留回滚措施;
2、信息部负责人、分管领导及相关部门负责人、分管领导负责确认维护方案的可行性及是否能中断服务,并提前安排相关工作。
4、工作程序
流程开始
C01:
信息技术工程师填写《信息服务中断申请表》;
C02:
信息部运维工程师提交《信息服务中断申请表》给信息部负责人签字;
C03:
信息部运维工程师提交《信息服务中断申请表》给信息部分管领导签字;
C04:
信息部运维工程师提交《信息服务中断申请表》给相关部门负责人签字;
C05:
信息部运维工程师提交《信息服务中断申请表》给相关部门分管领导签字;
C06:
信息部运维工程师向全公司所有部门公告维护计划;
C07:
信息部运维工程师按照公告时间,首先准备备份,然后开始执行维护工作;
C08:
信息部运维工程师在完成维护工作之后,向公司所有部门公告维护完成。
流程结束
5.指引类附件
5.1指引类附件1《信息服务中断申请表》
信息服务中断申请表
具体区域
申请事由
申请人签名:
信息部负责人签名:
信息部分管领导审批:
相关部门负责人意见:
相关部门分管领导审批:
申报日期:
制度类附件2《异常设备处理操作指引》
异常设备处理工作指引
1、目的
为了规范管理排除异常的程序,明确升级机制,特制定本工作指引。
2、适用范围
适用于信息部数据中心排除异常事项的操作。
3、职责
3.1值班人员检查维护异常设备;
3.2设备负责人提供协助;
3.3数据中心负责人安排维保服务,并通报信息部负责人相关情况。
4、工作程序
流程开始:
值班人员发现异常,立即动手开始排除异常;
C02:
值班人员在10分钟内不能排除异常的,立即请求设备负责人提供协助,设备负责人远程协助对异常情况进行处理;
C03:
值班人员在设备负责人协助下仍不能在10分钟之内排除异常的,需要立即通知数据中心负责人。
设备负责人需要立即动身前往现场;
C04:
异常出现1个小时仍未能排除的,数据中心负责人需要立即联系第三方维保服务提供方在24小时内到达现场处理问题,并通知部门负责人;
C05:
维保服务提供方排除异常;
制度类附件3:
机房巡检表
巡检时间:
班次:
巡检人:
设备名
位置
IP
指示灯
负责人
电源灯
硬盘灯
网络灯
〇正常〇异常
消防瓶压力值(综合):
压力值:
消防瓶压力值(UPS):
消防瓶压力值(业务):
精密空调(综合):
温度:
湿度:
精密空调(业务):
新风机
是否开启
UPS
工作状态
配电
核心交换机
表格更新
制度类附件4:
机房设备进出登记表
时间
设备名称
设备编号
操作人
制度类附件5:
机房设备变更日志
时间:
__年__月__日操作人:
________
变更设备
变更原因
变更操作
部门负责人意见
制度类附件6:
机房突发事故应急处理预案
为确保机房安全与公司业务正常进行,有效处置突发事件,建立统一指挥、职责明确、运转有序、反应迅速、处置有力的应急处置体系,最大限度降低突发事件的危害,保障数据中心日常工作的正常进行,依据有关规章制度,结合实际情况,特制定本预案。
以下紧急情况都属于重大事件,需要立即通知部门负责人。
一、被盗案件应急预案
1.报警程序:
a)发现案件时应及时向保卫部门报警。
b)报告主管领导和上级部门。
c)经主管领导同意后向公安机关报案;
2.处置措施:
在公安机关人员未到之前,禁止任何人进入现场;
3.注意事项:
a)保护好现场,为侦破案件提供条件。
b)积极协助公安人员勘察现场。
二、机房漏水应急预案
1.发生机房漏水时,第一目击者应立即通知部门负责人和物业部值班人。
机房运维工程师接报后应立即前往事发地。
现场人员须在确保人生安全的前提下,采取一切能够减少损失的方法。
2.若空调系统出现渗漏水,第一目击者应立即通知部门负责人和立即通知机房维保服务商进行处理,并及时清除机房积水。
3.若墙体或窗户渗漏水,第一目击者应立即通知部门负责人并采取有效措施确保机房设备安全,同时联系物业部值班人员,及时清除积水,维修墙体或窗户,消除隐患。
4.如建筑本体需要维修的,第一目击者应立即通知部门负责人和物业部值班人员,与物业部值班人员一起采取临时有效措施确保机房设备安全。
并要求物业部值班人立即安排施工队抢险。
三、消防和防雷应急预案
1.一旦发生火警,现场工作人员应及时紧急撤离,立刻拨打119报警,并通知信息部负责人、监控中心值班人员和物流园专职消防队,做好火灾的处置工作。
现场工作人员可在确保自身安全的情况下,启动消防灭火装置系统,同时采取关闭电源总闸等措施,尽量减少可能造成的损失和破坏;
2.火情结束之后,机房运维工程师应赶赴现场,并向信息部负责人汇报设备损坏情况。
同时立即联系设备厂家,及时评估事故损失情况,研讨恢复网络系统正常运行的最佳解决方案。
3.机房要作好防雷措施,安装接地线。
因雷击造成的损失,机房运维工程师应及时进行核实、报损,并将详细情况向部门负责人汇报。
制度类附件7:
机房设备信息汇总表
序号
服务器主机名
设备型号
ID&
KEY
用途
是否生产状态
运行系统
运行软件
软件位置
软件启动和关闭
软件占用端口
监控内容
登记人
登记时间
3
4
5
6
7
8
9
10
11
12
13
14
15
制度类附件8《申请进入机房操作指引》
申请进入机房工作指引
为了规范数据中心机房人员进出的管理,特制定本工作指引。
适用于非数据中心运维人员进出数据中心机房的管理。
3.1值班人员核实申请人进入机房的必要性,并需在进入申请获得批准后陪同申请人一起作业。
3.2数据中心负责人审核相关申请。
3.3.信息部负责人审批相关申请。
流程开始:
申请人根据实际情况填写《机房进出申请表》。
机房值班人员检查是否符合事实,符合事实的提交给数据中心负责人审核,不符合事实的退回申请人处重新填写;
数据中心负责人审核相关申请,同意后签字提交部门负责人审批,不同意则退回申请;
信息部负责人审批相关申请,同意则在申请表上签字,不同意则退回申请;
申请通过后,申请人在机房值班人员陪同下进入机房作业。
5:
指引类附件
5.1指引类附件1《机房进出申请表》
指引类附件1
机房进出申请表
编号:
________________
日期:
申请人姓名
所在单位
证件名称/编码
电话号码
预计用时
实际用时
进入时间
离开时间
进入事由:
值班人:
数据中心负责人意见:
年月日
信息部负责人意见: