网络运维部管理制度.docx
《网络运维部管理制度.docx》由会员分享,可在线阅读,更多相关《网络运维部管理制度.docx(27页珍藏版)》请在冰豆网上搜索。
网络运维部管理制度
网络运维部管理制度
V1.0版本)(
网络运维部管理制度.......................................................................................................................2
一、人员组织架构...................................................................................................................4
二、岗位职责:
.......................................................................................................................4
经理/副经理职责:
..........................................................................................................4
值班运维工程师职责:
...................................................................................................4
技术支持工程师:
...........................................................................................................5
信息安全专员:
...............................................................................................................5
故障管理...................................................................................................................................9
网络运维部故障分类.......................................................................................................9
网络运维事件处理流程及故障分级通报流程。
.........................................................10
问题管理.................................................................................................................................14
变更管理.................................................................................................................................16
网络运维部考核方法及细则.................................................................................................18
附录.........................................................................................................................................23
设备与网络管理办法.....................................................................................................23
值班中心工作要求.........................................................................................................24
一、人员组织架构
二、岗位职责:
经理/副经理职责:
1、领导和管理运维技术团队,负责本部门运维人员的日常管理,合理分配运维工作任务,考评运维人员技能和工作情况。
2、负责对各个机房运维管理,保障各机房环境、服务器、网络等各项服务稳定安全有效运行;3、定期对各个项目进行,对不合规的技术问题和风险立项整改和跟踪;4、协调客户关系和公司内部各项技术资源,及时有效解决问题;
5、组织实施并完善各项监控措施,制定并落实应急措施;6、结合用户业务,对各个系统及时提出调整、扩容、改造、调优等合理化建议,在采纳后组织力量实施;7、接收新开发系统,并纳入规范维护体系;8、协调制定运维制度和各项操作规范;9、及时响应应急事件(如有),积极组织力量尽快恢复业务服务、排除故障,并在事后提出事故分析和整改措施。
值班运维工程师职责:
小时数据中心统一监控、故障发现预警、事件跟踪记录,判断所发生问题7*24、1.
的类型、严重程度,完成对设备信息和告警的处理。
2、业务质量监测、流量分析、负责接入层网络运维管理。
3、客户技术支持(对外技术服务热线)网络运维平台信息维护。
网络工程师:
1、网络资源调配管理(ip资源分配、设备端口划分、链路传输、负载均衡等)、核心和汇聚层网络运维。
2、故障分析及处理,网络拓扑更新及网络优化。
网络安全方案实施部署,网络运维知识库维护。
3、处理各种网络故障,保障网络正常运行。
4、对值班运维工程师进行定期培训。
5、网络运维平台系统维护以及相关业务系统。
技术支持工程师:
1、核心网络设备运维:
核心网络设备安装、升级、扩展、等。
2、核心网络建设、扩展、灾备等技术支持。
3、对疑难网络故障进行技术支援,协调厂商对疑难故障进行排除。
4、售前、售后客户需求分析及跟进,以及方案制定。
信息安全专员:
接待备案用户,协助指导用户进行IP/ICP备案,并跟踪备案进度,及时反馈给用户;对接网监信息安全相关工作,包括信息安全核查以及相关月度报表等。
2、负责收取、汇总、审核、导入客户备案资料;3、负责定期统计和整理涉及备案的所有数据和报表;4、负责与接入商、通信局、公安局就有关备案事项作及时的沟通。
5、协助经理督促部门内的流程及考核工作。
运维管理工作制度
(一)工作时间:
网络运维部工作时间为7*24小时运维保障。
(二)工作方式:
值班运维工程师:
通过轮班运作实现7*24小时职守。
400电话7*24小时支持
网络运维部非值班人员:
5*8小时工作时间,非工作时间保证7*24小时手机开机,随时提供远程技术支持。
(三)工作内容:
1、每天两次进行业务系统、网络运行状况及对外服务器服务状况监控巡查;
2、按照规定的时段巡统计并汇总运维表单。
(流量统计、事件统计、问题统计、手里投诉统计等)
按照规定的时段查看路由、防火墙等关键系统运行情况,包括网络流量、带宽占用率等,重点检测关键设施,并记录;
4、按照规定的时段检查对外WEB、DNS服务器和EMAIL服务器的服务状况是否正常,并记录;
5、接待员工电话申告或讯问应做完整、详细记录,快速响应,及时确定原因,积极组织处理,同时记录解决问题的操作过程,问题解决后应及时回复申告人;
6、遇到不能处理的问题时,通知相关人员或及时汇报,并记录;
8、工作人员要有强烈的安全意识,巡查时应注意发现各种可能的安全隐患并及时排除。
(四)工作要求:
1、工作人员必须坚守值班岗位,确保24小时有人值守,认真履行职责;
2、未经批准不得擅离职守,除了吃饭时间(吃饭时间应在工作日志上记录),其他时间随意外出;
3、工作期间不得做与工作无关的事;
4、加强设备巡视,网络监控,发现问题及时处理,同时报告;
5、工作人员应有强烈的责任心,争取在第一时间发现问题,及时解决;
6、认真填写工作记录,不得乱写乱画和擅自撕毁;
7、不得擅自拆毁设备、关闭服务器,不得私自安装与公司网络运行无关的软件,不得私自修改系统配置参数;
8、工作人员应要熟悉机房设备,熟悉网络及线路的基本情况;
9、工作人员按规定的权限作好系统运行和管理工作,不得越权操作系统的硬软件;
10、工作人员应熟练掌握故障险情的处理流程,遇事沉着冷静;
11、对于违反工作规定,或责任心不强造成不良影响的,追究工作人员的责任。
请示报告制度
(一)工作中如有下列情况应及时请示报告:
1、汇报上级指令的执行情况和工作中遇到重大问题时;
2、系统出现严重问题甚至故障时;
3、系统出现方向性中断,不能保障网络畅通时;
4、需要更换网络设备、修改网络设备和服务器参数配置时;
5、调换工作人员时;
6、系统安全受到严重威胁,如火灾、雷击或其它严重性自然灾害时;
7、其它不能自行解决的异常情况时。
(二)请示报告通常应逐级进行。
机房和工作间管理制度
公司网络机房及各工作机房,要制定严格的工作制度,参加公司网络运维保障的人员应严格遵守。
(一)严格遵守各项设备操作规程。
(二)爱护系统设备,未经许可不得擅自拆、改或挪作它用。
(三)未经许可严禁在值勤系统设备上私自安装使用与系统无关的软件。
(四)保持良好的机房工作秩序。
维修工具、仪器仪表、资料和表报等放置整齐、定位准确。
(五)按规定着装(工作服)进入机房,不得任意换装。
(六)机房内严禁吸烟、打闹、会客,或从事与维护工作无关的活动。
(七)未经许可严禁无关人员进入机房。
(八)未经许可,任何人员不得在机房或其它工作间内摄影或录像。
资料和文档管理制度
(一)建立健全设备软、硬件文档资料库,分门别类,严格登记造册。
(二)文档资料随系统变化应及时维护、修改、校对。
.
(三)文档资料的借用,要按相关规定登记,按期归还,妥善保管,不得丢失。
(四)文档资料由专人负责保管,存放在专用的资料室。
(五)各种报表资料格式统一,填写要规范、准确、及时。
(六)报表种类:
1、值班工作日志;
2、事件故障统计表;
3、问题统计表;
4、网络资源分配统计表;
5、设备巡检表
6、流量统计表
7、网络设备管理信息表
(七)文档资料种类:
1、操作使用手册;
2、技术维护手册;
3、常见故障处理手册;
4、网络拓扑结构图;
5、通信及网络配线资料;
7、资源分配管理资料;
8、客户需求与配置资料;
9、应急情况处置预案;
10、系统建设文档。
包括:
总体建设方案、施工图纸、线路路由、原始参数配置、随机资料、软件等。
安全保密制度
(一)公司网络管理及使用人员应严格遵守国家相关的计算机安全法规,国家安全法令和我院有关网络管理的规章制度。
严禁在网上泄露国家机密;严禁散布颠覆国家、有损国家利益的反动言论;严禁在网上传播、查阅淫秽书刊、资料、色情类媒体信息;严禁在网上造谣诽谤、中伤国家、民族及个人的行为。
(二)不得与无关人员谈公司网络机密。
包括运营管理、近期规划、发展战略等事项。
未经上级或相关部门批准,无关人员不得进入机房;如已得到许可的,需由相关人员(三).
陪同。
(四)未经许可,严禁在机房内拍照、录像。
故障管理
网络运维部故障分类
网络运维故障根据运维对象可分为物理和逻辑两个层面,根据故障对象将故障划分为以下几类:
1、主机故障:
主要分服务器硬件(处理器、内存、主板、硬盘、电源等服务器物理配件),服务器软件(操作系统、应用软件等服务)。
2、网络设备故障:
网络设备网络中的路由器和交换机。
按照网络结构划分主要分核心层网络设备、汇聚层网络设备、接入层网络设备。
3、网络故障:
网络主要分机房网络故障和机房互联网络故障。
机房网络主要指机房内部网络路由、协议、及病毒引起的网络故障(例如:
ARP欺骗)。
机房互联网络故障主要指机房互联基础运营商(移动、联通、电信)网络故障,常见的比如互联骨干线路由于设备、路由、及协议引起的互联互通异常,
4、机房设施故障:
机房设施故障主要包括机房电力、制冷、消防及自然灾害(雷击、地震等)引起的故障,其中电力故障常见包括:
供电、机房UPS、供电线路等制冷故障主要指精密空调系统故障引起机房温度过高造成服务器、网络设备宕机等故障。
消防及自然灾害主要是指火宅、暴雨、雷击等不可控因素引起的故障。
5、人为因素故障:
人为因素主要包括计划调整和人为操作。
计划调整故障主要是指有发布调整计划通告的计划性认为操作引起的故障。
除了计划调整之外所有有关人为操作引起的故障就是人为操作故障,比如常见的DDOS、CC外部网络攻击及黑客入等造成故障和相关系统管理人员错误操作引起的故障。
6、其他故障:
除了以上各种故障类别外的故障都统称其他故障。
在故障描述时请写清楚故障表现及原因和处理过程。
网络运维事件处理流程及故障分级通报流程。
网络运维在发现事件后,要对事件进行分析,同时判断是否为故障,分别采用下面两个流程。
事件判断是否为故障的依据就是事件发生的背后是否对业务运行造成中断影响。
事件分级主要是以事件处理的时限分分级标准。
事件分两级,一般事件和重要事件,能在半个小时由发现人独立处理的为一般事件,超过半个小时的为重要事件,需要通知部门负责人协调处理。
故障分三级:
一般故障、严重故障、重大故障。
在故障发现后要以恢复业务为首要工作。
严重故障要通知到部门负责人(部门经理),重大故障要通知到中心负责人(运维中心总监及总经理)。
事件是故障表现,同一个故障可能引发多个事件。
在判断事件具体情况的时候一定要谨慎分析。
网络故障分级标准
网络运维故障类别分级标准
故障
30
分钟
60
分钟
升级
故障分类
一般故障
严重故障
重大故障
主机
核心业务承载主
一般业务承载主机
关键业务承载主机
主机
负载
机
故障
主机
网络丢包
中断/
网络丢包
中断/
网络丢包
/
中断
网络
主机运行
主机宕机
/故障
主机宕机
/故障
主机宕机
/
故障
设备
接入层以上设备
不影响运行
接入层设备运行
网络
运行
运行
设备故障
个别端口
业务板卡等局部接入层设备
汇聚层及核心层设备
设备
网络
整体小于
3%
整体大于
3%
小于
10%
大于
10%
连通
网络
影响接入层以下网
影响整体网络连通
整体网络中断
规模
络连通
网络
网络攻击
网络攻击影响个别客户
网络攻击影响同汇聚层下客户
网络攻击影响整个网络
病毒引发局部网络故
病毒
病毒引发主机故障
障
单点设备设施故
设施故障后影响局部
设施故障影响整
空调
障,可切备份
业务运行
体业务运行
供电故障引发设供电故障,不影响供电故障引发设备停电力备停机,影响业设备运行。
机不影响业务务
设施
故障