网络运维部管理制度文档格式.docx
《网络运维部管理制度文档格式.docx》由会员分享,可在线阅读,更多相关《网络运维部管理制度文档格式.docx(13页珍藏版)》请在冰豆网上搜索。
3、定期对各个项目进行,对不合规的技术问题和风险立项整改和跟踪;
4、协调客户关系和公司内部各项技术资源,及时有效解决问题;
5、组织实施并完善各项监控措施,制定并落实应急措施;
6、结合用户业务,对各个系统及时提出调整、扩容、改造、调优等合理化建议,在采纳后组织力量实施;
7、接收新开发系统,并纳入规范维护体系;
8、协调制定运维制度和各项操作规范;
9、及时响应应急事件(如有),积极组织力量尽快恢复业务服务、排除故障,并在事后提出事故分析和整改措施。
1、7*24小时数据中心统一监控、故障发现预警、事件跟踪记录,判断所发生问题的类型、严重程度,完成对设备信息和告警的处理。
2、业务质量监测、流量分析、负责接入层网络运维管理。
3、客户技术支持(对外技术服务热线)网络运维平台信息维护。
网络工程师:
1、网络资源调配管理(ip资源分配、设备端口划分、链路传输、负载均衡等)、核心和汇聚层网络运维。
2、故障分析及处理,网络拓扑更新及网络优化。
网络安全方案实施部署,网络运维知识库维护。
3、处理各种网络故障,保障网络正常运行。
4、对值班运维工程师进行定期培训。
5、网络运维平台系统维护以及相关业务系统。
1、核心网络设备运维:
核心网络设备安装、升级、扩展、等。
2、核心网络建设、扩展、灾备等技术支持。
3、对疑难网络故障进行技术支援,协调厂商对疑难故障进行排除。
4、售前、售后客户需求分析及跟进,以及方案制定。
接待备案用户,协助指导用户进行IP/ICP备案,并跟踪备案进度,及时反馈给用户;
对接网监信息安全相关工作,包括信息安全核查以及相关月度报表等。
2、负责收取、汇总、审核、导入客户备案资料;
3、负责定期统计和整理涉及备案的所有数据和报表;
4、负责与接入商、通信局、公安局就有关备案事项作及时的沟通。
5、协助经理督促部门内的流程及考核工作。
运维管理工作制度
(一)工作时间:
网络运维部工作时间为7*24小时运维保障。
(二)工作方式:
值班运维工程师:
通过轮班运作实现7*24小时职守。
400电话7*24小时支持
网络运维部非值班人员:
5*8小时工作时间,非工作时间保证7*24小时手机开机,随时提供远程技术支持。
(三)工作内容:
1、每天两次进行业务系统、网络运行状况及对外服务器服务状况监控巡查;
2、按照规定的时段巡统计并汇总运维表单。
(流量统计、事件统计、问题统计、手里投诉统计等)
按照规定的时段查看路由、防火墙等关键系统运行情况,包括网络流量、带宽占用率等,重点检测关键设施,并记录;
4、按照规定的时段检查对外WEB、DNS服务器和EMAIL服务器的服务状况是否正常,并记录;
5、接待员工电话申告或讯问应做完整、详细记录,快速响应,及时确定原因,积极组织处理,同时记录解决问题的操作过程,问题解决后应及时回复申告人;
6、遇到不能处理的问题时,通知相关人员或及时汇报,并记录;
8、工作人员要有强烈的安全意识,巡查时应注意发现各种可能的安全隐患并及时排除。
(四)工作要求:
1、工作人员必须坚守值班岗位,确保24小时有人值守,认真履行职责;
2、未经批准不得擅离职守,除了吃饭时间(吃饭时间应在工作日志上记录),其他时间随意外出;
3、工作期间不得做与工作无关的事;
4、加强设备巡视,网络监控,发现问题及时处理,同时报告;
5、工作人员应有强烈的责任心,争取在第一时间发现问题,及时解决;
6、认真填写工作记录,不得乱写乱画和擅自撕毁;
7、不得擅自拆毁设备、关闭服务器,不得私自安装与公司网络运行无关的软件,不得私自修改系统配置参数;
8、工作人员应要熟悉机房设备,熟悉网络及线路的基本情况;
9、工作人员按规定的权限作好系统运行和管理工作,不得越权操作系统的硬软件;
10、工作人员应熟练掌握故障险情的处理流程,遇事沉着冷静;
11、对于违反工作规定,或责任心不强造成不良影响的,追究工作人员的责任。
请示报告制度
(一)工作中如有下列情况应及时请示报告:
1、汇报上级指令的执行情况和工作中遇到重大问题时;
2、系统出现严重问题甚至故障时;
3、系统出现方向性中断,不能保障网络畅通时;
4、需要更换网络设备、修改网络设备和服务器参数配置时;
5、调换工作人员时;
6、系统安全受到严重威胁,如火灾、雷击或其它严重性自然灾害时;
7、其它不能自行解决的异常情况时。
(二)请示报告通常应逐级进行。
机房和工作间管理制度
公司网络机房及各工作机房,要制定严格的工作制度,参加公司网络运维保障的人员应严格遵守。
(一)严格遵守各项设备操作规程。
(二)爱护系统设备,未经许可不得擅自拆、改或挪作它用。
(三)未经许可严禁在值勤系统设备上私自安装使用与系统无关的软件。
(四)保持良好的机房工作秩序。
维修工具、仪器仪表、资料和表报等放置整齐、定位准确。
(五)按规定着装(工作服)进入机房,不得任意换装。
(六)机房内严禁吸烟、打闹、会客,或从事与维护工作无关的活动。
(七)未经许可严禁无关人员进入机房。
(八)未经许可,任何人员不得在机房或其它工作间内摄影或录像。
资料和文档管理制度
(一)建立健全设备软、硬件文档资料库,分门别类,严格登记造册。
(二)文档资料随系统变化应及时维护、修改、校对。
(三)文档资料的借用,要按相关规定登记,按期归还,妥善保管,不得丢失。
(四)文档资料由专人负责保管,存放在专用的资料室。
(五)各种报表资料格式统一,填写要规范、准确、及时。
(六)报表种类:
1、值班工作日志;
2、事件故障统计表;
3、问题统计表;
4、网络资源分配统计表;
5、设备巡检表
6、流量统计表
7、网络设备管理信息表
(七)文档资料种类:
1、操作使用手册;
2、技术维护手册;
3、常见故障处理手册;
4、网络拓扑结构图;
5、通信及网络配线资料;
7、资源分配管理资料;
8、客户需求与配置资料;
9、应急情况处置预案;
10、系统建设文档。
包括:
总体建设方案、施工图纸、线路路由、原始参数配置、随机资料、软件等。
安全保密制度
(一)公司网络管理及使用人员应严格遵守国家相关的计算机安全法规,国家安全法令和我院有关网络管理的规章制度。
严禁在网上泄露国家机密;
严禁散布颠覆国家、有损国家利益的反动言论;
严禁在网上传播、查阅淫秽书刊、资料、色情类媒体信息;
严禁在网上造谣诽谤、中伤国家、民族及个人的行为。
(二)不得与无关人员谈公司网络机密。
包括运营管理、近期规划、发展战略等事项。
(三)未经上级或相关部门批准,无关人员不得进入机房;
如已得到许可的,需由相关人员陪同。
(四)未经许可,严禁在机房内拍照、录像。
故障管理
网络运维部故障分类
网络运维故障根据运维对象可分为物理和逻辑两个层面,根据故障对象将故障划分为以下几类:
1、主机故障:
主要分服务器硬件(处理器、内存、主板、硬盘、电源等服务器物理配件),服务器软件(操作系统、应用软件等服务)。
2、网络设备故障:
网络设备网络中的路由器和交换机。
按照网络结构划分主要分核心层网络设备、汇聚层网络设备、接入层网络设备。
3、网络故障:
网络主要分机房网络故障和机房互联网络故障。
机房网络主要指机房内部网络路由、协议、及病毒引起的网络故障(例如:
ARP欺骗)。
机房互联网络故障主要指机房互联基础运营商(移动、联通、电信)网络故障,常见的比如互联骨干线路由于设备、路由、及协议引起的互联互通异常,
4、机房设施故障:
机房设施故障主要包括机房电力、制冷、消防及自然灾害(雷击、地震等)引起的故障,其中电力故障常见包括:
供电、机房UPS、供电线路等制冷故障主要指精密空调系统故障引起机房温度过高造成服务器、网络设备宕机等故障。
消防及自然灾害主要是指火宅、暴雨、雷击等不可控因素引起的故障。
5、人为因素故障:
人为因素主要包括计划调整和人为操作。
计划调整故障主要是指有发布调整计划通告的计划性认为操作引起的故障。
除了计划调整之外所有有关人为操作引起的故障就是人为操作故障,比如常见的DDOS、CC外部网络攻击及黑客入等造成故障和相关系统管理人员错误操作引起的故障。
6、其他故障:
除了以上各种故障类别外的故障都统称其他故障。
在故障描述时请写清楚故障表现及原因和处理过程。
网络运维在发现事件后,要对事件进行分析,同时判断是否为故障,分别采用下面两个流程。
事件判断是否为故障的依据就是事件发生的背后是否对业务运行造成中断影响。
事件分级主要是以事件处理的时限分分级标准。
事件分两级,一般事件和重要事件,能在半个小时由发现人独立处理的为一般事件,超过半个小时的为重要事件,需要通知部门负责人协调处理。
故障分三级:
一般故障、严重故障、重大故障。
在故障发现后要以恢复业务为首要工作。
严重故障要通知到部门负责人(部门经理),重大故障要通知到中心负责人(运维中心总监及总经理)。
事件是故障表现,同一个故障可能引发多个事件。
在判断事件具体情况的时候一定要谨慎分析。
网络故障分级标准
故障(事件)管理流程目的
事件管理流程的主要目标是尽快恢复IT服务提供并减少其对业务的不利影响,尽可能保证最好的IT服务质量和可用性等级。
事件管理流程通常涉及事件的侦测和记录、事件的分类和支持、事件的调查和诊断、事件的解决和恢复以及事件的关闭。
故障管理流程
故障处理流程图
值班运维发现监控报警或者客户向值班运维报障;
登记故障信息,发生时间、故障来源(故障处理跟踪表)
判断故障影响范围,并根据SLA定义,公告相应岗位人员(邮件和短信)
值班运维人员判断此次故障是否可以处理;
若故障问题值班人员可直接处理,便做好故障记录,迅速处理故障;
若故障不可立刻处理,值班运维则须在10分钟内通知运维中心的技术专员;
同时在故障处理跟踪表记录故障处理转移时间和转移到的相关人员;
技术专员判断故障的原因并处理故障,若能够立刻判断故障的成因,则迅速处理故障;
故障处理完毕后,第一时间通知值班运维,由值班运维发布业务恢复公告(根据SLA定义级别公告对象),告知故障处理完毕。
补充故障处理过程到故障跟踪表。
若故障不可立即处理,则启动应急方案恢复业务,技术人员须记录好相关情况,通知值班运维人员发业务恢复通告,并于事后通知研发部门,协助解决类似技术问题;
启动问题管理流程,跟踪解决问题。
在故障处理完毕后,运维人员应做故障分析,编写对内及对外的故障报告,并对此次故障进行存档归类。
每星期统计所有团队的故障信息入故障统计表。
关联表单《400电话记录表》、《故障处理跟踪表》、《故障统计表》
问题管理
问题管理流程
问题处理流程图
一、问题管理流程目标:
问题管理流程的主要目标是预防问题和事故的再次发生,并将未能解决的事件的影响降低到最小。
问题管理流程包括诊断事件根本原因和确定问题解决方案所需要的活动,通过合
适的控制过程,尤其是变更管理,负责确保解决方案的实施。
问题管理还将维护有关问题、应急方案和解决方案的信息。
二、问题管理流程:
问题产生来源:
由故障流程传递的遗留问题、巡检发现的运维问题等;
运维工程师登记问题(问题处理跟踪表)
针对问题的影响范围、引起的潜在风险、某些流程规定等因素,提出解决方案以及预计解决时间;
管理层评审解决方案及解决时间;
解决方案评审通过后,按照具体的方案执行采购和变更
问题解决后记录解决时间和解决状态(问题处理跟踪表)
对于某些不可控、风险低、无法短时间解决的问题申请挂起或关闭状态,通过评审决定是否可以实施挂起或关闭状态;
问题解决进度列入运维团队考核指标,挂起状态的问题不计入超期问题,但在年度内必须关闭.
每星期总结当星期所有团队登记的问题入问题统计表;
变更管理
变更管理流程
变更管理流程图
一、变更管理流程目的
变更管理实现所有IT基础设施和应用系统的变更,变更管理应记录并对所有要求的变更进行分类,应评估变更请求的风险、影响和业务收益。
其主要目标是以对服务最小的干扰实现有益的变更。
适用于现有运营环境、对业务有影响的变更。
二、变更管理流程
1、业务发起变更或者运维计划产生变更;
2、责任人提交变更申请,邮件的形式发送给运维团队;
准备输出变更申请单,在变更申请单中详细描述变更目的和变更计划;
3、运维部门在变更记录表中记录所有申请的变更,安排时间组织评审和变更统计;
4、组织变更评审,如果评审通过则按照变更计划执行变更;
评审意见为“通过”
5、如果评审不通过则按照评审意见修改变更计划,进行二次评审;
直到评审通过才可以进行变更。
6、涉及到机房内物理设备的操作,要在变更评审通过后立即准备相应的表单;
7、变更结束后记录变更结果,并汇总至变更记录表。
8、变更后机房设备位置变化、IP地址、带宽资源的变化需要通知相关人员记录。
涉及表单:
《变更申请表》、《变更统计表》、《IDC服务工单》、《速比拓IDC下架申请单》
网络运维部考核方法及细则
考核对象:
网络运维部成员:
考核目的:
为了提高运维工作水平,保障各项工作流程能彻底执行。
结合公司运维中心考核制度根据网络运维部实际工作内容制度以下考核方法。
考核目的主要有:
提高工作效率、规范各项流程执行、保证服务水平、保证运维支撑能力。
考核依据:
监控系统各项数据统计、客户电话处理及记录内容、各项流程执行记录、故障记录等客观数据内容。
考核范围:
考核方法适用于运维中心季度绩效考核是网络运维部人员
考核数据用于运维中心评估个人考核时用。
评估方法考核结果*60%=运维中心考核经理打分。
本考核方法及细则解释权由邢冬解释。
在落实实施中有疑问及意见请及时反馈邢冬。
附录
设备与网络管理办法
网络管理主要对象是:
网络设备、网络资源、网络拓扑等。
网络设备:
设备配置必须经过实际测试后才能将设备上线使用。
网络设备端口使用必须保证唯一性,设备端口使用信息必须在描述清楚,并做好记录。
设备端口接入线路上必须打标,并在标签上描述清楚线路走向。
网络资源:
网络资源主要包括IP地址、传输链路、带宽分配等
IP地址使用必须保证唯一性,并且对应唯一的设备端口。
在做记录的时候需要记录好ip
使用着的信息,包括应急联系人。
传输链路:
传输链路要明确用途,在链路上要打标,标签上详细记录每条链路走向。
链路用途和维护人都要做好明确记录。
传输线路标签样例
端口线路标签样例
带宽分配:
带宽分配须和合同数据一致,同时明确带宽用途,带宽数据要对应具体设备及端口。
网络拓扑:
网络拓扑可以很直观的了解网络的具体结构。
在网络运维工作中要保证网络拓扑信息的准确性。
值班中心工作要求
7*24小时值班运维工作要求
数据中心业务实行24小时值班制,监控中心要保证每个专业有值班人员。
在集中监控完善的条件下,经领导批准后可以实施无人值守或无人值夜班。
机房值班人员必须经过相应的培训后方可上岗,在此之前严禁独立上岗。
培训内容包括:
常见问题处理,事件、故障处理流程,与从事维护操作相适应的技术业务知识等,各项运维制度。
严格遵守机房内的各项规章制度、操作规程及安全保密规定,要严格按照作业计划和维护管理部门下达的作业内容及时、准确地进行操作,严禁超越职责范围的操作和违规操作。
不得人为阻断正常开放的业务,不得任意关闭运行中的设备。
做好日常维护测试和故障处理工作。
配合所有接口部门做好日常测试和故障处理工作,配合客服部门做好用户投诉处理工作。
在维护终端和监控终端工作时,不得进行与原规定作业内容无关的操作,不得运行外来没有经过检查的软件。
严格执行系统停机、停电路和重启检修过程中的请示报告制度。
涉及改变系统或电路运行状态操作(包括倒换),应实行他人检查,双人操作制,并经维护管理相关人同意后方可进行,并认真做好记录。
、在值班期间要按照规定要求定期进行机房,注意观察各种告警设备、网管监控设备、设备运行状态、来电及来文等,及时处理职责范围内的各种事件和故障,如遇无法处理的事件和故障应立即相关流进行汇报。
严禁在值班现场吸烟、饮食、睡觉、打电子游戏、上网、电话聊天以及做其他与工作无关的事情。
要认真填写值班记录、交班记录以及各种原始记录、重要事项记录,所有工作必须认真记录,要字迹清晰、内容完整,管理人员应定期检查并签字。
值班人员在值班期间要对进出机房人员进行管理,无关人员严禁进入机房,需要进入时必须出示准入证明,并要求登记每一个人的姓名、单位、事由、出入时间等,严禁将违禁物品及与工作无关的物品带入机房。
交接班工作要求
只有交班人和接班人都在情况下,交接班工作才能进行。
交接班完成后,双方必须在交接班记录上签字,交班人才能离岗。
值班人员应在下班前30分钟全面机房一次,按交班内容作好交班准备工作。
接班人员应在接班前10分钟等待接班,并查阅值班记录、故障记录、和业务通知等有关记录。
在交接班时,应查明设备的运行状态,值班记录、交班记录以及在上一班期间发生的各种情况(包括已经处理的)。
其中不清楚的,应由交班者进行必要的口头解释。
在交接班的过程中,双方应共同对各系统和设备进行,尤其要注意对正在测试和处理的事件、故障以及正在进行的工作进行重