信息网络运行维护管理规范.docx
《信息网络运行维护管理规范.docx》由会员分享,可在线阅读,更多相关《信息网络运行维护管理规范.docx(47页珍藏版)》请在冰豆网上搜索。
信息网络运行维护管理规范
信息系统运维事件管理标准
1.1适用范围
本标准适用于信息系统运维事件,包括对信息系统的使用咨询,系统故障,以及有关业务应用的支持要求。
1.2定义与术语
术语
术语解释
岗位AB角
一个岗位安排两个人,其中一个主要负责,称为A角,当A角不能履行职责时,由B角替代。
呼叫中心
接收用户运维请求的受理平台。
事件管理
和呼叫中心一起组成事件处理流程,有效解决各类IT突发事件,尽快恢复IT效劳。
配置管理
管理各IT资产系统(配置元素,配置项)的流程,包括相互间的关联与依赖关系。
配置管理数据库
对所有IT组件、组件的不同版本和状态以及组件之间的相互关系进展跟踪、记录。
运维管理知识库
操作指南,开发文档、技术文档、验收文档等技术资料的集合。
影响程度
问题造成对IT环境的影响范围,包括对其他IT系统,对相关人员等。
优先级
问题需要找到解决方法和处理措施的紧急程度。
重大故障
在各系统的系统故障分级中定义为一级故障的故障现象,均视为重大故障。
一般故障
在各系统的系统故障分级中定义为二、三级故障的故障现象,视为一般故障。
1.3角色与职责
本过程设立运维负责人、支持受理人、问题反映人、各系统管理岗,岗位设立AB角,负责信息系统运维事件的管理,具体职责要求如下:
序号
角色名称
定义/职责
1
运维负责人
1.全面负责运维各项工作。
2.审核审批各项运行维护制度标准和工作流程,负责协调各部门间的工作。
3.负责与其他部门间的协调工作。
4.负责建立健全本级运维与上级运维部门、本级运维与下级运维之间高级技术支持之间的顺畅沟通机制。
5.负责本级运维队伍的管理、培训工作。
6.负责落实上级运维部门提出的运行维护任务。
7.管理运行维护部门员工的工作。
8.通过呼叫中心事件管理报告,监控事件管理的效率,改善运维效劳质量。
9.负责系统重大故障及紧急事件的处理,并负责组织进展相关事故原因的调查分析,形成事故分析报告和相应的解决方案。
10.在业务部门,信息中心领导,以及信息中心内部维持良好的沟通渠道。
11.完善和维护事件管理系统。
2
支持受理人
1.负责接收用户反映的信息系统问题,并对问题记录、整理。
2.负责对事件分类和提供初始的支持。
3.将问题的解决步骤文档化。
4.将效劳请求分派给适当的工作组。
5.跟踪效劳请求的处理过程以确保在规定的时间内解决问题,同时在系统里更新相应信息。
6.对于无法解答的技术问题,及时转送其他相关人员;对于无法解答的业务问题,及时提交运维负责人。
7.与效劳请求的提交者进展直接的沟通,通报事件的处理情况。
8.在完毕事件之前要确认效劳请求的提交者对事件的解决过程及结果是否满意。
9.作为事件的责任人,监控,跟踪所有的事件处理过程,并作为和客户沟通的唯一联系点。
10.编制管理信息报告。
3
问题反响人
1.对于本级运维解决有困难的问题,负责向上级运维中心、高级技术支持或国家电网运维部门及时准确地上报。
2.对于紧急、重大故障问题,负责向上级运维中心、高级技术支持或国家电网运维部门及时准确地上报。
3.负责全程配合、协助国家电网解决上报问题,并跟踪问题的进展、解决、落实过程。
4
系统管理员
1.在规定的时间内解决效劳请求。
2.对利用"临时方案"解决的效劳需求,在资源及时间允许时应找到问题根源。
3.在需要时〔有重大故障及升级需求时〕,及时利用其它资源(开发商或供给商)帮助用户解决问题。
4.将效劳请求的解决方案的步骤文档化,并录入系统。
5.更新文档记录。
6.和主机管理人、存储管理人、数据库管理人、中间件管理人一道,对业务系统实行全方位的管理。
1.4工作流程与活动
参与事件管理、效劳请求管理、重大故障处理、事件升级、一般事件处理、效劳报告管理流程涉及的系统运维工作。
具体工作内容如下:
1.3.1事件管理
运维事件管理的总体流程如图1"问题响应管理总体流程"所示:
1.支持受理人承受来自各种渠道的效劳请求、告警、故障事件等;
2.通过效劳请求管理系统将事件进展记录、分类、确定优先级;
3.根据预定义的重大故障分类,判断是否启动"重大故障处理流程"〔见图3〕;
4.如遇紧急事件,那么直接执行"升级流程"〔见图4〕,由运维负责人直接调用适当资源尽快处理;一般事件那么执行"一般事件处理流程"〔见图5〕。
〔图1问题响应管理总体流程〕
1.3.2效劳请求管理
1.支持受理人承受来自各种渠道提交的有关信息系统运维的效劳请求、告警、故障事件等;
2.确认事件请求人是否属于效劳对象。
如果不是,那么拒绝效劳转交其它部门处理;问题概要需要在"效劳请求记录表"〔见附录1〕中进展详细的记录,如详细情况描述;
1)按照预定义的"系统效劳分类〞对事件涉及的系统进展分类,如:
网络系统,主机系统、营销系统等;
2)根据预定义的配置管理数据库的相关内容,将事件与配置项联系起来;
3)选择事件的影响程度:
低:
造成个别用户不能正常访问。
中:
局域网内超过5%的用户不能正常访问。
高:
营销系统、"95598〞系统等核心业务系统大面积瘫痪,不能正常对公众提供效劳,造成负面的社会影响。
4)选择优先级:
无优先级:
无时限要求,在方便的时候排除故障。
低:
24小时内排除故障。
中:
8小时内排除故障。
高:
4小时内排除故障。
最高:
2小时内排除故障。
效劳请求管理流程如图4所示。
〔图2效劳请求流程〕
1.3.3重大故障管理
支持受理人完成效劳请求流程后,如果事件是属于影响程度最高的故障,那么即刻启动"重大故障处理流程";
1.向最终用户发出效劳中断通知;
2.支持受理人同时要尽快将故障情况向运维负责人汇报;
3.运维负责人应立刻通知相关领导以及灾难恢复领导小组〔由主要业务部门领导,信息中心领导,主管领导等组成〕,决定本故障是否通过上级运维部门才能解决,如果是,那么由问题反映者联系上级运维中心,上级运维部门根据有关流程予以解决;
4.如果不用上级运维部门解决,那么根据恢复时间标准确定是否启动应急预案;确定需要启动应急预案后,由应急预案小组执行恢复方案,使系统尽快恢复运作;
5.同时运维负责人要召集所有相关技术专家〔工程组技术负责人,效劳商,厂商以及各系统管理员〕进展集中诊断,制定系统修复方案。
并由相关系统管理人联合效劳商一起执行系统修复方案;
6.系统修复并经测试成功后,支持受理人发布系统效劳恢复通告;
7.联合系统管理员在效劳请求系统中将故障的所有信息进展更新,如解决方案,关闭代码,如果在呼叫登记阶段录入的配置工程,分类等有误,需要一并修正;
8.联合相关系统管理员准备"重大故障责任报告〞并提出整改措施;
9.运维负责人负责审阅批准重大事件责任报告,并向相关领导分发此报告;
10.运维负责人负责跟进整改措施。
重大故障管理流程如图5所示。
〔图〔图3重大故障处理流程〕
1.3.4事件升级
如果支持受理人接到紧急的效劳请求〔优先级最高〕,或在一般事件处理流程中,事件的完成时限超过了承诺的效劳时限时,支持受理人可以启动升级流程。
1.支持受理人通知运维负责人,请求支持;
2.运维负责人协调相关资源解决问题;
3.支持受理人负责跟踪事件进度以及确定事件状态;
4.事件解决后,由支持受理人与效劳请求者确认并更新事件记录;
5.支持受理人关闭事件。
事件升级流程如图4所示。
〔图4事件升级流程〕
1.3.5一般事件处理
1、支持受理人承受的效劳请求如果不属于"重大故障〞或"紧急事件〞,按照"一般事件处理流程"完成事件的处理。
一般事件处理流程如图6所示。
2、如果效劳请求属于指定工作组的责任,支持受理人直接将效劳请求分派给各工作组。
对分派给指定工作组的事件,支持受理人要负责跟踪事件的解决状态,并定期监视相关效劳人员尽快完成。
如果相关效劳组在接近效劳时限〔可定为超过效劳时限的80%的时间〕仍没有确定的解决方案,支持受理人需请求相关专家协助完成。
对不能在效劳时限内完成的事件,支持受理人应通过"升级流程"加快事件的解决速度。
事件解决后,支持受理人通过等方式与呼叫者进展确认,并更新事件记录,关闭事件。
3、对于非指定工作组处理的事件,支持受理人对事件进展诊断分析,尝试解决。
4、对不能在线及时解决的事件,支持受理人应先在运维管理知识库中查找相应解决方案,找到解决方案后,尽快完成效劳请求。
不能解决的事件,请尽快根据效劳范围职责划分〔效劳支持流程人员表〕,将事件升级给二线支持人员,并跟踪事件处理状态。
如果相关二线支持效劳组在接近效劳时限的最后期限〔可定为超过效劳时限的80%的时间〕仍没有确定的解决方案,相应系统管理人那么需判断是否需要报请上级运维部门予以解决。
如果需要,那么通过问题反映者向上级运维部门报告,上级运维部门那么按有关流程予以解决,如果不需要那么请求三线支持人员协助完成。
对不能在效劳时限内完成的事件,支持受理人应通过"升级流程"加快事件的解决。
事件解决后,支持受理人通过等方式与效劳请求者进展确认,并更新事件记录,关闭事件。
〔图5一般事件处理流程〕
支持受理人是事件管理流程的一线支持。
各应用系统管理员、网络管理员、主机管理员等是事件管理流程的二线支持工程师。
开发商、集成商、设备供给商等外部效劳专家是事件管理流程的三线支持。
1.3.6效劳报告管理
效劳主管每月利用效劳记录表,按照效劳管理的指标分类整理各类数据,形成效劳请求管理报告,提交给运维负责人进展审阅。
运维负责人负责与相关部门及业务部门针对效劳管理报告进展沟通,如果必要提出诸如用户培训、系统优化等建议,并负责跟进改良方案。
1.5管理原那么
1、运维中心应设立呼叫中心,做为IT效劳管理与用户的接口,受理并处理用户的效劳请求。
没条件设立呼叫中心的效劳机构应设立效劳热线。
2、除非特别的效劳说明,任何事件处理不应绕过效劳热线来解决。
3、所有最终用户的效劳请求应由统一的系统记录在案,并通过系统完成工作分派,监测跟踪,事件升级管理和质量管理。
4、呼叫系统应包含对事件处理进展跟踪及监控的流程。
5、负责呼叫系统的员工应尽最大可能在一线解决用户的问题。
6、对所有问题的解决方法应在呼叫系统所使用的系统工具中存档。
7、应尽量将效劳请求与配置工程联系起来。
8、应及时向提交问题的最终用户通报问题的处理情况,系统维护效劳的进度和情况也应由效劳请求支持员工与最终用户进展沟通。
9、效劳请求完成后应确定最终用户对事件解决方案的满意程度。
10、应完整的描述和记录当前信息中心为其它部门所提供的效劳、效劳级别、以及提供响应的流程文档。
1.6附录
1.6.1附表1效劳请求记录表
效劳请求记录表
请求信息
报修时间
故障地点
客户电话
IP地址
记录人
系统效劳分类:
□网络系统□平安系统□主机系统□存储藏份系统
□"95598〞系统□营销系统□生产管理系统□OA系统
□人力资源系统□财务系统
事件影响程度:
□高□中□低
优先级:
□最高□高□中□低□无优先级
故障现象
处理过程:
信息系统网络管理标准
3.1适用范围
本标准适用于公司本部和基层单位主机房内的网络设备,包括各种路由器、交换机、防火墙、楼层交换机以及边界路由器和将来投入使用的网络设备的管理工作。
3.2定于与术语
术语
术语解释
岗位AB角
一个岗位安排两个人,其中一个主要负责,称为A角,当A角不能履行职责时,由B角替代。
网络事件
由于网络故障,如路由故障、交换故障、IP地址冲突,线路故障、网络设备故障等造成网络中断或效劳质量下降的任何事件。
3.3角色与职责
设立网络管理岗,岗位设立AB角,负责网络和网络设备的运行维护管理和监控,保障网络通讯的畅通。
具体职责要求如下:
序号
角色
职责
1
支持受理人
将效劳请求分派给适当的管理人员。
2
网络管理员
1、负责网络根底运维工作,包括参与网络规划与建立;版本发布;网络设备用户管理;负责IP地址规划、分配和管理;协助平安管理员对网络平安状况进展评估,提出平安解决方案;参与网络灾备管理;定期向运维负责人提交网络系统运行管理报告等。
2、完成网络配置工作,如:
路由、交换协议的配置等;负责IP地址的规划、分配和管理;进展网络设备用户管理。
3、分析解决网络故障;对于重大、紧急网络问题,应立即向运维负责人汇报。
对于外部〔例如电信局〕原因造成的网络故障,应立即向运维负责人汇报,并及时通知有关部门予以解决。
4、定期进展网络检查,检查的内容应包括:
网络设备状况、网络设备日志错误报告、网络设备配置备份、IOS版本、补丁级别等。
5、定期编写网络维护报告,主要包括网络带宽性能报告,网络设备预防性维护报告,网络资源调整报告。
6、配置信息管理:
对目前使用的网络设备进展配置管理,记录设备的根本信息,如:
主机名、序列号、操作系统和版本号、内存、容量、模块信息、剩余插槽、管理IP、端口IP、端口的连接信息等;记录设备的维护信息,如:
购置时间、上线时间、退役时间、厂商、集成商、效劳提供商、维修记录等;及时变更配置信息。
7、故障监控:
监控所有网络环境内设备的拓扑信息和监控关键链路的状态;接收网络设备发送的trap信息和日志,并进展分析、报警。
监控的网络设备的事件应至少包括:
链路状态:
通/断,网络设备:
DOWN/UP,网络设备故障:
如模块down,电源、风扇故障,性能监控中超出阈值的事件,重复IP等。
8、性能监控:
监控广域网链路的性能,性能指标应包括流量、丢包、错包、ping延迟等;监控网络设备的性能,性能指标应包括CPU利用率、内存等。
9、网络管理员为应用、操作系统管理员提供网络方面的支持。
10、网络管理员应配合平安管理员定期检查非法访问、网络入侵检测工作,如,失败的非法登录、网络流量分析等,并保存记录,归档备查。
9、其他相关网络管理工作。
3
运维负责人
负责组织相关资源对重大故障及紧急故障进展事故原因的调查分析。
3.4网络系统当前配置基线
3.3.1网络设备资产信息
网络设备实行分级管理的原那么,分为核心层设备,会聚层设备,接入层设备。
其中核心层设备是网络流量的最终承受者和会聚者,包括网络中的核心交换机和路由器设备〔如公司本部的QuidwayS8512,CISCO6509交换机,C7206,7513MX是网络核心层设备〕,保障核心层网络设备的正常运行是网络运维工作的核心所在。
会聚层设备用于为核心层和接入层提供桥梁作用,通常实现网络管理,防止播送风暴,快速交换数据包等功能,公司本部会聚层设备为所有边界路由器。
接入层主要功能是为最终用户提供对网络访问的途径,接入层设备包括各设备间接入交换机。
网络设备资产配置基线详见附表1"网络设备资产列表"
3.3.2核心层网络设备配置信息
保障核心层设备的正常工作是运维工作的重中之中,核心层网络设备配置表的通常目标是为了更好的维护核心层设备,提供网络中使用的核心硬件和软件组成的列表,其组成详见附表2"核心层网络设备配置表"
3.3.3网络拓扑图
1.广域网拓扑构造
2.公司本部局域网拓扑构造
3.5工作流程与活动
3.5.1网络事件管理
1.效劳请求受理人接收用户报告的网络相关事件,根据问题响应流程-效劳请求流程将事件分派给网络管理员。
2.网络管理员根据事件的范围、影响和紧急程度对网络事件进展分级。
〔1〕一级故障:
广域网络因链路中断或质量严重下降〔丢包率>50%〕,网管、业务不可用,且持续等效停机时间≥4小时。
局域网络由于设备或链路故障造成关键应用不能被访问,业务中断时间≥4小时。
(2)二级故障:
广域网络因链路中断或质量严重下降〔丢包率>50%〕,业务不可用,且持续等效停机时间≥2小时。
局域网络由于设备或链路故障造成关键应用不能被访问,业务中断时间≥2小时。
(3)三级故障:
广域网络因链路中断或质量严重下降〔丢包率>50%〕,业务不可用,且持续等效停机时间≥0.5小时。
局域网络由于设备或链路故障造成业务中断时间≥0.5小时。
3.遇有一、二级网络故障,网络管理员须立刻将事件升级到信息中心运维负责人。
4.运维负责人协调、组织相关资源,处理网络事件,并通告相关部门。
(1)事件受理人向用户发出通知,通报发生的网络事件及进展。
(2)网络管理员联合系统效劳商,各系统管理员负责相应的系统,对事件进展诊断、定位,查找问题根源。
(3)找到原因后需要确定受影响的系统范围,进展紧急修复,如系统隔离、设置防火墙、路由器规那么,更新系统补丁等。
在进展修复时应注意采取措施进展证据的收集和保全,记录或复制入侵证据、破坏和损失,归档备查。
(4)恢复系统效劳和数据,网络管理员联合网络效劳商和系统管理员对受到影响的系统进展全面评估,并对存在类似隐患的所有系统进展分析统计,制定相应的解决方案,并由网络管理员负责跟进落实。
5.对于三级网络故障,由网络管理员进展调查处理,必要时联合系统效劳商和各系统管理员。
6.进展网络故障修复、加固防护所进展的配置和更改工作,都需要进展相关测试。
故障恢复后要网络管理员要负责填写并维护"网络系统故障登记表",负责网络事件的跟踪管理。
3.5.2网络根底运维管理
1、规划与建立。
参与网络的规划、建立工作,对网络建立中的一些重大问题提出参考意见、建议。
提出具体实施方案并负责执行。
2、版本发布。
网络管理员参与工程的测试和发布,根据工程要求完成测试网络环境的搭建、测试及维护工作。
3、管理报告。
网络管理员定期向运维负责人提交网络运行状况报告,报告的内容包括当期网络故障情况、带宽的使用率和网络维护的任务完成情况等。
4、灾备方案。
网络管理员参与灾备管理工作,在创立网络的灾难恢复方案时,负责制定有关网络层面的灾难恢复方案及测试该方案;在灾难恢复方案的演练时,负责网络的恢复演练;在网络有大的变更时,负责更新灾难恢复方案的相应局部;灾难发生时,负责网络的恢复、切换工作。
网络灾备方案参见"网络应急预案"。
5、系统资源变更。
在操作系统,数据库或各应用系统等提出变更需求时,假设需要网络作相应变更,网络管理员协助完成相关变更。
6、用户管理。
创立和维护网络设备的用户帐号,定期检查网络设备用户权限,对网络设备的用户密码进展变更。
7、平安管理。
网络管理员应定期评估网络设备及相关协议的的平安性,更新IOS补丁,使用访问控制列表对协议、端口进展配置。
8、配置管理。
网络管理员定期备份网络设备配置文件,按照配置管理的要求提供网络的操作系统,硬件和配置信息,并以书面形式和电子文档形式交给机房值班人员保管,当配置信息变更时,及时更新。
对于需要保密的局部信息可以采取加密等适当的方式进展保护。
3.5.3网络巡查管理
3.5.4.1每天例行工作内容
检查核心层设备硬件运行情况,巡查的内容包括:
硬件设备状况,路由状态、VLAN状态、VRRP状态、端口状态等。
网络管理员巡查完毕后提交"网络设备巡查报告"给运维负责人,并抄送信息中心负责人。
3.5.4.2每周例行工作内容
检查网络会聚层硬件运行情况,巡查的内容包括:
硬件设备状况,路由状态、VLAN状态、端口状态等。
网络管理员巡查完毕后提交"网络设备巡查报告"给运维负责人,并抄送信息中心负责人。
3.5.4.3每月例行工作内容
对本单位核心层和会聚层设备进展全面检查,检查内容包括硬件运行情况,日志错误报告,网络设备配置备份,IOS版本等。
网络管理员巡查完毕后提交"网络设备巡查报告"给运维负责人,并抄送信息中心负责人。
对接入层设备进展抽查,检查内容包括接入层设备硬件运行情况,指示灯状态,网络连通状态等。
3.5.4网络故障处理
网络管理员分析和解决由支持受理人或机房值班员分派的网络故障。
故障解决后,将故障原因,解决方法等信息反响给支持受理人或机房值班员。
并根据需要维护运维管理知识库相关内容。
一级故障需在故障恢复后填写附表4"网络系统故障处理报告",提交给运维负责人。
3.5.4.4故障处理步骤
〔1〕收集故障病症,判断故障原因
1〕分析现存病症
2〕判断所属
3〕窄化范围
4〕判定病症
5〕记录病症
〔2〕别离问题
1)从物理层开场向上排查,直到应用层。
常用于疑心问题发生在物理层,或在处理复杂网络问题时使用。
2)从应用层开场向下排查故障,用于疑心问题发生在软件局部。
3)选择OSI模型的特定层〔数据链路层、网络层、传输层〕开场故障处理,确定问题是在该层、还是上层或下层。
〔3〕纠正问题
3.5.4.5线路故障处理方法
1.当线路发生故障时,首先通过使用ping命令快速判断是线路运营商方面的原因,还是用户方面的原因,以便分清责任,尽快加以解决。
2.假设属于线路运营商方面的原因,网络管理员应及时通知运营商对问题进展诊断,定位,并协助运营商查找问题根源,恢复网络。
3.假设链路故障是因为对端网络中断引起的,网络管理员应及时通知对端网络管理员对问题进展诊断,定位,并协助对端网络管理员查找问题根源,恢复网络
4.假设链路故障是因本端网络引起的,网络管理员应对问题进展诊断、定位、查找问题根源。
5.执行系统修复和测试。
详细操作步骤可参见附表7
3.5.4.6设备故障处理方法
1.当发生设备故障时,网络管理员首先确认是软件故障还是硬件故障。
2.如判断为软件故障,如配置文件丧失或非法更改,网络管理员利用事先的备份配置文件重新配置设备并进展测试。
3.如判断为硬件故障,首先检查设备的端口的LED状态指示灯是否正常,如端口指示灯显示故障,将该端口网线连接到其他冗余端口,如端口指示灯正常,那么需要继续查找。
4.其次查看特定部件,如为板卡故障,切换到备用板卡并进展配置和测试,故障板卡报修;
5.如为主引擎故障,紧急迫换到备用交换机,并进展相应配置和测试,整机进展保修。
6.执行系统修复和测试。
详细操作步骤可参见附表7。
3.6考核方法
3.7.2考核目的
信息网络系统作为四川电力公司信息化系统根底设施,在电力系统已起到至关重要的作用。
为保障网络系统的正常运行以及确保本标准明确的各项工作要求在实际工作中得到贯彻和落实,信息网络系统运维知识的培训、管理、考核工作应是必不可少的。
3.7.2考核内容
网络系统管理员的考核是由部门运维负责人直接考核,其主要内容应包含:
(1)是否对信息网络系统进展监控与巡查,并严格按照规定记录相关信息;
(2)是否对故障以及问题进展及时的解决;
(3)是否按照规定对系统进展备份;
(4)在维护流程中是否按照规定,进展书面申请或记录;
3.7附录
3.8.1附表1网络设备资产列表
网络设备资产列表
序号
设备分级
设备分类
设备型号
序列号
管理IP
IOS版本
位置
管理人/使用人
维护合同
设备原厂商/联系方式
集成商/联系方式
开场使用时间
完毕使用时间
备注
1
核心层
交换机
QuidwayS8512
公司本部中心机房
华为/
2
交换机
c6509
公司本部中心机房
CISCO
3
路由器
C7206
公司本部中心机房
CISCO
4
路由器
R7513MX
梨