事件管理程序.docx
《事件管理程序.docx》由会员分享,可在线阅读,更多相关《事件管理程序.docx(13页珍藏版)》请在冰豆网上搜索。
事件管理程序
事件管理
流程目的
事件管理也叫事件管理,其主要目的是尽快解决出现的故障或事件,保持系统及相关软硬件资源的稳定运行,其目的包括:
1.在成本允许的范围内尽快恢复IT运维服务
a)快速响应服务请求;
b)快速恢复故障;
c)沟通事件解决状态。
2.进行事件控制
a)按规范记录事件;
b)就事件的优先级、影响度进行分类;
c)对事件进行分析、诊断,必要时进行升级;
d)跟踪、监督事件处理全过程;
e)进行定期服务流程回顾。
3.提供IT管理信息
a)提供在某时间段内(如每月)的某领域内事件请求数量、解决数量;
b)提供事件处理情况,如一线人员一个月内处理事件的总数量、成功处理数量、规定时间内处理数量、一次解决数量等;
c)提供事件支持效率,如响应速度、事件解决速度、事件一次性完成等。
流程主要内容
事件管理流程始于故障的接收和记录,结束于故障的解决;在本次流程设计中,故障的接受主要包括两种途径:
1、用户发起服务请求,申告到服务台或者通过自助服务台进行服务申告;
2、由运行中心通过监控工具主动发现。
不论事件来源,工单的建立首先由服务台人员进行统一的调度和处理。
事件管理流程主要包含以下内容:
一、启动
这个环节是事件管理流程的起点。
当服务台人员接收到用户报修或告警后,可以启动事件管理流程,同时,服务台人员将作为一线支持人员对该请求尝试解决,解决不了则分派合适的二线支持人员进行处理。
该环节的关键是提交信息的准确性和完整性。
二、解决和恢复
各线支持人员对事件进行处理,并将解决完毕的故障工单转回服务台人员,由服务台人员跟报修用户确认处理结果和用户满意度,得到确认后可关闭事件。
三、解决过程详细记录
对于故障解决过程中的每一步细节,应进行详细的记录,这些记录可作为后续人员处理的参考依据,也可以在处理结束后作为知识进行积累。
四、结束
当服务台与服务请求用户确认故障处理后,此时可结束该故障,填写用户满意度,并在必要时更新知识库。
与其他流程关系
在运维服务管理体系建设中,事件管理流程主要和问题管理流程、变更管理流程和配置管理流程、服务级别管理流程都有关系:
一、和问题管理流程的关系
事件管理流程将提供故障的详细的记录信息给问题管理流程来定位问题及分析故障的趋势。
在故障处理过程中,主要由以下几种途径会触发到问题管理流程:
1、故障解决超时限:
在故障解决过程中,无法按照规定时限解决,由故障处理人员根据需要升级进入问题管理对该故障进行根源性分析,彻底解决引起该故障的原因;
2、典型、重大以及重复发生的故障:
对这一类故障进行根源性分析即进入问题流程,对引起这类典型或重大故障的根本原因进行调查和分析,降低或杜绝在以后的过程中再次出现;
3、故障趋势分析:
对故障进行统计和定期的趋势分析,在分析过程中发现某类故障异常,如在某时间段内某一类故障频繁发生,或者同比、环比某故障发生快速增长,对这一类情况进行问题分析等。
二、和变更管理流程的关系
事件管理流程和变更管理流程是相互影响关系,一方面,在故障的处理解决过程中,为了解决故障,可能需要对涉及到的相关配置项(硬件、软件等)进行必要的变更(新增、废除、替换等)才能解决该故障,在故障解决过程中由故障流程节点处理人确认并发起变更,对解决该故障中引起的必要的变更进行相关处理。
故障和变更是具有相互影响关系的,即故障处理可能引起变更管理,而变更也可能导致故障产生。
三、和配置管理流程的关系
故障的处理面向各种IT资源,对于故障的处理,需要了解该故障涉及IT资源的详细信息,需要从配置管理数据库中查询相关IT资源配置项的属性和配置项间的关联关系来协助故障解决。
四、和服务级别管理的关系
服务级别管理对运行中心IT服务质量进行监控。
事件管理流程中的各线支持人员需要熟悉服务级别协议以便与用户进行沟通时用到这些信息。
定期对故障进行统计分析,可确定支持中心是否真正的提供了符合协议的服务。
角色与职责
一、故障经理
1.确保有效协调资源,快速恢复正常服务;
2.对故障的处理进行监督,必要时可采取干预措施;
3.确保事件管理支持人员的适当技能水平和绩效表现;
4.确保和问题管理流程负责人、其他部门及外部供应商/厂商的有效合作;
5.确保正确和广泛地收集和分析故障数据,发现系统和业务相关的问题;
6.监督、管理通过服务台的作用及良好的服务态度来确保用户的满意;
7.对故障进行升级;
8.改进和提高事件管理流程的有效性和效率;
9.监督故障流程执行的规范与质量;
10.有效协调支持团队资源。
二、一线支持
1.负责在快速响应服务请求和故障请求;
2.通过远程或电话的方式对故障进行调查和诊断,并尝试解决;
3.记录故障的处理结果;
4.负责将处理不了的故障派发给相应的二线支持人员;
5.跟二线支持人员之间的协同工作,如故障无法解决,在故障经理的协调下,和二线支持人员共同解决故障;
6.负责用户满意度调查以及工单完成后的关闭工作。
三、二线支持
1.负责在规定的时间内解决故障,把故障的影响降到最小;
2.收集有关故障解决方案的历史数据;
3.配合一线支持人员,通过远程或现场的方式对故障进行调查和诊断,并尝试解决;
4.根据解决方案进行IT服务恢复;
5.对利用“替代方案”解决的故障,在资源及时间允许时应找到故障根源;
6.将事件的解决步骤文档化;
7.跟厂商支持人员之间的协同工作,如故障无法解决,在故障经理的协调下,和厂商支持人员共同解决事件。
流程架构设计
事件管理流程设计如下:
附图1.事件管理流程设计
各节点工作如下:
序号
步骤名称
责任角色
说明
输出文档
1
开始
服务台/一线支持
故障报修、监控软件告警通知、日常巡检、IT业务咨询等方式触发事件管理流程。
无
2
是否为重大事件
服务台/一线支持
服务台值班人员针对各种来源的故障进行判断是否为重大故障,对于重大故障报告领导并记录。
《故障记录单》
3
初始支持
服务台/一线支持
服务台值班人员对各类事件工单和服务申告使用远程或电话的方式尝试初步解决问题。
《故障记录单》
4
故障处理
二线支持
服务台/一线支持尝试解决失败后,按照相应岗位职责和工单类别,将故障工单转派给二线支持,二线支持负责接收和处理服务台/一线支持转派过来的故障请求。
《故障解决方案》
二线支持人员在故障处理过程中发现此类故障的潜在风险或者趋势,可申请故障升级成问题,创建问题工单。
《问题记录单》
5
提交审批
一线/二线/领导
对于处理过程中,需要技术审批或行政审批或事后汇报,均需提交至领导进行审批或审阅。
《故障记录单》
6
故障导致变更
二线支持
二线支持人员在故障处理过程中,涉及到相关配置项的配置变更,在处理之前需提交变更申请。
《变更记录单》
7
提交知识
二线支持
故障解决后,将可选择有价值的处理经验和解决方案记录,并提交为知识,进行知识共享。
无
8
申请关闭
二线支持
在故障解决后,二线支持向服务台/一线支持发起工单关闭申请。
无
9
解决并确认处理结果和满意度
服务台/一线支持
在各故障工单处理完毕后,有服务台值班人员与报修用户做确认处理结果。
无
10
关闭
服务台/一线支持
一线支持与报修用户确认处理成功后可关闭工单。
无
流程功能设计
运行中心事件管理流程是对事件的整个生命周期进行管理的流程,通过对事件进行登记、分类、分级、状态跟踪、关闭确认等手段建立一个事件管理的闭环,从而对事件的处理过程进行监控和优化,在成本允许的范围内尽快恢复服务,提高客户满意度。
流程框架在设计并通过评审后将通过IT服务平台进行落地,为了确保流程能够顺利落地和执行,IT服务平台提供了完善而灵活的事件管理功能来支撑事件流程的落地:
事件创建
事件开始于事件的创建,当服务台或运维人员接收到服务请求或事件时,首先将创建事件工单,记录事件或服务请求的基本信息,包括报告人信息、事件的基本信息等,然后将事件工单按照其类别和所属技术领域分配、指派或转交到相应的运维人员/组,由相应的技术人员进行处理,在处理过程中,服务台人员可以查看、跟踪处理进展,并及时向用户反馈该事件的处理情况,当事件处理完毕时,由服务台人员关闭该事件。
系统支持手工创建事件,也支持系统自动创建,如何监控系统集成,当监控系统发现故障并将故障上报到流程系统,系统将自动创建一个事件工单。
附图2.创建事件工单
事件分类
事件创建过程中,需要对事件进行分类,一方面可以根据事件类别快速将事件分配到相应的人员/组进行处理,提升事件处理效率;另一方面,可以根据事件类别进行统计和分析,便于后续对事件的处理情况进行评估和改进。
附图3.事件分类
事件分派
当事件工单创建完成后,需要将其分派到具体的处理人或处理组,进行处理,服务台人员根据事件的类别将事件进行分派到相应的技术人员/组进行处理。
附图4.事件分派
系统支持工单的自动分派和手动分派功能,用户可以根据实际需要灵活设置分派方式,同时,针对复杂的事件工单,系统还支持工单的拆分功能,即拆分给多个人共同处理。
附图5.分派方式设置
事件处理
当技术人员接到分派的事件工单时,将针对该事件进行处理,并将处理过程和结果记录在事件工单,以供后续分析。
附图6.事件处理
事件升级
当事件无法处理或无法再规定的时限内处理时,需要将事件进行升级,以获得更高关注度和资源投入,从而使该事件得到妥善处理。
事件升级包括两种,一种是将事件升级到更高级别,以获得相应资源进行处理,另一种是升级到问题或发起变更,以完成事件的处理。
附图7.事件升级
附图8.升级到问题
事件关闭
当事件处理完成时,服务台人员需要和客户确认该事件是否确实解决,并进行满意度调查后关闭事件。
附图9.事件关闭
事件关联
系统支持事件的关联功能,支持事件与问题管理、变更管理和配置管理进行关联,在处理过程中,事件管理可以获取相关的配置数据,也可以升级到问题或导致变更,以完成事件的解决。
同时,系统还预留了可编程的标准接口,以方便用户通过接口或其他方式来对事件进行修改或读取操作。
附图10.事件和配置关联
事件统计与查询
系统提供了事件统计和查询功能,方便用户对事件工单进行统计和查询,对事件的处理情况进行跟踪和统计分析,一方面可以快速了解具体事件的当前处理状况;另一方面从管理角度对事件进行综合分析,找出事件处理过程的不足之处,为优化和改进提供依据。
事件的查询支持条件、模糊查询,用户还可以自定义查询条件,以快速查询所关注的事件信息。
附图11.事件查询