02ITIL 重大事件管理流程详细设计方案.docx

上传人:b****5 文档编号:4523029 上传时间:2022-12-01 格式:DOCX 页数:27 大小:287.86KB
下载 相关 举报
02ITIL 重大事件管理流程详细设计方案.docx_第1页
第1页 / 共27页
02ITIL 重大事件管理流程详细设计方案.docx_第2页
第2页 / 共27页
02ITIL 重大事件管理流程详细设计方案.docx_第3页
第3页 / 共27页
02ITIL 重大事件管理流程详细设计方案.docx_第4页
第4页 / 共27页
02ITIL 重大事件管理流程详细设计方案.docx_第5页
第5页 / 共27页
点击查看更多>>
下载资源
资源描述

02ITIL 重大事件管理流程详细设计方案.docx

《02ITIL 重大事件管理流程详细设计方案.docx》由会员分享,可在线阅读,更多相关《02ITIL 重大事件管理流程详细设计方案.docx(27页珍藏版)》请在冰豆网上搜索。

02ITIL 重大事件管理流程详细设计方案.docx

02ITIL重大事件管理流程详细设计方案

1综述

1.1设计目的

重大事件处理流程是运营体系服务保障中的重要组成部分,制定该流程的根本目的是在重大事件发生时,高效调动IT所有资源,高效协同诊断事件,以期在最短时间内恢复应用,减少关键业务系统的故障时间,提高IT资源的使用率,向用户提供更优质的IT服务。

1.2适用范围

重大事件流程的最终用户是总公司及各分支机构的信息人员。

该流程要求提供7×24小时服务。

1.3相关术语

序号

术语/缩略语

全称和说明

1.

重大事件(UIOC)

重大事件指公司信息系统运行过程中发现的、导致IT服务出现关键业务应用中断、对公司信息系统乃至公司业务正常运营可能会造成重大或广泛影响的信息系统问题或突发事件。

2.

3.

2重大事件流程设计

2.1流程目的

重大事件处理流程是运营体系服务保障中的重要组成部分,制定该流程的根本目的是在重大事件发生时,高效调动IT所有资源,高效协同诊断事件,以期在最短时间内恢复应用,减少关键业务系统的故障时间,提高IT资源的使用率,向用户提供更优质的IT服务。

事件接收和记录

这个环节是重大事件流程的起点,其来源主要是监控系统或用户上报。

此步骤的目的是在事件发生时快速准确地发现,以协助事件的诊断和解决并通知相关人员。

在此步骤中将会收集创建重大事件记录所需的信息。

该环节的关键是信息的准确性和完整性。

❑调查和诊断

若支持人员无法解决事件,可运用问题库、诊断工具等进行更加深入的分析以找到恢复服务的临时措施,必要时可调用多名支持人员以寻求解决措施。

❑解决和恢复

支持人员实施事件的解决方案,并将解决完毕的重大事件工单转回服务台,由服务台通过邮件通知用户解决的结果。

❑结束重大事件

当确认重大事件解决后,此时可完成该重大事件,重大事件完成由重大事件的改进措施创建问题工单,并派发给改进措施的相关负责人,在必要时更新问题库。

2.2与其他流程的关系

❑和问题管理流程的关系

重大事件流程将提供故障的详细、精确的记录信息给问题管理流程来定位问题及分析问题的趋势,以及为重大事件解决并恢复服务后作为问题进行进一步的分析和处理。

❑和配置管理流程的关系

需要从配置管理数据库中查询配置项的属性和配置项间的关联关系来定位故障和帮助快速的恢复。

❑和变更管理流程的关系

服务台应了解变更管理流程中目前正在进行的变更信息,检测因变更而可能引发的事件。

在重大事件的解决过程中,涉及到需要对基础架构、应用系统及操作系统等进行变更的需要发起变更请求来解决事件。

2.3关键角色、职责定义

流程的实现是通过不同的流程角色以及其被赋予的职责来实现的,因此流程的每一个角色可以被定义为一系列职责的集合,在实际的管理操作中,不同的人员将被赋予不同的职责,也可能一个人被赋予多个职责,同时也可以将其职责授权给其管理结构之下的人员,因此,以下所提及的管理流程和角色的目的是为了在充分满足流程所需角色的基础上,为具体的实现提供足够的灵活性。

重大事件流程主要分为以下几个职责/角色,分别简述如下:

2.3.1监控小组成员职责

✧及时处理监控报警信息,诊断错误,及时反馈进展信息,如遇重大问题及时通知应急小组成员。

✧非工作时间监控处理人由值班人员承担,如遇重大问题根据事故原因,及时电话通知应急小组成员,并根据重大事件当值决策人的决策实施恢复行动。

✧严格遵守本流程制定的所有规则。

2.3.2应急小组成员职责

✧应急小组成员当确认为重大事件时,必须立刻根据当时故障定位情况电话通知本小组负责人。

✧接受各小组负责人的安排。

✧及时根据重大事件当值决策人的决策实施恢复行动。

✧严格遵守本流程制定的所有规则。

✧应急小组成员由各小组负责人指定,并根据附件4的格式提交小组成员通讯录。

✧详细记录处理过程

2.3.3流程监督员职责

✧负责督促整个流程的实施。

在每个关键时间点到达时提醒并监督各小组负责人处理重大事件,流程监督员负责将以上处理过程在《重大事件改进措施跟踪表》中进行记录并跟进改进措施的执行情况。

重大事件的最终当值决策人负责提供相关信息及资料。

2.3.4故障分析报告邮件发送组

✧知晓重大事件解决过程,各处理记录,原因分析,改善措施。

2.3.5实际岗位与方案角色的映射

重大事件流程

角色

角色细分

说明

成员

通知组

监控小组成员

职责:

及时处理监控报警信息,诊断错误,及时反馈进展信息,如遇重大问题及时通知应急小组成员。

处理记录组

应急小组成员

职责:

应急小组成员当确认为重大事件时,必须立刻根据当时故障定位情况电话通知本小组负责人。

接受各小组负责人的安排。

及时根据重大事件当值决策人的决策实施恢复行动。

严格遵守本流程制定的所有规则。

应急小组成员由各小组负责人指定,并根据附件4的格式提交小组成员通讯录。

原因分析组

应急小组成员

职责:

分析重大事件发生的原因,及分析处理过程

改进措施组

流程监督员

职责:

负责督促整个流程的实施。

在每个关键时间点到达时提醒并监督各小组负责人启动升级机制,流程监督员负责将以上处理过程在《重大事件改进措施跟踪表》中进行记录并跟进改进措施的执行情况。

重大事件的最终当值决策人负责提供相关信息及资料。

当值决策人

当值决策人组

职责:

提供决策

故障分析报告邮件发送组

故障分析报告邮件发送组

知晓重大事件解决过程,各处理记录,原因分析,改善措施

2.4流程执行原则

2.4.1常规原则

❑所有IT和信息技术中心重大事件范围内发生的事件,都应该记录在IT服务管理平台中,记录的信息应足够详细,包括事件处理交互过程,详细的解决方案和相应的附件

❑应该每月产生重大事件报表,并对重复发生的事件和变通方法解决的事件,应该举行定期的重大事件会议对这些事件进行评估

❑应该半年对流程进行回顾,回顾内容包括流程关键衡量指标、流程执行效率和流程支持工具的有效性,以改进重大事件流程

2.4.2流程关联原则

❑和问题管理的关联

Ø所有严重的重大事件在恢复服务后,都应该由改进措施创建问题单(问题单必须和重大事件可建立关联)

Ø支持人员在解决事件的过程中,可以通过问题记录查找相应的解决方案。

❑和变更管理的关联

Ø重大事件处理过程中,如果需要对系统进行变更,必须按照变更管理的定义,提交变更请求单(变更单必须和事件单建立关联),变更完成后,继续事件单的处理。

❑和配置管理的关联

Ø重大事件处理过程中,可以通过配置管理查询相关的配置项信息以及该配置项历史上发生的事件、问题或变更,来帮助故障的定位。

Ø重大事件处理过程中,如果可以将故障定位到某个系统和相关的改进措施,改进措施创建问题工单,所创建的问题与重大事件相关联,如问题工单可以定位到某个配置项,则必须将问题工单与该配置项关联。

2.4.3所有权原则

所有权原则用来确保每个事件在任何时段都有适当的人员负责,服务台是事件的负责人。

❑由监控人员建的事件单,服务台员工是该事件的责任人,必须确保事件得到有效跟踪与解决,并负责处理相关联的问题工单。

2.4.4关闭原则

与重大事件所关联的所有问题工单都关闭后,系统自动关闭重大事件工单。

2.4.5人员岗位与角色落实原则

2.4.6工单流转原则

当重大事件发生时,通知组启动重大事件工单,并填写邮件通知内容和选择好邮件发送人

并提交给相关处理记录人,处理记录人填写好处理过程后,因为可能有多个处理人,所以当所有人处理完成后,当提交给原因分析组后,提交时,系统发送重大事恢复通知,原因分析组分析重大事件发生的原因,并填写重大事件故障报告,填写完后,系统给故障分析报告邮件发送通知组发送重大事件故障分析报告邮件通知;提交给改进措施跟踪组,改进措施跟踪组改进所有的处理记录,并查看所以有处理过程的完成情况是不是都为已完成,如果是则完成工单,工单完成后,根据改进措施关联问题工单,并把问题工单派发给改进措施的负责人,由重大事件改进措施所关联的问题工单都关闭以后,系统自动关闭重大事件工单。

2.5流程图设计

2.5.1重大事件流程图如下:

2.5.2步骤说明

序号

步骤名称

责任人

说明

600.1

启动重大事件

通知组

❑启动重大事件和给当值决策人发送邮件通知

600.2

处理并记录流程

处理记录组

❑记录自己的处理过程,处理完成时,提交给原因分析组,系统发送邮件给知通组建单选择好的通知对象

600.3

原因分析

原因分析组

❑分析重大事件发生的原因,系统发送故障分析报告

600.4

填写改进措施跟踪表

改进措施组

❑根据所有的处理说明填写改进措施

600.5

关闭

❑所有关联的问题工单都关闭后,重大事件工单自动关闭

2.6流程相关定义

2.6.1事件信息项

事件单必须包含如下事件信息项:

字段名

字段英文

类型

数据说明

必添

以下为建单人填写的字段

流水号

BaseSN

Character(254)

状态

BaseStatus

Character(254)

提交时间

BaseCreateDate

Date/Time

系统自动填写工单提交(保存)时间

登录名+

Requester_LoginName

Character(254)

系统自动填写当前登录用户的姓名

姓名

Requester_Name

Character(254)

系统自动填写当前登录用户的姓名

电子邮件

Requester_Email

Character(254)

系统自动填写当前登录用户的电子邮件

办公电话

Requester_Phone

Character(254)

系统自动填写当前登录用户的办公电话

手机

Requester_Handset

Character(254)

系统自动填写当前登录用户的手机

公司

Requester_Company

Character(254)

系统自动填写当前登录用户的公司

分公司

Requester_Filiale

Character(254)

系统自动填写当前登录用户的分公司

部门

Requester_Department

Character(254)

系统自动填写当前登录用户的部门

获知来源

EventSource

Character(254)

监控,用户上报,用户上报/监控

发生系统

EventSourceSystem

Character(254)

手动写入

发生时间

EventStartTime

Date/Time

手动写入

发生单位

EventCompany

Character(254)

各省公司

通知标题

BaseSummary

Character(254)

格式:

XX系统于XXXX年XX月XX日XX时间发生XX故障

故障描述

BaseDescrption

Character(2000)

手工填写

故障影响范围

EventDealRange

255

如果发生系统为逻辑集中系统,则“故障影响范围”下拉菜单显示“全国”“部分省”;如果发生系统为非逻辑集中系统,则“故障影响范围”下拉菜单显示“全省”“部分地市”

故障影响程度

EventDealImpactLevel

254

全部功能/部分功能

受影响机构

EventImpactOrgan

Character(254)

根据“发生系统”判断,如果“发生系统”为逻辑集中系统则让建单人自己填写,如果为非逻辑集中系统则受影响机构默认为发生单位

受影响系统

EventImpactedSystem

Character(254)

默认为发生系统,但是可以多选

受影响功能

EventDealImpactLevelDesc

Character(500)

当‘故障影响程度’选项为‘部分功能’时,为必填

受影响用户

EventImpactUser

Character(500)

手动写入

预计恢复时间

EventPlanRestoreEndTime

Date/Time

手动写入

故障预处理过程

EventDealPlanProcess

Character(254)

系统自动填写

[故障预处理过程描述]

EventDealPlanDesc

Character(500)

系统自动填写

故障处理过程

EventDealP

Character(254)

系统自动填写

[故障处理过程描述]

EventDealPDesc

Character(500)

系统自动填写

确认恢复方案

EventDealRestore

Character(254)

系统自动填写

[确认恢复方案描述]

EventDealRestoreDesc

Character(500)

系统自动填写

恢复操作

EventDealRestoreOP

Character(254)

系统自动填写

[恢复操作描述]

EventDealRestoreOPDesc

Character(500)

系统自动填写

故障影响总时长

EventDealLongTime

Character(254)

故障影响总时长=恢复时间-发生时间系统自动填写

故障影响可用时长

EventImpactWorkingTime

Real

故障影响可用的时长指故障时间内包含的发生单位营业时间。

说明:

如果是影响到全国的系统,则用总部的营业时间。

是否影响可用率

EventImpactUsed

Character(254)

是/否

引发类

EventAttractClass

Character(254)

手动选择

控制类

EventControlClass

Character(254)

手动选择

是否变更引起

EventChangeCase

Character(254)

是/否

变更类型

EventChangeCategory

Character(254)

和变更工单的变更类型一样

变更描述

EventChangeDescrption

Character(2000)

手动写入

原因分析

EventDealReasonDesc

Character(500)

手动写入

开发方面

EventDealDevelopDesc

Character(254)

手动写入

基础架构方面

EventDealStructureDesc

Character(254)

手动写入

系统运维方面

EventDealKeepDesc

Character(254)

手动写入

注:

以提供的模板为主

2.6.2重大事件获知来源(必填项)

重大事件来源用来标明事件的提出方式,重大事件来源可以包括以下几种:

编号

代码

描述

1

用户上报

来自于用户自己发现的重大事件

2

监控/用户上报

结合监控系统用户发现的重大事件

3

监控系统

来自于监控系统的重大事件

2.6.3重大事件受影响系统(必填项)

根据目前信息技术中心支撑的应用系统和二级分类的划分定义事件所属系统类型,当事件发生时,应该由服务台初步定位是哪个系统及二级分类出现问题,由一线进行进一步的明确。

受影响系统分类

子业务系统分类

简称

办公管理

IT服务管理系统

ITSM

综合办公系统

 

电子邮件系统

请填写简称

电子商务

网上招聘系统

管理决策

团体年金报表子系统

财务计算机管理系统

集团财务计算机管理系统

财务报表辅助系统

大中城市业绩考核分析系统

财务分析系统

基础率分析系统

精算系统

每日业务快报系统

统计信息系统

审计系统

核心运营

综合业务处理系统

集团综合业务处理系统

老业务处理系统

综合业务处理系统

出单管理系统

档案影像管理系统

单证管理系统

打印管理系统

数据清理系统

团体年金核心业务处理系统

中介业务处理系统

统括业务处理系统

健康意外险系统

互联网销售系统

销售客服

团体年金大客户支持子系统

团体年金报价子系统

团体年金销售支持系统

个人代理人管理信息系统

讲师管理系统

会员管理系统

个人代理人营销支持系统

大客户支持系统

网络查询系统

呼叫中心系统

CALLCENTER

短信系统

SMS

其他

其他系统类

OTS

说明:

第一层为”其它”的话,分公司可以对其子类可以扩充并提交到总公司,由总公司统一协调配置

事件发生时的通告定义

2.6.4重大事件影响程度

事件影响度用于衡量事件所影响业务的严重程度。

严重程度通常通过事件所影响的人数、关键系统数以及服务故障所造成的损失来设定。

编号

影响程度

描述

1

全部功能

●影响所有功能

2

部分功能

●列出受影响系统关健功能

2.6.5重大事件原因分类(故障分类)标准

字段

下拉菜单

说明

引发类

需求分析不完善

1.1

系统设计问题(架构设计、实现方案设计、安全方案设计问题)

1.2

关联系统分析/同步不正确或缺失

1.3

程序代码错误/代码执行效率问题

1.4

版本归并/移交错误

1.5

变更/实施/操作方案设计问题

1.6

对生产环境违规操作

1.7

对生产环境错误操作(未违反规范)

1.8

软硬件产品过期/故障/BUG

1.9

软硬件产品容量/配置不合理

1.10

软硬件产品、网络或备份机制导致HA失效

1.11

软硬件产品、网络导致的单点故障

1.12

病毒

1.13

原因未明

1.14

控制类

方案评审缺失/不完善

2.1

新功能测试不到位

2.2

回归测试不到位

2.3

压力/性能测试不到位

2.4

系统运维设计问题(容错缺失/不完善、运维需求实现问题)

2.5

监控设计不充分或缺失

2.6

申请/请求处理跟踪不及时或告警提醒事项未及时处理跟进

2.7

变更后检查环节缺失/检查方式不完善

2.8

未按规范组织验证/未执行可用性验证

2.9

软硬件产品HA缺失

2.10

变更前风险评估不足

2.11

已知错误未及时规避(导致再次发生)

2.12

规范不完善

2.13

未按规范执行/规范执行不力

2.14

病毒防范不足/安全防范不足

2.15

2.6.6是否影响可用率

编号

是否影响可用率

描述

1

发生重大事件后,系统用不了

2

发生重大事件后,系统还可以正常工作

2.6.7影响范围

编号

影响范围

描述

1

整体影响不可用

发生重大事件后,影响很大整体都用不了

2

部分影响不可用

发生重大事件后,只是影响一部分

2.6.8是否变更引起

编号

是否变更引起

描述

1

2

2.6.9变更类型

编号

是否变更引起

描述

1

标准变更

2

紧急变更

3

重大变更

2.6.10数据模型

2.6.10.1字段菜单配置表

字段

类型

说明

ConfigEventID

Character(15)

本记录的唯一标识,创建是自动形成,无业务含义

ConfigEventName

Character(254)

工单类别名称

ConfigEventSchama

Character(254)

工单Form名

ConfigEventTpye

Character(254)

工单配置类别

ConfigEventTier0

Character(254)

菜单类型

ConfigEventTier1

Character(254)

菜单一级分类

ConfigEventTier2

Character(254)

菜单二级分类

ConfigEventMenuDisplay

Character(254)

菜单显示名

EventMenuSort

Character(254)

菜单排序值

 

2.6.10.2改进措施跟踪表

字段

类型

说明

ConfigEventID

Character(254)

重大事件编号

ConfigEventImpactedSystem

Character(254)

受影响系统

ConfigEventStartTime

Character(254)

起始时间

ConfigEventEndTime

Character(254)

结束时间

ConfigEventLongTime

Character(254)

影响时长

ConfigEventDescription

Character(254)

事件描述

ConfigEventMeasures

Character(254)

改进措施

ConfigEventResponsible

Character(254)

责任人

ConfigEventHelper

Character(254)

协助人员

ConfigEventPlanEndTime

Character(254)

计划完成时间

ConfigEventFactEndTime

Character(254)

实际完成时间

ConfigEventFinishStatus

Character(254)

完成情况

ConfigEventFinishStep

Character(254)

完成关键步骤

ConfigEventRemarks

Character(254)

备注

ConfigEventMeasuresID

Character(254)

改进措施编号

2.6.10.3通知对象后台表

字段

类型

说明

ConfigNoticeID

Character(254)

通知编号

ConfigNoticeStartTime

Character(254)

重大事件开始时间

ConfigNoticeDescription

Character(254)

重大事件描述

ConfigNoticeRange

Character(254)

通知范围

ConfigNoticePlanEndTime

Character(254)

预计恢复时间

ConfigNoticeDetail

Character(254)

具体咨询请联络

ConfigNoticeObject

Char

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高中教育 > 高中教育

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1