问题管理程序.docx
《问题管理程序.docx》由会员分享,可在线阅读,更多相关《问题管理程序.docx(11页珍藏版)》请在冰豆网上搜索。
问题管理程序
问题管理程序
Allrightsreserved
版权所有XX
文件更改摘要:
日期
版本号
修订说明
修订人
审核人
批准人
目录
1.目的4
2.范围4
3.术语4
4.角色与职责4
5.活动6
5.1.流程图6
5.2.主要活动6
5.3.关于主动问题管理9
5.4.度量和报告9
5.5.与其他流程的关系10
6.相关文件11
7.引用文件11
8.记录11
1.目的
本程序的目的是消除或减少生产环境中事件发生的数量和严重程度,防止相同事件的再次发生,从而为企业建立一个稳定的IT环境,提高IT服务的可用性。
问题管理包括主动性问题管理和被动问题管理两类活动。
前者的目标是通过找出基础设施中的薄弱环节来阻止事件再次发生,以及提出消除这些薄弱环节的建议;后者的目标是找出导致以前发生事件的根本原因,以及提出解决措施或纠正建议。
2.范围
本程序适用于ITSM覆盖的所有部门。
该程序调查基础设施的配置信息、可用信息、能力信息,来确定引起事件发生的真正潜在原因以及提供的服务中可能存在的故障。
3.术语
无
4.角色与职责
✧问题管理负责人
•负责问题受理、筛选及记录
•开发和维护问题控制和错误控制流程
•评估问题控制和错误控制的效率和效果
•提供管理信息并运用这些信息主动预防事件和问题的发生
•对问题管理支持小组进行管理
•获取问题管理流程各项活动所需的资源
•开发、维护并改进问题控制和错误控制流程
•进行事后检查或组织重大问题审查
•分析和评价主动问题管理活动的有效性
•识别问题管理过程中存在的问题并提出改进措施;
•需要时协调第三方的资源来帮助诊断和纠正问题。
•定期编写问题报告
✧问题管理支持小组
被动性职责:
•接收由问题管理负责人派发的问题
•通过详细分析确认和记录问题
•根据问题优先级对问题进行调查和管理
•必要时提交变更请求
•监控已知错误的进展情况
•给事件管理提供应急措施和临时性修复方案方面的建议
•参与重大问题评审
主动性职责:
•识别问题发展趋势
•必要时提交变更请求
•防止问题扩散到其他系统
•识别改进
5.活动
5.1.流程图
5.2.主要活动
问题管理流程着重于消除事件或减少事件发生,确定事件的根本原因。
主要活动包括分析事件、找出问题、分派问题、确定根本原因以及找出解决方案、回顾及关闭,以消除事件或在其发生时降低对用户或业务的影响。
其主要内容如下:
5.2.1.问题确认与记录
问题确认通常由问题管理负责人指派问题管理小组的成员来完成,其他人员,如能力管理人员也可帮助对问题进行确认,并填写《问题记录表》。
任何一个由未知原因导致的事件都与某个问题有关,问题的确认需要考虑以下方面的因素:
✧某一事件再次发生,并且有大量发生和加重的趋势。
✧对基础设施进行分析可能找出事件发生的薄弱环节
✧一个严重事件发生后应纳入问题管理寻求永久性的解决。
✧服务级别受到威胁(能力、性能等)
✧已记录的事件不能与现有问题或已知错误发生关联
问题也可在运维过程中提出,例如巡检过程中发现问题。
趋势分析能够发现基础设施需要进一步关注的环节,如通过对历史数据、报表等进行分析来创建问题。
5.2.2.问题分类
确定问题的性质,按照问题所处区域和类别进行分类,主要有系统、硬件、网络、其他四大类。
其他指的是为由于人员误操作、文档错误等导致的问题。
对问题的分类不是固定的,在问题的生命周期可能发生变化,所以应及时更新关于问题类别的信息。
5.2.3.问题分派
问题管理负责人应综合考虑问题的紧急度、影响度、风险以及资源、人员技能等因素,将问题进行分派,并对分派后的问题状态进行跟踪。
问题状态分为五种:
问题、已知错误、已解决、已评审、已关闭五种。
5.2.4.问题调研与诊断
由问题分析人员进行问题调查和诊断,该过程是个反复的过程,要重复进行多次,而每重复一次都更接近我们想要的解决方案。
通常需要在测试环境中重现某一事件,必要时需要运维工程师协助分析和诊断。
导致问题的原因是多样的,可能是由硬件和软件或是网络引起的,或是文件错误、人员误操作、版本发布不当等导致问题。
因此要将问题处理归入配置管理数据库进行版本控制。
一般情况而言,大部分错误与基础设施的组件相关。
一旦找到问题的根源以及与此问题相关的一个或多个配置项,就可建立配置项和事件之间的关联。
之后如果找到了解此问题的应急措施,此问题就转变为已知错误。
5.2.5.临时措施
在解决问题的过程中,如果问题导致了严重的事件,需提供临时修复措施。
如果临时措施需要对基础设施进行改动,必须首先提交变更请求(主要指在找到问题的最终原因之前)。
如果特别严重或不容耽搁,就必须启动紧急变更处理程序。
5.2.6.错误确认与记录
一旦找到问题的根源和与此问题相关联的配置项,以及处理它的应急措施,问题分析人员可将其状态转变为“已知错误”,或与某个已知错误相关联。
如仍有未解决的事件,问题分析人员可将问题解决情况告知事件管理以便解决事件。
5.2.7.错误评估
问题管理小组应评估以下信息:
✧问题或已知错误所需资源
✧处理已知错误所需的成本
✧处理已知错误可能获得的收益
✧变更请求的影响度、紧急度
综合以上因素比较不同的解决方案。
解决问题的所有活动都应加以记录以便对其进行监控和确定它们不同时期的状态。
5.2.8.确定解决方案
确定对问题而言最合适的解决方案,包括确定是临时性修复措施还是永久性解决方案,或者二者皆需要。
甚至,它可能决定不修复此问题,比如公司自行开发的运维系统出现故障,但是由于公司已决定月底采用新系统,此类情况,修复成本将超出所能获得的利益,因此可能不会对现有系统进行修改。
不管决定何种方案,与已知错误有关的信息应该进行记录并可供事件管理流程使用。
5.2.9.实施变更
根据确定的最终解决方案,如需变更则提交变更请求,然后通过变更管理流程实施。
5.2.10.问题评审
用于解决问题、已知错误及相关事件的变更实施后,在终止有关记录工作之前问题管理负责人组织对变更进行实施后评审。
对于重大问题,还要另外执行重大问题评审。
评审内容包括:
✧验证与该问题相关的所有事件是否得到最终解决
✧流程中需要改进的事项
✧预防措施
5.2.11.问题归档
将问题管理流程中产生的所有记录纳入问题知识库,并在问题关闭前更新问题知识库的相关信息,从而保证配置项之间的一致性、准确性、完整性。
5.2.12.监控与跟踪
问题管理负责人负责在问题和已知错误的整个生命周期内对其发展情况进行监控,确定并监控其影响度和优先级,必要时调整优先级;监控问题和已知错误的分析诊断情况和方案实施情况,同时监控变更请求的执行情况。
5.2.13.问题关闭
问题成功解决后,问题状态被标识为“已解决”,问题关闭。
5.3.关于主动问题管理
问题管理负责人负责主动问题管理,关注服务和基础设施的质量,识别基础设施中的薄弱环节或超负荷工作的组件,并分析基础设施的运行趋势,找出潜在事件以防止其发生。
如果查找的范围包括若干领域,那么某一领域内防止问题发生而做的努力也必须在其他领域内实施。
5.4.度量和报告
问题报告与问题管理的范围密切相关,问题管理报告可包括广泛的主题,其报告的内容基于一系列的度量指标来实现的,主要有:
度量指标:
✧已关闭的问题数量
✧问题管理提出的RFC数量
✧解决问题的时间
问题报告的主要内容有:
✧时间报告:
问题控制、错误控制和主动问题管理三阶段分别耗费的时间,以及支持小组和供应商分别耗费的时间。
✧组件质量:
有关事件、问题和已知错误的详细情况可用于确定经常发生故障的组件,用以判断供应商是否履行了合同规定的义务。
✧问题管理流程的有效性:
✓问题解决前后发生的事件数量
✓记录下来的问题、已知错误数量
✓提出并成功执行的变更请求的数量
✧未解决的问题状态
✧解决方案:
对已解决的和下一步将要解决的问题进行总结分析,寻求解决方案以降低问题对业务的影响。
✧改进计划:
和服务质量计划中规定的问题管理流程目标作比较,识别差距,提出改进措施。
可通过常规性流程审计改进该流程。
5.5.与其他流程的关系
5.5.1.与事件管理
问题管理依赖有效的事件记录。
问题管理为事件管理提供应急措施来对事件进行处理,通常情况下问题管理还可提供一个变更请求,使问题得到最终解决。
当出现下列情况时,项目组需将事件管理提交到问题管理:
✧当事件有大量发生并有加重的趋势时;
✧当事件从未发生时;
✧当事件级别较高时;
✧服务级别受到威胁时
5.5.2.与变更管理
问题管理为解决问题而发出变更请求,变更管理评估变更产生的影响、所需的资源。
通知问题管理负责人变更的进展,并邀其参与变更实施后评审。
变更成功后,相关事件和问题记录得到更新并纳入知识库。
5.5.3.与配置管理
配置管理提供关于基础设施、软硬件配置及服务等组件信息,以及组件之间的关系。
这些关系对问题管理的调查工作提供了依据。
5.5.4.与可用性管理
✧可用性管理将服务的可用性信息提供给问题管理流程以便于调查和分析
✧问题管理通过找出服务无效的原因和补救方法来支持可用性管理流程工作。
✧可用性管理负责基础设施的设计和规划基础设施的架构,以防止问题和事件的发生。
✧问题管理分析导致服务出现故障的原因时与可用性管理流程一起工作。
5.5.5.与能力管理
通过已识别问题的重要信息,找出与能力相关的问题,能力管理优化对IT资源的使用。
5.5.6.与服务级别管理
✧问题管理应遵守服务级别的要求
✧服务级别管理为主动问题管理提供依据和准则
✧被动问题管理的实施结果要达到服务级别协议规定的要求
✧服务级别管理就实施IT服务的质量问题进行协商和谈判
6.相关文件
事件管理程序
变更管理程序
配置管理程序
7.引用文件
无
8.记录
问题记录表
重大问题评审记录