线上事件或故障处理流程规范.docx
《线上事件或故障处理流程规范.docx》由会员分享,可在线阅读,更多相关《线上事件或故障处理流程规范.docx(7页珍藏版)》请在冰豆网上搜索。
线上事件或故障处理流程规范
线上事件处理规定
编制:
审核:
批准:
版本号
V1.0
文档编号
发布日期:
201X年X月
修订历史记录
序号
日期
修订内容
版本
编制
审核
批准
1.线上问题管理流程
1.1.线上事件处理流程图
1.2.目的
为了明确线上事件的报告、应急响应、处理、复盘机制,确保能以快速、高效、准确的应急处理能力来保证各类业务系统的正常运转,当发生突发事件时,能在最短的时间内恢复系统的正常运转,将因此带来的损失控制到最低限度,特制定此流程。
1.3.线上问题定义
1、线上事件:
包括线上故障和需求。
2、线上故障:
包括线上故障(A级、B级)和一般故障(C级)。
3、线上故障的等级定义如下:
级别
定义
问题
A级
现网整体业务中断严重错误,
1、由程序引起的死机、非法退出;2、数据丢失;
3、关键流程异常或核心业务功能报错。
1、应用服务宕机
2、无法使用
3、数据异常、交易异常
4、系统漏洞、安全漏洞、功能漏洞
5、用户数据丢失
6、已购买且授权功能模块缺失
B级
现网局部业务(或应用)报错
较严重错误,大部分用户必现的问题:
1、局部业务或流程故障;2、数据无法保存。
1、无法上传附件、资源
2、统计数据异常
3、登录异常、注册异常
4、加载缓慢、服务闪退
5、服务报错、内容异常
6、个别应用无法正常启动
7、应用报错,导致业务流程不能正常进行下去
8、轻微的数值计算错误
9、查询功能无法使用
10、无法下载附件、资源
11、提交数据无法保存
12、部分用户已购买且授权功能模块缺失
C级
个别异常报错
或者不影响用户正常使用,但存在明显异常的问题
1、其他用户正常,某一用户使用异常
2、加载缓慢、展示异常、预览异常
3、模块异常、页面报错
4、界面排版显示异常
5、异常操作未给出对应提示
6、删除操作未提示用户
7、文字错误、链接错误、提示错误
8、同一应用数据在不同地方不一致
9、推送消息延迟较大
1.4.问题处理
1、报告问题
发现线上事件的人员,包括用户、业务方、运维监控、测试人员等发现线上事件的人员。
报告人发现线上事件后,需要第一时间报告给运营经理、项目经理。
2、受理问题
事件发生时:
1)接受线上事件报告;
2)判断线上事故是否是故障:
接到线上事件报告后,首先判断线上事故的性质;
3)对外报告事故处理进展:
如果是故障,立刻按照流程要求通知相关负责人。
运营经理或者想经理随时将处理情况上报给受影响的部门和相关管理人员。
如果是非事故,需要协助解决或者引导用户找到解决方法。
3、处理问题
1)线上故障为A级,需要立即通知运维部、研发管理部以及相关产品部门的领导,并告知中心领导。
由各部门领导协调事故处理,10分钟内响应事故,2小时内给予解决保证系统恢复正常,并及时告知运营经理或者项目经理。
2)线上故障为B级,需要立即通知运维部、研发管理部以及相关产品部门的领导,并告知中心领导。
由各部门领导协调事故处理,10分钟内响应事故,1小时内给予解决保证系统恢复正常,并及时告知运营经理或者项目经理。
3)线上故障为C级,需要尽快将问题录入工单系统,通知产品部门产品经理或技术经理以及测试经理,并告知部门部长。
由产品/技术经理协调处理线上事故,保证系统在最短时间内恢复正常,最长不得超过48小时。
4、验证问题
线上故障受理后都需要测试人员实时跟进,协助技术人员分析定位问题。
如果是A级或者B级故障,问题修复后第一时间验证并告知运营经理或者项目经理;如果是C级故障,开发人员修复问题后及时更新缺陷状态并通知测试人员验证,并评估是否需要发布。
1)需要发布。
问题处理人员需要按照上线管理流程进行程序发布。
2)不需要发布。
测试人员直接验证问题是否已解决:
如果验证通过,需要在工单系统中关闭问题单。
如果验证不通过,则将问题单重新打开并提醒问题处理人员需要重新进行问题修复。
5、通知业务方
1)线上故障为A级或者B级,故障恢复前,由运营经理或者项目经理跟踪处理进展、每隔15分钟告知业务方。
直至故障恢复正常
2)线上故障为C级,由运营经理或者项目经理跟踪问题状态、问题单关闭后实时通知业务方。
2.事故培训流程
线上重大事故解决之后,需要召开线上事件的事故培训会议,对事故进行详细分析并给出规避措施以及潜在风险评估,从而避免同种重大事故再次出现。
QA问题记录:
1)收集和维护各部门线上事件处理人员清单和通讯录,以便事故协调小组及时联系到相关的处理人员
2)收集线上故障实例,对事故等级定义提出优化建议,以便更快更准识别事故,做到及时响应和解决事故。
3)收集和维护各部门事故应急预案。
3.处罚规则
操作者
主管
部长
A级事故
10%*工资
5%*工资
5%*工资
B级事故
5%*工资
2%*工资
-
C级事故
D
-
-
操作者:
相关开发人员
主管:
团队产品经理、技术经理、开发经理、组长
部长:
部门(副)部长