应用系统运维应急方案文档格式.docx
《应用系统运维应急方案文档格式.docx》由会员分享,可在线阅读,更多相关《应用系统运维应急方案文档格式.docx(4页珍藏版)》请在冰豆网上搜索。
作者:
完成日期:
1前言
XX眯客信息技术运维支持部负责公司业务系统运行维护工作。
为了保障公司因业务系统的安全、平稳运行,运维支持部特此指定运维应急方案,通过此方案来保证系统的安全。
2目标
✧保障公司服务器的正常运行、网络的畅通。
✧严格岗位制度、明确工作职责,规范工作流程。
✧工作规范化,制度化,加强文档管理力度。
3组织结构
根据运维工作的范围和性质,下设三个小组:
Ø
系统维护组
应用维护组
技术值班组
4应急预警
4.1应急预警级别
预警级别
预警标志
警报内容
预警级别介绍
一级预警
网络流量升高
主机性能降低
数据备份出现异常
异地备份出现异常
某台工作站出现病毒
监控软件出现故障
一级预警表示系统出现故障,但不影响运维系统的正常运转。
二级预警
网络中断或网络设备异常
主机、阵列和带库硬件出现故障
数据库相关故障
黑客入侵或病毒大面积发作
二级预警表示系统出现故障,影响运维系统的正常运转,但运维工程师可以在短时间内进行故障排除。
三级预警
网络防火墙宕机无法正常使用。
主机、阵列、带库宕机并无法启动
数据库或数据仓库无法正常使用
受到不可抗力或自然灾害的破坏。
三级预警表示系统出现故障,影响运维系统的正常运转,运维工程师不能在短时间内进行故障排除或无法排除。
4.2应急预警处理流程
运维过程中出现重要故障或紧急情况时,按以下规定流程进行处理及汇报。
在遇到故障时,及时汇报上级领导并采取措施及时解决,具体汇报流程如下:
4.2.1一级预警处理
运维过程中,如果遇到一级预警,按以下流程进行处理:
1.当通过监控或得知系统出现故障时,首先在最短的时间查看故障点状态,并分析故障原因。
2.运维工程师在排查出故障后,立即着手解决。
3.在故障排除后,对所发生故障的设备进行事后跟踪。
4.在故障排除后,运维工程师应对故障原因及解决办法进行详细说明。
4.2.2二级预警处理
运维过程中,如果遇到二级预警,按以下流程进行处理:
1.当通过监控或得知系统出现故障时,首先在最短的时间内查看故障点状态,并分析故障原因。
2.立即报告给组长,运维小组长应通过或当面把故障报告相关部门领导,在故障完全排查清楚后以书面形式递交"
故障报告单"
。
3.运维工程师在排查出故障后,如能够立即解决,则立刻解决故障,如需要设备厂商的技术人员到现场,应立即拨打技术厂商的技术工程师,请求立即到现场进行故障排除。
4.2.3三级预警处理
运维过程中,如果遇到三级预警,按以下流程进行处理:
2.立即报告给运维中心主管人员,主管人员应通过或当面把故障报告给相关领导部门,在故障完全排查清楚后以书面形式递交"
4.如果因硬件设备出现故障而无法修复,需要更换时,应报运维中心主管人员,主管人员办理硬件更换事宜。
5.在故障排除后,运维工程师应对故障原因及解决办法进行详细说明。
5附件
5.1.1故障报告单
文档编号:
cq-imike-0001
故障报告单
报告人:
报告日期:
故障所属:
□系统故障
□数据库系统故障
□网络设备故障
□其它应用软件系统故障
故障描述:
□已解决
□未解决
解决方案:
审核人:
审核日期: