运维应急响应管理制度0803.docx

上传人:b****8 文档编号:24020007 上传时间:2023-05-23 格式:DOCX 页数:27 大小:26.59KB
下载 相关 举报
运维应急响应管理制度0803.docx_第1页
第1页 / 共27页
运维应急响应管理制度0803.docx_第2页
第2页 / 共27页
运维应急响应管理制度0803.docx_第3页
第3页 / 共27页
运维应急响应管理制度0803.docx_第4页
第4页 / 共27页
运维应急响应管理制度0803.docx_第5页
第5页 / 共27页
点击查看更多>>
下载资源
资源描述

运维应急响应管理制度0803.docx

《运维应急响应管理制度0803.docx》由会员分享,可在线阅读,更多相关《运维应急响应管理制度0803.docx(27页珍藏版)》请在冰豆网上搜索。

运维应急响应管理制度0803.docx

运维应急响应管理制度0803

应急响应管理制度

山西精英科技股份有限公司

版本记录

1目的

2术语定义与引用标准

2.1

4

2.2

4

3适用范圈

4工作原则

41

5

4,2

5

43

5

5风险评估

5.1

6

5.2

6

53

6

54

7

5.5

7

5.6

8

6事件分级

6.1

8

62

9

63

7组织机构和职贵

突出重点,

技术支撐.

术语定义

引用标准

有效组织

加强演练

健全机制

系统重要性评估

影响度评估

发生几率评估

发生时段评估

风险等级评估

进行风险评估

信息系统重耍性

信息系统服务时段

事件定级

10

 

7.1

10

公司内部组织

7.1.1..

10

怎负贵人

7.1.2..

10

7.L3..

应急指挥小组

应急工作小组

10

7.1A..

相关外部角色

11

8应急要秦与体系

11

8・1

事件处置耍素

11

8.1.1

管理层面

11

8丄2・

11

技术层而

事件归口

12

8丄4“

12

8,2

分级响賊

指挥和协调

12

83

信息共学和处理

12

84

13

8,5

13

通讯

外部沟通

8.6

13

87

服务需方

供应商

13

9运行机制

14

9.1

14

日常监测和预警

92

14

9.3

应急启动

事件报告

14

94

15

应急调度

 

9.5

15

排査和诊断

9.6

15

处理和恢复

97

16

9,8

事件升级

持续服务

16

9.9

应急事件关闪

16

9.9Z

16

申请

9・9・2"

17

核实

9・9・3・・

17

9,10••••••

事件通报

总结改进

17

9.10.1

舷急工处第

17

9.102

18

应急工作审核

10保障措施

18

101

通信保障

18

102

18

物资保障

103

19

技术保障

104

19

105

经费保障

人员保障

19

11宣传、培训和演练

19

11.1

19

宜传

112

19

113

培训

演练

20

12应急响应管理关键指标

22

 

22

 

1目的

为了规范客户的各类信息系统应急事件的应急管理,提高应对应急事件的管理水平和应急处理能力,有效防范信息系统风险,减少信息系统故障对生产业务造成的影响,确保信息系统运行的连续性,特制定本预案

2术语定义与引用标准

2.1术语定义

服务级别管理术语定义如下:

术语

缩略词

定义

重点时段保障

important

Periodassurance

提升服务级别以确保某一时间段内重要活动或重点业务的开展所采取的措施和活动。

应急事件

emergencyevent

导致或即将导致运行维护服务对象运行中断、运行质量降低,以及需要实施重点时段保障的事件。

应急响应

emergencyresponse

组织为预防、监控、处置和管理应急事件所采取的措施和活动。

2.2引用标准

GB/T28827.1-2012信息技术服务运行维护第1部分:

通用要求;

GB/T28827.2-2012信息技术服务运行维护第2部分:

交付规范;

GB/T288273—2012信息技术服务运行维护第3部分:

应急响应规范;

ITSS1-2015信息技术服务运行维护服务能力成熟度模型V1.0;

ISO/IEC27001:

2013信息技术•安全技术•信息安全管理体系要求。

3适用范围

本制度适用于公司运维业务范圉内的信息系统、网络系统、数据中心等应急事件。

本制度用于指导和规范公司运维业务范ffl的信息系统、网络系统、数据中心等应急预案,建立自上而下、分级负责应急事件应急处置体系,规范处理突发事件的逐级汇报流程。

本制度适用于应急预案编制、预案评审、预案实施、应急队伍、培训教育、应急装备、应急演练等工作。

4工作原则

4.1统一指挥.有效组织

成立应急总负责人,山公司总经理担任;应急指挥小组,山公司副经理,技术骨干等组成;并成立应急工作小组。

组织开展事件预防、应急处置、恢复运行、事件通报等各项应急工作。

相关部门要主动协调有关各方面,参与实施部门听从指挥、步调一致。

4.2突出重点,加强演练

对关键信息系统加大监控和应急处理力度,确保应急信息及时准确传递。

每年开展应急演练丄作,确保应急措施合理、有效。

4.3技术支撑,健全机制

在充分利用客户现有的信息资源、系统和设备基础上,采用先进适用的预测、预防、预警和应急处置技术,改进和完善应急处理的装备、设施和手段,提高应对信息系统应急事件的技术支撑。

建立健全应对信息系统应急事件的有效机制。

5风险评估

应急响应小组每年对重要信息系统进行一次风险评估,并根据风险评佔结果来制定或更新应急预案。

风险评估方法如下:

5.1系统重要性评估

等级

描述

1级

将对客户造成极严重的或灾难性的损失

4

2级

将对客户造成较重要的损失

3

3级

将对客户造成一定损失

2

4级

将对客户造成有限损失

1

根据上表对信息系统以及相关外部环境进行重要性评估。

5.2影响度评估

等级

赋值

影响度描述

3

核心业务全面中断;

影响大面积用户正常使用;

2

部分核心业务中断;

影响一定范H内用户的正常使用;

1

单一业务中断;

影响个别用户正常使用:

根据上表对信息系统以及相关外部环境进行影响度评佔。

5.3发生几率评估

等级

可能性取值

可能性描述(威胁发生的频率)

经常

3

可能每个季度发生一次或者以上

偶尔

2

可能每半年会发生一次

极少

1

可能每年发生一次或更少

根据上表对风险发生儿率进行评佔。

5.4发生时段评估

等级

赋值

时段程度描述

•4•咼

3

核心业务并发高峰期;核心业务关键程序执行期;

2

部分核心业务并发高峰期;

部分核心程序执行期;

1

非核心业务并发期;非核心程序执行期;

5.5风险等级评估

按照重要性、影响度、发生儿率赋值相乘,得出信息系统以及相关环境的风险等级。

等级描述如下:

可能性

1

2

3

影响度

重要性

1

2

2

3

2

8

4

2

614

风险值=重要性X风险发生可能性X风险发生的严重性

 

风险等级

风险值n

iWj(H)

n>-12

中(M)

12>n>4

低(L)

n<=4

5.6进行风险评估

按照风险等级评估,列出信息系统以及相关外部环境,描述可能发生的风险,针对每一个风险制定控制措施,并明确相应贵任人,形成《风险评佔表》,撰写风险评估报告。

6事件分级

根据信息系统事件的分级考虑要素,将信息系统事件划分为三个级别:

I级事件、

II级事件、III级事件。

-般(III级):

综合分值在1・4分;较大(II级):

综合分值在5・12分;重大(I级):

综合分值在大于12分;

6.1信息系统重要性

信息系统的重要性由以下要素决定:

1)信息系统所属类型,即信息系统资产的安全利益主体。

2}信息系统主要处理的业务信息类别。

3)信息系统服务范用,包括服务对象和服务网络覆盖范用。

4)业务对信息系统的依赖程度。

其中第1)与2)个要素决定信息系统内信息资产的重要性,第3)与第4)个要素决定信息系统所提供服务的重要性,而信息资产及信息系统服务的重要性决定了信息系统的重要性。

信息系统分级及赋值如下:

赋值

描述

1

4级信息系统

2

3级信息系统

3

2级信息系统

4

1级信息系统

6.2信息系统服务时段

信息系统服务时段划分为3级。

依据应急事件发生的不同时间,对信息系统恢复正常服务所需的时间要求而确定。

赋值

描述

1

非系统服务时段(不含系统服务时段即将开始)

2

系统服务时段或系统服务时段即将开始

3

系统处于重点时段保障(业务必须正常运行时间)或处于服务高峰时段

信息系统损失程度赋值

应急事件造成的信息系统损失程度划分为3级。

依据故障发生对信息系统提供的服

务能力的下降程度而确定。

系统性能

系统功能

功能无损

部分损失

全部损失

小于阈值

1

3

大于或等于阈值

1

2

3

虫点时段保障的损失程度赋值为3

6.3事件定级

将以上应急事件三个要素的赋值相乘,事件级别如下表所示:

范围

级别

1〜6

III事件

8〜

18

II事件

26〜

36

I事件

7组织机构和职责

7.1公司内部组织

公司内成立应急处置领导小组、指挥小组、工作小组。

应急组织设置根据实际项U的应急组织管理机制,受客户的应急组织领导。

7.1.1总负责人

总负责人的主要职责:

统一领导信息系统的应急事件的公司内部应急处理工作,发起研究重大应急决策和部署,决定实施和终止应急预案。

7.1.2应急指挥小组

应急指挥小组的主要职责:

接受应急总负贵人的领导,传达和落实应急总负责人的各项指令,汇总和上报应急信息,负责应急工作小组成员的协调沟通,协调应急事件处

置匸作中的重大问题。

7.1.3应急工作小组

应急工作小组主要职责:

落实应急总负责人及应急指挥小组布置的各项任务;组织制定应急预案9并监督执行1W况;掌握应急事件处理情况,及时向应急总负责人和应急指挥小组报告应急过程中的重大问题。

角色

角色匹配

总负责人

总经理、工程运维中心总监(副总经理)

应急指挥小组

运维部经理、技术支持部经理、运维项U经理、综合管理部、质量管理部经理

应急工作小组

技术支撑主管、研发主管、运维主管、运维工程师、备件管理员等运维团队成员、质量管理员

7.1.4相关外部角色

服务需方应急响应责任人与供应商等外部联络人及相关人员。

8应急要素与体系

8.1事件处置要素

8.1.1管理层面

1)启动指挥体系:

I级事件的启动和指挥山应急总负责人负责,II、III级事件的启动应急指挥小组负责。

2)掌握事件动态:

事件动态山应急工作小组人员收集并及时反馈给应急指挥小组,应急指挥小组决定信息的共孚、沟通、处置。

3)处置实施:

控制事态防止蔓延

做好处置消除隐患

4)后期处置:

事件调査报告和经验教训总结及改进建议。

5)保障措施:

包括通讯与信息保障,应急支援与设备保障,技术储备与保障,宣传、培训和演练,监督检査等。

8.1.2技术层面

信息系统事件发生后,事发部门应立即启动相关应急预案,实施处置并及时报送信息。

1)控制事态发展,防控蔓延。

事发部门先期处置,采取各种技术措施,及时控制事态发展,最大限度地防止事件蔓延。

2}快速判断事件性质和危害程度。

尽快分析事件发生原因,根据信息系统运行和承载业务情况,初步判断事件的影响、危害和可能涉及的范W,提出应对措施建议。

3)及时报告信息。

事发部门在先期处置的同时要按照预案要求,及时向上级报告事

4)做好事件发生、发展、处置的记录和证据留存。

8.1.3事件归口

发生应急事件的归口部门是应急体系启动的责任部门。

8.1.4分级响应

发生I级事件,山应急工作小组初步判定事件级别后,将信息通知应急指挥小组并注意持续监控事态、收集信息、做出应急准备;应急指挥小组响应判断为I级事件后,立即通知应急总负责人,并由应急总负责人启动应急预案。

发生II、III级事件,山应急工作小组初步判定事件级别后,将信息通知应急指挥小组并注意持续监控事态、收集信息、做出应急准备;应急指挥小组响应判断为II、III级事件后,立即启动应急预案。

应急事件的级别应置于动态调整控制中。

8.2指挥和协调

I级级事件,山应急工作小组收集信息,应急指挥小组做出预判,并迅速通知应急总负责人,由应急总负责人进行指挥和决策。

II、III级事件,由应急指挥小组进行指挥和决策,并及时将处理过程、报告等上报应急总负责人。

8.3信息共享和处理

I级事件,山应急工作小组收集信息并提交给应急指挥小组和应急总负责人,山应急总负责人决定信息的分发、共享和处置。

II、III级事件,山应急指挥小组决定信息的分发、共学和处置,并上报应急总负责

人。

8.4通讯

应急响应小组和丄作小组建立通信录,并24小时开通联系电话,保持通信顺畅。

通信录应上报应急总负责人。

事件处理过程中的值班人员必须拥有完整的通信联系方式P并有足够的通信手段保证联系顺畅。

8.5外部沟通

应急组织应与外部相关利益方进行沟通确认统一的沟通流程和方式。

8.6服务需方

当应急事件发生时,若是山用户报障到服务台,服务台人员应向用户详细了解事件情况。

项U经理接单后应立即与客户方负责人沟通,尽快开展工作。

若是山现场工程师主动发现,则应立即通知客户方负责人。

在事件解决过程中,现场负责人应及时向客户方相关人员通报最新悄况。

完成处理与恢复后,现场负责人应告知客户方负责人,山客户方负责人进行现场确认。

之后应组织运行维护人员提供持续性服务,并定期向客户方负责人汇报。

在持续性服务证实一切正常后,山客户方负责人在事件单上签字,并由服务台进行回访确认后,现场负责人可向应急指挥小组申请关闭事件。

在应急事件关闭后,应急总负贵人应授权应急指挥小组向相关利益方通报事件信息。

8.7供应商

在应急事件解决过程中,可能会需要供应商提供服务。

此时现场负责人应根据应急预案,与供应商联系。

9运行机制

9.1日常监测和预警

组织应该对运行维护服务对象的运行情况进行监测与预警,以跟踪和判别以下对象的容量、可用性和连续性。

1)应用系统;

2)支撑应用系统运行的系统软件、工具软件;

6网络及网络设备;

4)安全设备;

5)上机、存i诸、外设、终端等设备:

6)安防、一卡通、会议等智能化设备。

如发现有异常悄况时,要及时处理并向现场负贵人报告,并及时排除信息系统中存在的风险隐患。

9.2应急启动

应急预案的启动有以下两种方武:

1)遇到I级事件,事件信息山应急工作小组提供并提交给应急指挥小组,应急指挥小组做出初步判断和初步事件级别的确认,初步确认为I级事件的,呈报应急总负责人,山应急总负责人下达启动应急预案。

2}遇到II、III级事件,应急指挥小组自行启动应急预案,并及时上报应急总负责人。

9.3事件报告

当发现各类信息系统事件时,应按照事件等级逐级汇报。

报告分为紧急报告和详细汇报。

紧急报告是指相应部门在事件发生后,立即向本部门应急指挥小组以口头和应急报告表形式汇报事件的简要情况;详细汇报是指山相应部门应急处理机构在事件处理暂告一段落后,以书面形武提交的详细报告。

应急指挥小组对各类事件的影响进行初步判断,汇报矩阵如下:

事件级别

报告事件要求

报告对象

I

10分钟内

总负责人

11

30分钟内

总负责人

111

60分钟内

总负责人

报告内容应准确、详实,任何部门和个人均不得缓报、瞒报、谎报或者授意他人缓报、瞒报、谎报事件。

事件报告信息一般包括以下要素:

发生事件的信息系统名称及业务部门、地点、原因、信息来源、事件类型及性质、危害和损失程度、影响部门及业务、事件发展趋势、采取的处置措施等。

9.4应急调度

公司应该按照预案开展统一的应急调度,包括人员、资金和设备等。

应急调度山应急总负责人授权应急指挥小组执行。

9.5排查和诊断

组织应明确故障排査和诊断流程;

应急事件的排査与诊断流程参考《事件与服务请求过程》,排查与诊断过程需在《应急事件报告》进行记录。

处置应急事件的过程中,现场负责人应及时与相关利益方就排査、诊断结果进行沟通和问题确认。

9.6处理和恢复

应急事件的处理与恢复应基于应急响应预案、配置管理数据库、知识库等进行故障处理和系统恢复。

必要时可启用备品备件、灾备系统等。

应急事件的处置与恢复流程参考《事件与服务请求过程》,处理与恢复过程需在《应急事件报告》进行记录,并及时告知利益相关方。

在处理和恢复应急事件时•应在满足事件级别处置时间要求的前提下,尽快恢复服务。

事件级别处置时间要求如下:

事件级别

处置时间要求

I

2小时

11

4小时

III

6小时

9.7事件升级

当事件处置超过事件级别处置时间要求时,应急工作小组应向应急指挥小组申请事件升级,递交《应急事件升级审批表》O

并在相关利益方间达成一致。

事件升级的实施授权应由应急指挥小组负责人启动。

应急指挥小组应对事件升级可能造成的影响进行评佔,

应组织运行维护人员提供持续性服务。

应急响应组织应对持续持续服务的评价结果,应作为应急事件关闭的输入。

9.8持续服务

完成处理与恢复后,

性服务的效果进行评价。

I级应急事件应急处理结束后应密切关注,监测系统2周,确认无异常现象。

II级应急事件应急处理结束后应密切关注,监测系统1周,确认无异常现象。

III级应急事件应急处理结束后应密切关注,监测系统3天,确认无异常现象。

9.9应急事件关闭

9.9.1申请

在同时满足下列条件下时,应急工作小组负责人可向应急指挥小组提出关闭申请。

应急事件处理已经结束,设备、系统已经恢复运行。

持续服务阶段系统无异常,持续服务阶段结束。

服务需方应急响应负责人同意事件关闭。

应急事件处置的过程文档已整理完成。

9.9.2核实

应急指挥小组接到关闭申请后,应逐项核实报告内容,以判别应急事件处置过程和结果信息是否属实之后通报应急总负责人,山应急总负责人做出关闭决定。

9.9.3事件通报

应急总负责人应授权应急指挥小组向相关利益方通报事件信息,内容应包括:

事件发生的原因、事件级别及影响范

事件对应的预案;

事件的处置过程和方法;

事件的调整升级悄况;

持续性服务悄况;

事件处置评价;

事件关闭申请的处理意见;关闭通报的范圉和涉及接受者。

应急事件发生的原因、处置过程和方法应记入知识库。

9.10总结改进

9.10.1应急工作总结

组织应定期对应急响应工作进行分析和回顾,总结经验教训,并采取适当的后续措施。

对应急响应工作的分析和回顾应考虑以下方面:

应急响应工作的绩效;

应急准备丄作的充分性和有针对性;

应急事件发生原因、数量及频率;

应急事件处置的经验得失;

应急事件的趋势信息;

信息系统中潜在的类似隐患0

对应急响应;希(1^分析和回顾应形住:

应急响应工作总结报吿》,并将总结报告作为改进应急响应工作及信息系统的至要依据。

9.10.2应急工作审核

应急总负责人应定期发起对应急响应工作的评审,以确保应急响应过程和管理符合预定的标准和要求。

审核的结果应该正式存档并通知给相关利益方。

评审至少每年一次,可于公司内审时进行。

1)审核时应考虑的要素包括:

2}相关利益方的要求和反馈;

3)组织所采纳的用于支持应急响应的各种资源和流程;

4)风险评估的结果及可接受的风险水平;

5)应急预案的测试结果及实际执行效果;

6)上次评审的后续活动跟踪;

7)可能影响应急响应的各种业务变更;

8)近期在处置应急事件过程中总结的经验和教训;

9)培训的结果和反馈。

10)审核的输出结果应该包括:

改进U标;

改进的具体工作内容;

所需的各种资源,包括人员、资金和设备等。

10保障措施

10.1通信保障

指挥、通信联络和信息交换的渠道主要有外线电话、手机、传真、电子邮件、微信、QQ等方式,有关应急联系人员手机应保持每天24小时处于开机状态。

10.2物资保障

各部门根据信息系统事件防治工作所需确保经费,配备相应的应急设施,以确保事件应急工作的顺利进行。

应急物资主要有备品备件、常用工具等。

10.3技术保障

任何状态下,应提供充足的技术保障,如网络拓扑图、服务器清单、网络设备配置、访问控制策略、应用系统和各类软件的版本,并定期进行数据备份,以保障发生事件时,受影响的信息系统能及时恢复。

重视信息系统事件体系的建设、运维和升级换代,确保信息系统的稳定与安全,确保在事件处置过程、系统恢复或重建过程中有足够的技术支撑。

10.4经费保障

各部门应保障应急培训、浪练、添置应急物资等所需经费。

10.5人员保障

各部门需加强信息系统应急事件应急技术支持队伍的建设,提高人员的业务素质、技术水平和应急处置能力。

确保在事件处置过程和系统恢复或建工作中人员在岗并具有处置能力。

11宣传、培训和演练

11.1宣传

公司各部门应加强应急工作的宣传和教育,提高各级人员对应急预案重要性的认识,加强各部门和部门之间的协调与配合。

11.2培训

各信息系统应急预案涉及人员应定期开展应急预案的培训,做好信息系统相关知识的宣传和普及,增强各运维人员的责任意识,熟练掌握应急响应的程序和应急处置技能等内容。

11.3演练

公司要组织对预案进行定期演练,通过演练验证预案的合理性,及时修订和完善不符合实际的应急处置悄况,有针对性地改进信息系统应急事件处置能力,确保事件发生后应急处理手段及时到位和有效。

相关部门在做应急演练前要做好相关准备丄作,确保演练工作的安全。

要明确演练的u的和要求,记录演练过程,对演练结果进行评估和总结。

附件1:

应急响应体系矩阵表如下:

件级别

别判定

预案启动

指挥和决策

信息分发、共享和处置

事件升级、应急调度

关闭及通报

指挥小组

领导小组

领导小组

领导小组

指挥小组

领导小组

I级

指挥小组

指挥小组

指挥小组

指挥小组

指挥小组

导小组

II级

指挥小组

指挥小组

指挥小组

指挥小组

指挥小组

领导小组

附件2:

应急响应负责人和应急小组责任人登记表

责任人

姓名

职务

办公电话

手机

组长

王增强

总经理

0551-653

31855

135055151

37

副组长

赵存会

副总经理

0551-653

318549

133492949

29

副组长

吴拮峰

运维部经理

0551-653

09185

138661732

77

组员

运维研发主管

0551-653

31851

180108758

17

组员

技术支撑主管

0551-653

09162

180560785

03

组员

质量管理部经理

0551-653

09162

138661277

56

组员

综合管理部

0551-653

09123

152551590

60

组员

人力资源部

0551-653

09152

153579080

27

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 幼儿教育 > 唐诗宋词

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1