连续性管理流程.docx

资源描述

连续性管理流程.docx

《连续性管理流程.docx》由会员分享，可在线阅读，更多相关《连续性管理流程.docx（24页珍藏版）》请在冰豆网上搜索。

连续性管理流程.docx

连续性管理流程

文件编号:

OP-ITSM-012

文件名称:

连续性管理流程

版本:

1.0

1.0简介

业务目的：

确保灾难或意外事件发生时，IT服务提供方能在既定的要求时间内恢复正常运作，以减少运营风险及降低业务损失。

IT目的：

通过业务影响分析，量化IT服务对业务的影响；

通过风险分析，确定对IT服务连续性的潜在威胁和威胁成为现实的可能性，并管理已确定的威胁；

制定IT服务连续性计划，并确保其有效性。

2.0适用范围

此流程适用IT管理手册中定义的服务范围。

3.0相关流程

IT服务管理手册（QM-ITSM-2011）

服务规划及管理流程（OP-ITSM-004）

服务级别管理流程（OP-ITSM-005）

服务报告管理流程（OP-ITSM-006）

事件和服务请求管理流程（OP-ITSM-007）

问题管理流程（OP-ITSM-008）

配置管理流程（OP-ITSM-009）

变更管理流程（OP-ITSM-010）

容量与可用性管理流程（OP-ITSM-014）

业务关系管理流程（OP-ITSM-016）

服务策划管理流程（OP-ITSM-019）

一级事件（重大）处理流程（OP-ITSM-021）

IT服务连续性策略工作流程（OP-ITSM-024）

人员撤离应急处理操作指引（WI-ITSM-017）

4.0定义

4.1术语表

术语

缩略词/英文

定义

业务影响分析

BIA（BusinessImpactAnalysis）

重大意外灾难事件发生时，所造成IT服务提供方的运维服务中断等影响严重性的分析。

风险

Risk

对目标不确定性的影响，事态发生可能性及产生后果的组合。

风险评估

RA（RiskAssessment）

分析资产对业务的价值，识别对这些资产的威胁，评估每项资产面对这些威胁的脆弱程度。

可接受风险

RiskAcceptance

对一个特定风险不采取措施减少其影响的管理决定。

灾难

Disaster

灾难是由于人或自然的原因，造成信息系统运行严重故障或瘫痪，使信息系统支持的业务功能停顿或服务水平不可接受、达到特定的时间的突发事件，通常导致信息系统要切换到备用场地运行。

灾难恢复

DisasterRecovery

将信息系统从灾难造成的故障或瘫痪状态恢复到可正常运行状态，并将其支持的业务功能从灾难造成的不正常状态恢复到可接受状态，而设计的活动和流程。

IT服务连续性策略

ITSCS（ITServiceContinuityStrategy）

规定IT服务连续性对风险的降低及恢复或连续性方案的平衡范围及标准。

IT服务连续性计划

ITSCP（ITServiceContinuityPlan）

定义恢复一项或多项IT服务所需步骤的计划，该计划还确定如何触发调用、涉及人员、沟通等，IT服务连续性计划应该是业务连续性计划的一部分。

IT服务连续性管理

ITSCM（ITServiceContinuityManagement）

负责管理可能严重影响IT服务的风险的流程。

通过将风险降低到可接受的水平，同时规划IT服务的恢复，ITSCM确保IT服务提供方能够始终提供最低约定的服务级别。

最长可容忍中断时间

MTPD（MaximumTolerablePeriodofDisruption）

如果超过这个时间范围，组织所提供的产品和服务仍无法恢复，组织的生存能力将可能遭遇无法挽回的破坏。

最大可容忍数据丢失

MTDL（MaximumTolerableDataLoss）

组织能接受的信息丢失的最大程度。

一定时间丢失的数据可能导致组织运营无法恢复，极具价值的数据丢失，还可能威胁到组织的生存。

演练

Exercise

用于训练人员提高灾难恢复能力的活动。

完整性

Integrity

确保和维护资产的准确和完整，尤其是数据记录的准确与完整。

目标恢复时间

RTO（RecoveryTimeObjective）

灾难发生后，信息系统或业务功能从停顿到必须恢复的时间要求。

目标恢复点

RPO（RecoveryPointObjective）

灾难发生后，系统和数据必须恢复到的时间点要求。

4.2角色定义表

角色

职责

部门主管

•审核《业务影响分析报告》、《风险评估报告》、《紧急统筹中心》、《IT服务连续性计划》、《演练计划》、《演练报告》、《测试记录》和《恢复报表》。

紧急统筹中心

•在发生灾难的情况下，进行统筹及协调工作。

•《紧急统筹中心》需注明人员在应急中的职责（包括A角及B角）。

如：

总指挥、机房总指挥、服务器总指挥、网络总指挥、服务台总指挥、应用服务器总指挥、应用软件总指挥、应急支持总指挥等。

流程经理

•组织编制《紧急统筹中心》；

•组织编制《业务影响分析报告》及《风险评估报告》；

•组织编制及实施《IT服务连续性计划》；

•组织编制《测试记录》；

•组织编制《演练计划》及《演练报告》；

•组织编制《恢复报表》。

服务负责人

•参与编制《紧急统筹中心》；

•参与编制《业务影响分析报告》及《风险评估报告》；

•参与编制及实施《IT服务连续性计划》；

•参与编制《测试记录》；

•参与编制《演练计划》及《演练报告》；

•参与编制《恢复报表》。

5.0内容

5.1流程政策及要求

•影响业务的灾难发生时，本流程能够提供有效的工作过程指导，使业务系统能够在允许的范围内重新恢复，保障业务的持续开展。

•根据「IT服务连续性策略工作流程」及备份相关流程要求组织编制《IT服务连续性计划》和《演练计划》并提交部门主管审批作为灾难时执行依据。

•《IT服务连续性计划》在执行若遇到资源冲突时，应由部门主管决定优先级次序，如有需要可于《IT服务连续性计划》中说明。

•《IT服务连续性计划》包含安装配置指南。

5.2流程输入及输出

5.2.1流程触发条件

•业务损失的程度和潜在启用的范围。

•设施或服务中断及不可用的时间范围。

•由管理者代表（或授权代表）确定需要启动连续性管理流程的一级事件（重大）。

5.2.2输入

•业务需求调整

•「变更管理流程」触发

•业务影响分析报告

•风险评估报告

5.2.3输出

•紧急统筹中心

•业务影响分析报告

•风险评估报告

•IT服务连续性计划

•测试记录

•演练计划

•演练报告

•恢复报表

5.2.4流程关闭条件

持续确保IT服务连续性计划提供的保护是最新的，并反映了服务和服务级别的所有变化。

5.3流程综述

5.3.1IT服务连续性管理流程执行时需遵循以下要求：

•《IT服务连续性计划》应由流程经理每年组织审查与评估，以维持其有效性与适应性，所有测试及审查均应留下记录。

对流程的运行情况进行监控和改进，相关的改进措施输入到《服务改进计划》。

•如果连续性管理流程应用范围的服务环境发生重大变更时，需要维护和重新测试《IT服务连续性计划》，以保证其有效。

•如果由「变更管理流程」触发的情况，需要进行《IT服务连续性计划》测试，以确认本次变更对《IT服务连续性计划》的影响，并回复测试结果。

•《IT服务连续性计划》的变更需要通过「变更管理流程」控制，《IT服务连续性计划》的发布需要按「文件及记录管理流程」要求控制。

•每次测试和《IT服务连续性计划》触发后，流程经理应组织实施评审。

当发现不足时，流程经理应组织相关人士以会议的方式检讨《IT服务连续性计划》的有效性与适应性，并修正不足重新交部门主管审批。

5.3.2连续性管理具体范围如下：

1）地理位置：

•香港总部：

香港九龙湾一号九龙41楼信息技术部

•中国总部：

惠州市江北云山旭日集团中国总部大楼9楼信息技术部

2）人员：

位于上述两个地理位置内办工区域的信息技术部的相关员工。

3）机房：

于上述地理位置内的机房。

4）网络：

于上述地理位置机房内的网络。

5）服务器：

于上述地理位置机房内的服务器，包括基础硬件、OS、VM。

6）应用服务器：

于上述地理位置机房内运作的应用服务器。

7）信息系统运维服务：

于上述地理位置机房内运作中的信息系统运维服务。

5.4流程步骤

5.4.1业务影响分析（BIA）

5.4.1.1概述

•业务影响分析的目的是量化IT服务连续性对业务的影响，并识别最核心的IT服务；

•要明确业务范围，以及相关业务服务活动中断后造成的影响；

•当有全新的或变更的业务需要或协议内全新的或变更的目标时，流程经理依据客户需求、内部管理重要程度、期望值与恢复策略、中断最大可忍受时限等要素，组织进行业务影响分析并制定《业务影响分析报告》;

•协商一致的需求应考虑适用的业务计划、服务需求、SLA和风险，至少应包括：

•服务访问权限

•服务响应时间

•端到端的服务可用性

•《业务影响分析报告》需送交部门主管审核。

*5.4.1.2在IT服务连续性管理流程中定义的范围内，对所支持的IT服务活动，应该留意：

•参考SLA要求，进行业务影响分析；

•评估IT服务中断后，随着时间的推移所造成的影响；

•为相关的活动定义最长可容忍中断时间（MTPD，从中断开始，活动需要被恢复的最大时间长度，活动恢复到最低水平，恢复到正常水平的时间跨度），由于中断会随着时间的推移而加重，并对相关活动造成不同的影响，影响也会随日期、月份或业务周期点而发生变化；

•识别任何相互连带依赖的活动、资产、用于支持的基础设施和资源，这些也需要得到持续的维护或随时间进行的恢复。

要明确IT服务连续性的要求，并对关键服务恢复资源进行评估。

5.4.1.3在评估影响时，应该考虑与业务的目的、目标和相关利益方相关的内容，包括：

•基础设施、技术或信息损害或丧失所造成的影响；

•违背法律责任或法律要求的影响；

•信誉的损害；

•财政的损害；

•产品或服务质量的降低；

•其它因素。

中断所带来的影响的评估方法、发现和结论应形成文档，以上亦是最长可容忍中断时间（MTPD）估算时的考虑因素。

5.4.1.4要识别关键活动：

•IT服务提供方可根据恢复的优先级别将相关的服务项进行排序；

•在业务影响分析识别的，哪些活动的丧失将在最短的时间带来重大影响，并需要快速恢复的活动，可被视为'关键活动'，每一个关键活动支持一个或多个产品或服务；

•应关注'关键活动'的计划，但也应该认识到其它活动也需要中断的最大可容忍中断时间（MTPD）内恢复，并需要预先做好安排；

•根据活动的性质，最大恢复时间期限可能从几秒钟到几个月不同，时间的敏感的活动会需要更高精确的详细说明，如分钟或小时，低时间敏感的活动精确的要求会较低；

•中断的最大可容忍中断时间（MTPD）将影响每一活动的恢复时间点目标（RTO）。

5.4.1.5要确定连续性要求：

•其目的是提供资源信息，从而确定或推荐一个适当的恢复策略，确定内部和外部的活动依赖关系所产生的资源需求；

•其结果是了解要对应时间内恢复提供约定水平的服务所需的资源，从最初的恢复到全面复原，可能是一个简单的时间点，也可能是一个复杂的时间表，确认那些为能够提供约定服务水平而进行的活动（内部的和外部的）之间的相互依赖关系；

•应该评估相关活动恢复时所需要的资源，包括人、基础设施、信息和供给。

-人员即员工资源，包括人、技能和知识；

-基础设施即必要的工作场所和设施；

-技术设施即用于支持的技术和设备；技术设施与组织相关的设备一同使用，包括但不限于：

IT软件和硬件，通讯设备，或任何制造、生产能力所必要的其它厂房、机器等；

-信息以前工作或当前工作进展有关信息的提供，并确保信息的实时更新和准确，以保证活动在商定的水平上有效持续运行；如果记录或工作进展等信息无法获得、不准确、或没有实时更新，都可能导致妨碍或严重耽搁活动的恢复；

-供给即外部服务和供给，也就是说非集团内的外部资源情况；

-最大可容忍数据丢失（MTDL）如果数据无法进行流转，组织将不能恢复其营运能力，丢失一定时间的数据可能导致组织运营无法恢复，极具价值的数据丢失，还可能威胁到组织的生存，而且有些活动在没有数据的情况下，或者使用几周之前的数据，都可以正常运行，然而有些活动无法承受任何数据丢失，所以要制定最大可容忍数据丢失（MTDL）；

-数据采集数据采集是为了一段时间内，如果在一个可接受水平上和在最大可容忍中断时间（MTPD）范围维持业务功能，需要多少资源，还应该考虑中断发生所产生的额外活动，以及清除积压工作的需要，还要考虑以上的资源情况；目标恢复点（RPO）的要求也直接影响到清除积压工作实施的具体工作情况；

•在确定资源水平时，应考虑相关利益方的需求。

*5.4.1.6业务影响分析中需明确核心系统，交部门主管确认，并进行风险评估分析。

*5.4.2风险评估（RA）

•风险评估需考虑重大风险场景，清晰定义风险评估矩阵，为「IT服务连续性策略工作流程」编写提供依据，部门在评估风险的接受程度后，通过补充说明文件告知公司高层相关风险并与SLA中进行相应的规避。

具体情况如下：

•可能性

等级

标识

定义

高

出现的频率较高（或≥1次/半年）；或在大多数情况下很有可能会发生；或可以证实多次发生。

中

出现的频率中等（或≥1次/年）；或在某种情况下可能会发生；或被证实曾经发生。

低

出现的频率较小；或一般不太可能发生；或没有被证实发生。

很低

威胁几乎不可能发生，仅可能在非常罕见和例外的情况下发生。

•破坏性

等级

标识

定义

很高

对资产造成完全损害。

高

对资产造成重大损害。

中等

对资产造成一般损害。

低

对资产造成较小损害。

很低

对资产造成的损害可以忽略。

•风险等级

风险值

2-8

10-16

18-24

26-32

34-40

风险等级

等级

标识

描述

很高

一旦发生将产生非常严重的经济或社会影响，如组织信誉严重破坏、严重影响组织的正常经营，经济损失重大、社会影响恶劣。

高

一旦发生将产生较大的经济或社会影响，在一定范围内给组织的经营和组织信誉造成损害。

中等

一旦发生会造成一定的经济、社会或生产经营影响，但影响面和影响程度不大。

低

一旦发生造成的影响程度较低，一般仅限于组织内部，通过一定手段很快能解决。

很低

一旦发生造成的影响几乎不存在，通过简单的措施就能弥补。

•接受风险的准则

•降低风险（Treat）

•接受风险（Tolerate）

•转移风险（Transfer）

•规避风险（Terminate）

•通过风险评估，确定对连续性的潜在威胁和威胁成为现实的可能性，并管理已确定的威胁；

•当有全新的或变更的IT基础架构或IT服务时，流程经理对相关场景进行可能性、破坏性、风险等级、接受风险的准则进行评估，并输出《风险评估报告》；

•《风险评估报告》需送交部门主管审核。

5.4.2.1定义威胁：

•罗列出可能使用业务影响分析中判定的最紧急活动发生中断的内外部威胁，具体情况请参考《风险评估报告》内容；

•建立风险的概率和影响评估评分体系，并得到部门主管批准；

•依照评分体系确定每个威胁发生的概率和权重；

•通过一致的公式，综合影响和概率的得分，计算每一种威胁的风险值；

•评审风险赋值的结果；

•根据风险等级对威胁进行优先次序排列；

•识别不可接受风险或单点故障；

•推荐行动措施，能够切实可行减少对企业最紧急活动发生中断的威胁。

5.4.2.2分析风险：

•威胁通常是指故意的、意外的或环境的（自然的）的外来损害，在某些条件下，将导致对资产的影响，如：

火灾、洪水、电力失效、员工短缺、员工旷工和硬件故障等；

•脆弱性又称弱点或漏洞，是资产或资产组中存在的可能被威胁利用造成损害的薄弱环节，脆弱性一旦被威胁成功利用就可能对资产造成损害。

可能表现为资源漏洞，并要某些条件下被威胁所利用，如：

单点失效、不充分的消防防护、电力健康情况、人员配备水平、IT安全和IT健康度等；

•影响可源自威胁对脆弱性的利用。

5.4.2.3定义可接受级别；不论选择了哪种风险评估，都需要定义风险可接受级别。

5.4.2.4定义可接受风险的准则：

•降低风险（Treat，业务连续性）如果业务连续性作为关键产品或服务的被选策略，应建立恢复时间目标（RTO），并对照该目标的连续性策略进行评估；业务连续性寻求提高组织对中断的健康度，保证关键活动按业务影响分析所规定的最低可接受水平和时间框架持续运行或被恢复；

•接受风险（Tolerate）发生风险时，可不采取进一步的活动，而被接受；即使是不可接受风险，但对某些风险能够采取措施的能力有限，或者采取措施的潜在收益与成本不成比例，在风险的偏好内如果部门主管认为，风险是可能接受的，在这些情况下，影响的措施可能是忍受现有的风险水平，在某些情况下，风险的影响可能超出了风险偏好，但风险发生的可能性较低或风险控制成本不经济，最高管理层可接受风险；对风险发生的影响处置计划可作为风险接受的补充；

•转移风险（Transfer）可通过常规的保险或合同安排实现风险转移，或通过第三方支付费用以其它方式处理风险。

该选项对于降低财务风险或资产的风险尤为合适；风险可被转移，以该组织的减少风险，或者因为另一个组织是更能够有效地管理风险；某些风险是不能（或不能全部）转移，如信誉风险，即使服务交付是外包的；购买保险可能构成风险处理的一部分，购买保险可能给部分损失带来一定的财务补偿，但是，并非所有的损失者是可能保险的（例如：

不确定的事故、品牌或信誉的损失、相关利益的损失、市场份额的降低或人身后果），单独的财务方法很难如相关利益方所期望的全面保护组织；必要的保险安排通常与一个或多个其它策略相配套；

•规避风险（Terminate，变更、延缓或停止）在某些情况下，变更、延缓或停止服务、产品、活动、功能或过程，可能是合适的方法，该方法只有在与组织目标、法律法规符合以及利益相关方的期望不发生冲突时考虑；该方法通常对具有有限预期使用期限的服务、产品、活动、功能或过程等时考虑；

风险评估方法必须对以上的概念进行处理。

*5.4.3IT服务连续性策略

5.4.3.1流程经理根据《业务影响分析报告》及《风险评估报告》，制定《紧急统筹中心》并交部门主管审核。

5.4.3.2《紧急统筹中心》需注明人员在应急中的职责（包括A角及B角）。

5.4..3.3IT服务连续性策略请参考「IT服务连续性策略工作流程」，备份策略请参考备份相关流程。

*5.4.4IT服务连续性计划

5.4.4.1流程经理根据「IT服务连续性策略工作流程」及备份相关流程要求组织制定《IT服务连续性计划》和《演练计划》并交部门主管审核，《IT服务连续性计划》应包含《业务影响分析报告》、《风险评估报告》、《紧急统筹中心》及资源清单。

5.4.4.2连续性计划应包括但不限于：

•执行计划的角色与职责；

•执行的流程、技术、方法；

•可用性的需求、目标；

•人员及资源的最低要求；

•服务连续性计划、联系清单及配置数据库应该有效；

•如何恢复到正常的工作状态。

5.4.4.3IT服务连续性计划的保障分为：

专业技术保障、通信保障和后勤保障等。

•专业技术保障：

主要保证系统能正常恢复运作情况，以及使用好后期可用性的运作维护；

•通信保障：

主要保证系统的网络通讯的正常，以及后期可用性的运作维护；

•后勤保障：

对于恢复策略中指定需要的设备、服务、材料等应第一时间通知相关机构和厂商人员，组织相关的人员、服务和设备迅速送达指定地点，包括系统恢复的必要资源（如：

场地提供、电源供应情况、软件介质、后备设备、等）、以及人员安排、后勤支持（包括食物、水、等）情况。

5.4.4.4有关集团信息系统运维服务的主要恢复策略主要有以下几种，均按《IT服务连续性计划》对应内容进行处理：

•核心系统的恢复策略；

•非核心系统的恢复策略；

•个案的恢复策略。

5.4.4.5集团信息系统运维服务的恢复流程均按《IT服务连续性计划》对应内容进行处理：

其中核心系统的《IT服务连续性计划》包括：

标准恢复流程、紧急恢复流程、标准重建流程，非核心系统和个案按标准恢复流程跟进。

a）信息系统标准恢复流程包括如下项目及过程：

•系统环境准备

-网络环境

-服务器系统及服务平台

-应用系统平台

•资料恢复

-备份文档恢复

-数据恢复

•网络恢复

•资料校验

•应用校验

•正式宣告恢复完成

b）信息系统紧急恢复流程包括如下项目及过程：

•环境恢复／准备

•系统环境准备

-网络环境

-服务器系统及服务平台

-应用系统平台

•资料恢复

-备份文档恢复

-数据恢复

•资料校验

•应用恢复

•网络恢复

•应用校验

•正式宣告恢复完成

c）信息系统标准重建流程包括如下项目及过程：

•环境恢复／准备

•系统环境准备

-网络环境

-服务器系统及服务平台

-应用系统平台

•资料恢复

-备份文档恢复

-数据恢复

•资料的回退切换

•资料校验

•网络的回退切换

•网络恢复

•业务功能的切换

•应用校验

•正式宣告恢复完成

•数据安全处理

5.4.4.6应对突发事件组织人员疏散撤离，请参考「人员撤离应急处理操作指引」。

*5.4.5IT服务连续性计划的实施

5.4.5.1流程经理需组织编写已确定的核心系统的《IT服务连续性计划》。

5.4.5.2有关的IT服务连续性计划为重要文件，该类文件的变更应置于变更管理控制之下，并按《文件批签及阅读权限名单》要求进行签署，签署后的文件在『ISO20000运作文件库』中统一存放，按照『文件及记录管理流程』之文件要求进行管控。

5.4.5.3在执行《IT服务连续性计划》时，需做好汇报工作，以便让用户及部门主管了解具体工作的进展情况。

5.4.5.4为保证《IT服务连续性计划》的可行性和有效性，流程经理要定期针对IT服务连续性计划进行培训、评估和改进。

5.4.6IT服务连续性计划的培训、测试、演练

5.4.6.1流程经理要组织对《IT服务连续性计划》进行测试及培训，所有运作需记录到《测试记录》及相关培训记录中。

5.4.6.2流程经理要组织相关人员针对《演练计划》进行演练，所有演练均应纪录到《演练报告》。

5.4.6.3《IT服务连续性计划》的培训应考虑如下内容：

•按《IT服务连续性计划》要求，确认培训的内容、范围、参加人员是否完整；

•相关的培训情况，将记录到相关培训记录中，内容包括：

-培训人员名单及签到情况；

-培训主题及时间安排；

-培训结果。

5.4.6.4《IT服务连续性计划》的测试应考虑如下内容：

•按《IT服务连续性计划》要求，确认计划的内容是否完整；

•按灾难的情况进行测试，试运行以确定计划是否有效；

•相关的测试情况，将记录到《测试记录》中，内容包括

展开阅读全文