Service Level Manager 14Word下载.docx
《Service Level Manager 14Word下载.docx》由会员分享,可在线阅读,更多相关《Service Level Manager 14Word下载.docx(18页珍藏版)》请在冰豆网上搜索。
两个QoS和一个SLO,16
3.3.4.示例4:
两个SLO,每个SLO有3个QoS17
4.定义简单SLA步骤19
4.1.定义操作期间19
4.2.创建新的SLA并且确定服务水平遵从性要求19
4.3.定义单个服务水平目标20
4.4.排除期间20
1.SLM概述
什么是服务水平管理?
服务水平协议(SLA)是客户和服务提供商之间的协议,对合同以及客户和服务提供商之间的关系来说,而这份协议双方确认和记录其各自的服务需求非常重要。
服务水平管理(SLM)包括一整套工具以便监控和确保针对内部客户(例如,IT部门向用户部门提供服务)和外部客户的一系列SLA的有效性,服务水平管理任务直观显示为下列的层次结构:
-服务水平管理(SLM)
-服务水平协议(SLA)
-服务水平目标(SLO)
-服务质量(QoS)
服务水平管理(SLM)的基本原则是把服务水平协议(SLA)细分成较小的部分,让您能够轻松简单地建立强大、可扩展和可衡量的协议。
如右图所示,该SLA包含三个服务水平目标(SLO),每个服务水平目标包含一个或多个受约束的服务质量(QoS)。
QoS是SLM中最小的可测量实体,通常是由能够发送QoS的探针提供的检查点值(例如CPU使用率,网络使用率)。
要建立成功的SLM管理体系,我们需要先从数据收集、数据传输、数据存储三个领域入手:
1、数据收集:
由专用于监控和报告违反阈值的软件完成。
启用QoS的探针(例如cdm:
CPU、磁盘和内存监控探针)会在每次检查其目标时生成一条服务质量消息,我们可以对所收集的数据执行各种处理技术,然后在服务水平管理器(SLA软件模块)中浏览QoS数据系列,并在服务水平目标(SLO)中使用.
2、数据传输:
传输机制的底层基础架构是消息总线。
该消息总线基于多平台环境中的高可用性体系结构。
3、数据存储库:
SLM的关键要素之一是数据引擎;
该“引擎”订阅QoS消息并且将消息处理到数据库中。
当前,我们通过ActiveX数据对象(ADO)层支持MicrosoftSQLServer。
数据引擎会根据其配置将已纪录的QoS数据及时处理到服务水平目标和服务水平协议中。
2.
SLM管理实例
基于客户的具体管理要求,SLM管理体系的构建与表现形式会有所不同。
2.1.国内某能源企业实例
如下是国内某个能源企业的科技处对起整个公司业务系统的可用性进行SLM管理实例:
2.2.
安利欧洲公司SLM管理实例:
图一:
业务系统SLM架构
图二:
SLM组成
图三:
关键业务SLA监控
图四:
业务流程SLA监控
3.SLM计算方法
SLM管理体系的建立最关键的难点在于如何计算SLM以满足用户千变万化的管理要求,其中包括如何考虑能提取所有QoS指标、如何计算节假日、如何排除例行关机、如何区分上班高峰与下班低谷等等各种因素,在我们解决方案中则依靠SLA引擎来完成上述工作。
SLA引擎的主要任务是基于服务水平管理器中完成的不同SLA设置,对SLA服务水平协议遵从性进行计算,这些计算作业能够自动启动,并且根据sla_engine用户界面中指定的排程运行,主要的遵从计算将涉及如下概念:
3.1.遵从性百分比定义
将遵从百分比定义为时间百分比,即应将QoS(如:
受操作时段和阈值限制)在遵从期间视为遵从。
在遵从期间之内每个样本由data_engine检查并得出结果:
失败或成功。
该结果与用户定义的预期遵从百分比进行比较。
考虑由图例表示的数据。
红线表示阈值,绿线表示平均值,蓝线表示实际示例值。
在操作期间内的多少个示例为以上阈值设置,由于零个样本在操作期间内违反阈值线,因此实行我们100%的遵从要求。
违反阈值的5个示例是在遵从性期间以外(如周一到周一,操作期间的每个工作日08:
00到17:
00)。
我们假定在操作期间内的样本总数是129,而9个样本违反阈值。
这表示6.98%的样本在遵从之外(9*100/129)。
如果服务水平协议要求98.50%(或更高)的遵从且在该SLA中定义的唯一数据是以上数据,由于当前的遵从百分比是100%-6.98%=93.02%,那么就会违反我们对SLA的要求。
3.2.定义计算条款和条件
如前所述,一个SLA可以包括一个或多个SLO,每一个SLO包含一个或多个QoS约束。
在每个QoS中计算遵从且转发到SLO。
SLO处理从基础QoS接收到的遵从数据,进行计算并将结果转发给SLA。
SLA处理从基础SLO接收到的遵从数据,并计算遵从百分比总数。
3.2.1.QoS的计算条款和条件
QoS反映探针测量的数据系列。
遵从百分比针对每个QoS进行计算,结果以SLO表示。
QoS的遵从百分比基于下列参数设置进行计算:
Ø
阈值:
您为每个QoS定义阈值,与从探针接收到的数据系列中的每个示例进行比较。
1000中的972个示例值等于或好于指定的阈值,即该QoS的97.2%遵从。
操作期间:
定义应测量遵从百分比的时段(例如周一到周五从08:
00–17:
在该时期外的数据系列不影响遵从百分比。
计算方法:
在此您可以在不同的计算方法之间选择,确定计算QoS遵从百分比的方式:
✓默认值:
基于操作期间接收到的所有示例的计算,不包括缺少的示例。
或者选择
✓一整套可配置的自定义的定义公式。
当前可用公式如下:
◆所有示例的平均值
◆满足约束的示例数
◆所有示例的中值
3.2.2.SLO的计算条款和条件
SLO从关联的QoS接收遵从计算。
遵从百分比针对每个SLO进行计算,结果以SLA表示。
排除期间:
您可以指定时期,在计算SLO的遵从时,不会发生。
例如,由于维护而计划关闭监控系统的时期等。
也即在计算遵从时,该排除期间内从QoS接收到的遵从数据将不会计算。
计算方法:
在此您可以在不同的计算方法之间选择,确定计算SLO遵从百分比的方式。
您可以在两种不同类型的计算方法中选择,即公式或配置文件:
✓公式法:
在此可以基于QoS的输入选择数学公式来计算遵从百分比,如
∙平均:
计算QoS输入的平均值。
∙最佳:
查找最佳结果的QoS并选择该结果。
∙连续:
总结每个QoS的100%和实现的遵从之间的差异,然后从100%提取。
SLO从70%和90%遵从的两个QoS接收遵从计算,则计算遵从公式为100%-((100%-70%)+(100%-90%)):
60%。
∙权重:
平衡不同QoS重要性的可能性
∙最差:
查找最差结果的QoS并选择该结果。
✓配置文件法:
这是一整套可配置的自定义的定义公式,当前可用的是:
∙AND:
所有QoS的所有示例的值都已AND过,这样就会有一个遵从值。
AND表示所有QoS的所有示例值必须同时等于或好于要遵从的阈值。
∙OR:
所有QoS的所有示例的值都已OR过,这样就会有一个遵从值。
OR表示至少一个示例值必须等于或好于要遵从的阈值。
3.2.3.SLA的计算条款和条件
我们的计算方法是SLA从关联的SLO接收遵从计算,并基于三个不同参数计算遵从百分比总数:
✓操作期间:
✓权重:
平衡不同SLO重要性的可能性。
✓计算方法:
在此您可以基于SLO的输入选择数学公式来计算遵从百分比:
o平均:
计算SLO输入的平均值。
o最佳:
查找最佳结果的SLO并选择该结果。
o连续:
总结每个SLO的100%和实现的遵从之间的差异,然后从100%提取。
例如SLA从70%和80%遵从的两个SLO接收遵从计算则公式为:
100%-((100%-70%)+(100%-80%)):
50%。
o权重:
启用平衡不同SLO重要性的可能性。
o最差:
3.2.4.计算总结
下图是是对我们方案所用SLA计算的一个摘要
3.2.5.
多系列计算的定义
在定义SLO的计算设置时,我们可以选择多系列计算配置文件。
当前支持的配置文件是“或者(or)”如果QoS约束之一等于或好于阈值,则遵从;
“与(and)”如果所有QoS约束等于或好于阈值,则遵从。
OR示例:
OR-至少一个数据系列必须等于或好于预期值(该示例中的第二个),在以上图表中已经实现,除标记为红色的时期之外。
AND示例:
AND-两个数据系列都必须等于或好于预期值(该示例中的第二个):
3.3.计算示例
示例1:
一个QoS和一个SLO
例子2:
两个QoS和一个SLO
例子3:
示例4:
两个SLO,每个SLO有3个QoS
在本页底部的图显示两个SLO的SLA,每个SLO有三个QoS约束。
假设:
■SLO1:
根据QoS1、2和3计算遵从百分比,使用“最差”计算方法使遵
从百分比达到70%。
■SLO2:
根据QoS4、5和6计算遵从百分比,使用“平均值”计算方法使
遵从百分比达到90%。
图旁边的表显示使用SLA的不同计算方法的SLA遵从性百分比总数。
该表显示选择SLA的不同计算方法,以上示例的SLA遵从百分比:
计算方法
实现的遵
从
解释
平均
80%
两个SLO的平均值(70%+90%)/2:
最佳
90%
两个SLO的最佳值(70%和90%):
最差
70%
两个SLO的最差值(70%和90%):
连续
60%
每个SLO的100%和已实现遵从性之间的差异要从
100%中总结和提取:
100%-((100%-70%)+(100%
-90%)):
60%。
权重
82%
假定SLO1和SLO2之间的权重分发设置为SLA的
40/60:
(70%*40/100)+(90%*60/100)=82%。
4.建设SLA简单步骤
实施一个完整的SLM管理体系是一项庞大的、复杂的系统工程,需要管理人员、业务人员、IT人员的共同参与和密切配合,我们从管理最佳实践出发,简单描述一个典型的SLA构建所涉及的关键步骤:
■定义操作期间。
■创建新的SLA并定义遵从要求和测量期间。
■定义构成协议的服务水平目标。
■添加说明和警报。
■排除的期间。
4.1.定义操作期间
如果没有定义期间,将默认为每周7天每天24小时提供服务,但相比而言,多数的组织的情况更加复杂。
例如,当不必提供服务时,可能有定期的排定维护窗口,或者仅在营业时间需要某些服务。
您在适当的情况下可以为多个不同服务定义多个时期。
4.2.创建新的SLA并且确定服务水平遵从性要求
在该时期内将对服务水平进行评估,而您承诺的遵从量(评估为百分比),即如果您打算定义可用性为99.9%的服务水平,那么将在哪个时期对其进行评估?
您可以将其定义为每日服务水平,在这种情况下您的SLA遵从将在每天的基础上被评估,否则可能按照每周或每月对其进行评估。
在这种情况下,我们就可以选择每周服务水平,始于周一并且结束于周日,我们承诺99.9%的遵从。
4.3.定义单个服务水平目标
每个服务水平协议都包含一个或多个服务水平目标。
每个目标都是一个数据点,我们可以将其评估并计算到报告中。
例如,我们选定“网络连接响应”小于或等于100秒,并且已经选择该目标应当在我们于第1步中定义的“业务时间”时期进行评估。
我们还可以手工对每个目标设置“权重”,这样如果我们要满足多个目标,就可以让产品或者应用平均权重(自动选中),或者让某个目标的权重高于其他目标。
在这种情况下,我们将仅选择单个目标。
对服务水平协议的定义现在已经完成。
4.4.排除期间
SLA设置现在已完成。
但是,如果有事件不在控制范围内,即我们想从SLA计算中“排除”,会发生什么情况?
此类情况的示例:
您已经与您的客户达成协议,将会有一次性的维护时段以便应用一些迫切需要的服务包。
或者,您所在的大厦发生一次完全的断电,您同意不会将其计入SLA计算,或者是一次公司假期。
我们的解决方案中,只需输入我们希望排除的时段,并对此次排除添加“注释”。
通过选中“官方注释”框,该注释将再次出现在每个人都将看到的报告上。
该功能非常有用,因为这意味着我们不必再返回并手工计算数据。
例如,我们已经与我们的Web托管提供商就在SQLServer数据库上执行重要的维护以防止其受到最新的因特网蠕虫病毒的感染而达成协议。
我们已经一致同意执行一次2小时的停机而不将其计入SLA量度。