企业AIOps智能运维方案白皮书.docx

上传人:wj 文档编号:105191 上传时间:2022-10-03 格式:DOCX 页数:43 大小:935.97KB
下载 相关 举报
企业AIOps智能运维方案白皮书.docx_第1页
第1页 / 共43页
企业AIOps智能运维方案白皮书.docx_第2页
第2页 / 共43页
企业AIOps智能运维方案白皮书.docx_第3页
第3页 / 共43页
企业AIOps智能运维方案白皮书.docx_第4页
第4页 / 共43页
企业AIOps智能运维方案白皮书.docx_第5页
第5页 / 共43页
点击查看更多>>
下载资源
资源描述

企业AIOps智能运维方案白皮书.docx

《企业AIOps智能运维方案白皮书.docx》由会员分享,可在线阅读,更多相关《企业AIOps智能运维方案白皮书.docx(43页珍藏版)》请在冰豆网上搜索。

企业AIOps智能运维方案白皮书.docx

企业AIOps智能运维方案白皮书

43

目录

背景介绍

4

组织单位

4

编写成员

5

发起人

5

顾问

5

编审成员

5

本版本核心编写成员

6

1、整体介绍

8

2、AIOps目标

10

3、AIOps能力框架

11

4、AIOps平台能力体系

14

5、AIOps团队角色

17

5.1运维工程师

17

5.2运维开发工程师

17

5.3运维AI工程师

17

6、AIOps常见应用场景

19

6.1 效率提升方向

21

6.1.1智能变更

22

6.1.2智能问答

22

6.1.3智能决策

23

6.1.4容量预测

23

6.2 质量保障方向

24

6.2.1异常检测

24

6.2.2故障诊断

25

6.2.3故障预测

25

6.2.4故障自愈

26

6.3成本管理方向

26

6.3.1成本优化

26

6.3.2资源优化 27

6.3.3容量规划 28

6.3.4性能优化 28

7、AIOps实施及关键技术 29

7.1数据采集 29

7.2数据处理 30

7.3数据存储 30

7.4离线和在线计算 30

7.5面向AIOps的算法技术 30

说明:

31

附录:

案例 33

案例1:

海量时间序列异常检测的技术方案 33

1、案例陈述 33

2、海量时间序列异常检测的常见问题与解决方案 33

3、总结 34

案例2:

金融场景下的根源告警分析 35

1、案例概述 35

2、根源告警分析处理流程 35

3、根源告警分析处理方法 37

4、总结 39

案例3:

单机房故障自愈压缩 40

1、案例概述 40

2、单机房故障止损流程 40

3、单机房故障自愈的常见问题和解决方案 41

4、单机房故障自愈的架构 43

5、总结 44

背景介绍

AIOps即智能运维,其目标是,基于已有的运维数据(日志、监控信息、应用信息等),通过机器学习的方式来进一步解决自动化运维所未能解决的问题,提高系统的预判能力、稳定性、降低IT成本,并提高企业的产品竞争力。

Gartner在2016年时便提出了AIOps的概念,并预测到2020年,AIOps的采用率将会达到50%。

AIOps目前在国内外领先的互联网企业开始被逐渐应用,也是近年来国内外被普遍看好的新技术。

为了让国内众多互联网中小企业、特别是传统企业可以共享、复用国内外顶尖互联网的AIOps技术和能力,并能够更快捷的进行AIOps相关产品选型,因此开展国内外第一个AIOps白皮书及相关标准制定工作。

AIOps标准将分成两大类,分别适用于企业内部的AIOps能力建设与评估、及企业购置相关AIOps产品的认证评估,使得AI真正落地应用于运维,造福于企业。

1、整体介绍

AIOps,即ArtificialIntelligenceforITOperations,智能运维,将人工智能应用于运维领域,基于已有的运维数据(日志、监控信息、应用信息等),通过机器学习的方式来进一步解决自动化运维没办法解决的问题。

早期的运维工作大部分是由运维人员手工完成的,这被称为手工运维或人肉运维。

这种落后的生产方式,在互联网业务快速扩张、人力成本高企的时代,难以维系。

自动化运维因此应运而生。

其基于用可被自动触发的、预定义规则的脚本,来执行常见的、重复性的运维工作,从而减少人力成本,提高运维效率。

总的来说,自动化运维可以认为是一种基于行业领域知识和运维场景领域知识的专家系统。

随着整个互联网业务急剧膨胀,以及服务类型的复杂多样,“基于人为指定规则”的专家系统逐渐变得力不从心。

自动化运维的不足,日益凸显。

DevOps的出现,部分解决了上述问题。

其强调从价值交付的全局视角,端到端打通软件生命周期,建立基于微服务的单件流式的流水线。

但DevOps更强调横向融合及打通,较低阶段的DevOps无力改变“基于认为指定规则”的既定事实。

AIOps是DevOps在运维(技术运营)侧的高阶实现,两者并不冲突。

此部分可具体参考《研发运营一体化能力成熟度模型》。

AIOps不依赖于人为指定规则,主张由机器学习算法自动地从海量运维数据(包括事件本身以及运维人员的人工处理日志)中不断地学习,不断地提炼并总结规则。

AIOps在自动化运维的基础上,增加了一个基于机器学习的大脑,指挥监测系统采集大脑决策所需的数据,做出分析、决策,并指挥自动化脚本去执行大脑的决策,从而达到运维系统的整体目标。

AIOps基于自动化运维,将AI和运维很好的结合起来,其需要三方面的知识:

1)行业领域知识:

应用的行业,如互联网、金融、电信、物流、能源电力、工业制造和智慧城市等,并熟悉生产实践中的难题;

2)运维场景领域知识:

如指标监控、异常检测、故障发现、故障止损、成本优化、容量规划和性能优化等;

3)机器学习:

把实际问题转化为算法问题,常用算法包括如聚类、决策树、卷积神经网络等。

AIOps和DevOps两者并不冲突,企业级DevOps涵括包括运维在内的整个软件生命周期,AIOps是企业级DevOps在运维(技术运营)侧的高阶实现。

AIOps是运维的发展必然,是自动化运维的下一个发展阶段。

Gartner相关报告预测

AIOps的全球部署率将从2017年的10%增加到2020年的50%。

其应用行业,除了互联网以外,还包括高性能计算、电信、金融、电力网络、物联网、医疗网络和设备、航空航天、军用设备及网络等领域。

本白皮书综合国内领先的互联网公司、金融企业及AIOps解决方案提供方的相关经验,给出了一种企业级AIOps的AIOps理论方法和生产实践,希望能帮助贵司快速、成功实施

AIOps。

本白皮书聚焦AI应用到Ops领域,不涉及自动化运维相关内容。

2、AIOps目标

AIOps,通俗的讲,是对规则的AI化,即将人工总结运维规则的过程变为自动学习的过程。

具体而言,是对我们平时运维工作中长时间积累形成的自动化运维和监控等能力,将其规则配置部分,进行自学习的“去规则化”改造,最终达到终极目标:

“有AI调度中枢管理的,质量、成本、效率三者兼顾的无人值守运维,力争所运营系统的综合收益最大化”。

AIOps的目标是,利用大数据、机器学习和其他分析技术,通过预防预测、个性化和动态分析,直接和间接增强IT业务的相关技术能力,实现所维护产品或服务的更高质量、合理成本及高效支撑。

3、AIOps能力框架

AIOps的建设可以先由无到局部单点探索、再到单点能力完善,形成解决某个局部问题的运维AI“学件”,再由多个具有AI能力的单运维能力点组合成一个智能运维流程。

AIOps能力框架基于如下AIOps能力分级。

AIOps能力分级可具体可描述为5级(图-2):

1)开始尝试应用AI能力,还无较成熟单点应用

2)具备单场景的AI运维能力,可以初步形成供内部使用的学件

3)有由多个单场景AI运维模块串联起来的流程化AI运维能力,可以对外提供可靠的运维AI学件

4)主要运维场景均已实现流程化免干预AI运维能力,可以对外提供可靠的AIOps服务。

5)有核心中枢AI,可以在成本、质量、效率间从容调整,达到业务不同生命周期对三个方面不同的指标要求,可实现多目标下的最优或按需最优。

图3-1AIOps能力分级

学件,亦称AI运维组件,类似程序中的API或公共库,但API及公共库不含具体业务数据,只是某种算法,而AI运维组件(或称学件),则是在类似API的基础上,兼具对某个运维场景智能化解决的“记忆”能力,将处理这个场景的智能规则保存在了这个组件中。

这个智能规则是在一定量的数据下学习而来的,且具有“可重用”,“可演进”,“可了解”的特性,既可共享由专家利用数据训练的算法,又可保护数据和隐私。

“学件”(Learnware)一词由南京大学周志华老师原创,学件(Learnware)=模型

(model)+规约(specification),具有可重用、可演进、可了解的特性。

很多人可能在自己的应用中已经建立了类似的模型,他们也很愿意找到一个地方把这些

模型分享出去。

这样一来,一个新用户想要应用,也许不用自己去建立一个,而是先到“学件”市场上找一找有没有合适的,拿来直接或修改后使用。

学件基于专家基础上建立,所以比较容易得到专家级的结果,又因为共享出来的是模型,所以避免了数据泄露和隐私泄露的问题。

基于上述AIOps能力分级,对应的AIOps能力框架如下。

图3-2AIOps能力框架

相关关键运维场景的AIOps演进如下。

2

图3-3关键运维场景的AIOps演讲

2

·“可重用”的特性使得能够获取大量不同的样本;

·“可演进”的特性使得可以适应环境的变化;

·“可了解”的特性使得能有效地了解模型的能力。

4、AIOps平台能力体系

AIOps工作平台能力体系主要功能是为AIOps的实际场景建设落地而提供功能的工具或者产品平台,其主要目的是降低AIOps的开发人员成本,提升开发效率,规范工作交付质量。

AIOps平台功能与一般的机器学习(或者数据挖掘)平台极为类似,此类产品国外的比如

Google的AutoML(

图4-1AIOps平台功能模块

图4-2AI建模服务能力

如上图4-1、图4-2,具体的工具或者产品应具备以下功能或模块:

1)交互式建模功能:

该功能支持用户在平台上交互式的进行模型的开发调试,通过简单的方法配置完成模型的构建。

2)算法库:

用户可以在算法库中找到常见常用的算法直接使用,算法按照用途分类,以供用户方便的使用。

3)样本库:

样本库用于管理用户的样本数据,供用户建模时使用,支持样本的增删改查等基本操作。

4)数据准备:

该功能支持用户对数据进行相关的预处理操作,包括关联、合并、分支路由、过滤等。

5)灵活的计算逻辑表达:

在基本常用的节点功能之外,用户还需要自由的表达一些计算逻辑,该需求主要是通过让用户写代码或表达式来支持。

6)可扩展的底层框架支持:

平台本身要能够灵活的支持和兼容多种算法框架引擎,如

Spark、TensorFlow等,以满足不同的场景以及用户的需求。

7)数据分析探索:

该功能是让用户能够方便快捷地了解认识自己的数据,用户只有基于对数据充分的认识与理解,才能很好的完成模型的构建。

8)模型评估:

对模型的效果进行评估的功能,用户需要依据评估的结论对模型进行调整。

9)参数以及算法搜索:

该功能能够自动快速的帮助用户搜索算法的参数,对比不同的算法,帮助用户选择合适的算法以及参数,辅助用户建模。

10)场景模型:

平台针对特定场景沉淀的解决方案,这些场景都是通用常见的,用户可以借鉴参考相关的解决

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 人文社科 > 法律资料

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1