智能运维及反洗钱运维建设的思考.docx

上传人:b****5 文档编号:7644383 上传时间:2023-01-25 格式:DOCX 页数:5 大小:432.99KB
下载 相关 举报
智能运维及反洗钱运维建设的思考.docx_第1页
第1页 / 共5页
智能运维及反洗钱运维建设的思考.docx_第2页
第2页 / 共5页
智能运维及反洗钱运维建设的思考.docx_第3页
第3页 / 共5页
智能运维及反洗钱运维建设的思考.docx_第4页
第4页 / 共5页
智能运维及反洗钱运维建设的思考.docx_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

智能运维及反洗钱运维建设的思考.docx

《智能运维及反洗钱运维建设的思考.docx》由会员分享,可在线阅读,更多相关《智能运维及反洗钱运维建设的思考.docx(5页珍藏版)》请在冰豆网上搜索。

智能运维及反洗钱运维建设的思考.docx

智能运维及反洗钱运维建设的思考

智能运维及反洗钱运维建设的思考

FinTech时代,全球范围内的社会形态、商业生态和客户行

为发生深刻变化,科技赋能效应日益明显。

IT系统已经从支撑

工具逐步演进为核心竞争优势。

如何借助以云计算、大数据等为代表的新兴技术夯实运维基础;如何打造高效能、高可用、低风险运维系统,为业务提供持续支撑;如何保证信息系统安全稳定运行,优化IT资源环境的性能?

这些都是IT运维管理所面临的

新问题。

面对不断涌现的运维新挑战,业界认为智能化将是运维管理的发展方向。

AIOps运维概念的提出

近年来,运维管理经历了从手工运维到ITOM(IT运维管理),

进而逐步向AIOps(IT智能运维)迈进的过程,体现了运维技术从数字化、自动化到智能化的发展趋势。

业界提出的AIOps运维概

念,期望在ITOM基础上,运用机器学习与人工智能技术,从系统的行为、事件、故障和趋势等维度,对IT系统运行状态进行深度监控、趋势分析、智能决策,从而提升运维管理能力,为IT运维提供

全新的管理思路。

AIOps典型场景包括但不限于如下四方面。

1.资源优化。

资源优化包括阈值动态调整、资源与性能优化等运维场景。

传统的运维管理平台一般采用静态阈值。

然而,静态阈值往往是根据人的经验设定。

阈值动态调整通过自主学习系统运行情况,结合运维人员的经验,自动调整各阈值。

资源与性能优化通过全面监测系统运行情况,运用智能算法挖掘系统运行规律,定位性能瓶颈,利用智能调度算法实现资源合理分配,最大化提高资源利用率,提升系统性能。

2.智能预测。

智能预测包括故障预测、安全态势感知等运维场景。

故障预测利用回归分析、神经网络等技术,分析设备运行情况的变化趋势,提前诊断故障,对潜在风险进行预警,避免更大损失。

安全态势感知通过实时监控、特征提取等手段,构建安全分析模型,识别和预测可能的安全隐患,提前研判未来安全态势,有效防范和化解安全风险。

3.分析诊断。

分析诊断包括异常分析、故障诊断等运维场景。

随着系统规模不断变大、复杂度不断提高,运维数据量越来越大,运维人员对海量数据进行分析并诊断故障原因变得越来越困难。

异常分析运用关联、聚类等技术规约同类异常,减少无效告警,结合人工专家经验,分析不同告警间的相关性,快速诊断故障。

4.智能决策。

智能决策包括决策辅助、故障自愈等运维场景。

AIOps具备将数据转换为知识、对知识分类组织和进一步挖掘衍生知识的能力,并形成知识库。

运维人员遇到系统问题时,可检索知识库,寻找解决方案。

此外,智能执行根据分析诊断的结果,在没有人工干预情况下独立完成故障感知、分析、决策、执行、评估的全流程,实现回滚、重启和分流等操作,以使系统恢复正常状态,实现故障自愈。

运维管理系统建设的思考

1.建设现状。

随着中国反洗钱监测分析二代系统建设不断推进,中心的信息技术架构也正逐步由以往的“集中式架构”向“分布式架构”转型。

信息系统复杂性和分布性的增加,促使运维部门通过引入管理平台辅助运维管理。

经过一年多时间的定制开发,运维管理平台已建成。

通过整合资源、固化流程、细化分工,全方位多角度实时展示系统运行状态,使运维数据更加完整,系统状态更加透明,运维工作更加有序,从而提高运维工作效率,提升运维人员管理能力,节省管理成本,提高运维综合质量。

该平台具备以下主要功能。

(1)数据采集。

运维数据采集按逻辑可以分为本地采集协议栈和外部接口。

本地采集协议栈又分“单向采集”和“双向监控”两种模式。

其中,单向采集是指通过SNM等通用协议收集被管对象的运维信息,这一方式仅采集数据,不操作被管对象;双向监控则通过API或者轻量级代理,实现信息采集和运维操作的双向数据流动。

外部接口包括灾备运维接口和第三方平台接口等,对接灾备站点和其他第三方平台。

(2)运维管理。

运维管理按实际需要包括应用监控、大数据平台监控和云平台监控。

应用监控从业务视角出发,建立子系统业务拓扑图。

每个业务拓扑图从业务、服务、IT基础设施不同层面,立体展现子系统所有软硬件的运行状态。

当出现异常时,相应的业务拓扑图将高亮显示告警或故障信息。

云和大数据平台监控提供实时的集群概况,例如各物理节点和虚拟节点的运行状况,集群资源使用情况等,提供报告和诊断工具,帮助优化性能和提高资源利用率。

(3)运维可视化。

运维可视化向管理员展示运行概览、网络拓扑、应用运行情况等信息,提供配置管理、拓扑管理、安全管理、灾备环境管理等运维管理功能,打造统一运维工作平台。

在运维管理方面,向管理员提供配置调整、拓扑重构、告警阈值重置等管理功能,协助管理员完成定期巡检、灾备系统管理等运维职能。

在展示与报表方面,以曲线图、拓扑图、数据表、仪表图等形式展示系统实时或历史运行状态、关键性能、拓扑结构、告警事件等信息,便于管理员直观、多角度了解整个被管系统的运行状态。

同时,提供报表数据,可根据管理员要求定制个性化报表;提供报表数据分析工具,实现对历史数据的按需分析能力,帮助管理员掌握系统运行规律。

(4)平台管理。

平台管理包括平台相关的管理员管理、安全管理、审计管理等。

运维管理平台梳理运维管理核心流程,将其规范化、标准化,明确定义各流程的运维步骤、流程间的关系,以及各运维人员角色定位与责权分配,从而高效解决运维相关问题,提升运维效率。

2.近期建设目标。

现有运维管理平台通过自动化提升了运维效率,但仍未能摆脱运维工作对运维人员经验的依赖。

原因在于运维

管理平台往往缺乏分析能力,对采集到的运维信息未能进一步加工,更无法将数据进行知识化提升。

为此,需要在现有运维管理平台基础上,进一步建设智能运维AIOps,提高运维系统智能优化、智能诊断、智能预测和智能决策的综合能力,从而提升运维效率。

经分析认为,可以分三个阶段实现我中心AIOps系统建设,具体如图1所示。

第一阶段为运维管理平台建设阶段,已基本完成。

建设并完善运维管理系统,实现对反洗钱二代系统所有设备和应用的实时监控,全面取代手工操作。

第二阶段为运维大数据分析阶段,作为近期目标。

在上述基础上,建设运维大数据分析平台,引入分析手段,将日常运维从被动的运行状态监控向主动的异常现象分析转变,运维建设重心进一步转向面向用户感知的IT运维服务,为智能运维打下坚实基础。

第三阶段为智能运维阶段,是最终目

标。

建成具备反洗钱运维管理特色的AIOps系统

图1AIOps系统建设步骤图

为实现上述目标,规划从运维大数据平台建设、运维数据预处理、异常检测等四方面,推进智能运维建设。

(1)运维大数据。

运维管理平台一般采用较快的频率采集数据方式,以确保故障告警的时效性和监控指标种类的全面性。

因此,随着时间的推移,运行数据和日志记录将迅速形成运维大数据。

同时,有调查表明运维历史数据使用率极低,大量的宝贵运维知识被淹没在海量数据中,得不到有效利用。

主要有两方面原因:

一方面,传统运维管理平台无法有效支撑大数据级数据的并行计算和分析处理;另一方面,为保证查询统计效率,传统的运维管理平台往往会采用压缩策略,但丢弃部分很可能含有重要的运维知识。

大数据技术可以实现海量数据全局搜索,能有效帮助运维人员更便捷地分析数据,从而支撑今后运维分析工作的开展。

(2)数据预处理。

收集到运维事件信息后,在数据处理层进一步对各类业务感知、性能、告警、配置数据集中进行预处理,包括:

规范数据格式;根据需要对数据进行拆分、去重;验证数据正确性;替换无效数据,补全缺失数据,保证数据完整性;对各类运维数据字段进行统一格式转换等。

预处理为后续数据挖掘模型训练和大数据分析提供了数据准备。

(3)异常检测。

系统运行过程中发生的故障,大部分为渐发性故障。

即在故障发生前的一段时间内,与其相关联的服务、设备会出现指标恶化、服务质量下降等现象。

针对此类现象,通过对历史数据和实时流量数据的分析,综合报送机构服务响应时间、数据处理入库时间等多维度感知指标,汇聚成一个整体,既进行宏观分析也进行关联分析、时序分析等微观分析,从而实时、自动、准确地从监控数据中发现异常,为后续的诊断、自愈提供基础。

(4)故障诊断推荐。

构建业务、子系统数据流转神经网络,通过深浅知识、基因比对等算法构建出故障根因树的超集。

在超集上进行每边的联动分析,对这棵树进行剪枝,最终形成故障之间的联动关系,即故障失效传播链。

基于知识库分析故障失效传播链,将得出可能的故障点概率与处理推荐方案反馈给运维人员,以作为故障处理与恢复的参考。

后期,当根因树被训练的比较准确,故障经验库完善后,便可依据准确的报警,匹配根因树与经验库,实现故障的定位与自动修复。

3.远期AIOps目标。

第二阶段建设完成后,运维系统将“初具智慧”。

进一步通过在深度监控、趋势分析、故障定位、智能决策等方向发力,使得系统更“聪明”,形成如图2所示的最终AIOps架构。

图2AIOps架构设计图

(1)深度监控。

通过大数据和人工智能技术分析运维数据,发掘更多运维人员尚未觉察的潜在系统性能和安全问题。

通过多维度深度分析,结合动态指标阈值,提供更精准的故障预警;实时感知网络链路状态,合理规划网络负载,识别和预警网络拥堵事件,分析其原因并自主分流以疏解拥堵;能够根据系统运行情况,智能发现性能优化策略,自主调配,提供智能优化服务;评估系统安全态势,识别并确认安全风险,预测未来安全威胁并预警,帮助运维管理人员提前进行安全加固。

2)趋势分析。

运维工作不仅关注系统当前运行状态,运维人

员更希望能及时了解未来一段时间的系统运行趋势,包括容量预

测、性能预测等,提前获知可能发生的故障,事先进行设备检修或

部件更换,从而尽可能避免故障发生。

运行趋势分析借助大数据和

机器学习能力,结合运维人员的有效经验,分析得出故障、性能以

及关键指标间的关系与规律,使用计算模型对目标场景实现模拟推演,量化并预测系统的故障几率和趋势,降低业务运行风险。

(3)故障定位。

将告警信息按照时间分片算法进行分类分组,通过对历史和实时数据的挖掘与分析,结合处置已发生故障形成的经验知识库和模型,关联不同的告警和事件,形成告警关联关系网,从而将运维信息由平面变为立体。

运维人员通过推导告警关联网络路径能更加快速、直观的定位问题,避免因同一故障导致的告警风暴,从而快速定位故障根因。

(4)决策支持。

在深度运维监控、运行趋势分析和故障根因定位基础上,描绘系统及故障画像,立体式描绘系统状态和故障细节,辅助运维人员进行IT决策。

除辅助运维决策外,故障自愈能力甚至可以实现自动“解决故障”或“恢复系统”。

针对特定的运维场景,运用基于已有的故障判断模型形成的故障知识库,自主评估故障类型和影响范围,并根据评估结果从故障知识库中找到相应的最佳解决方案,甚至生成并实施相应的执行计划,从而对于版本回退、流量调度、灾备切换等操作流程相对较固定的运维场景,实现排除故障并使系统恢复正常的自愈效果。

总结

随着业务规模逐步扩大,应用系统日益复杂,依赖关系不断增多,日常维护、故障处理、趋势预测等日渐成为运维人员面临的难题。

智能运维是解开这些难题的技术手段。

然而,智能运维并不是一蹴而就的,需经历一个长期的、循序渐进的建设过程。

这要求我们持续跟踪国内外智能运维发展前沿动态,提前制定规划,做好技术储备及人才培养,早日实现AIOps落地,提升我中心运维管理整体水平。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 农林牧渔 > 林学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1