浅析金融业运维转型之1510能力建设.docx

上传人:b****5 文档编号:8514781 上传时间:2023-01-31 格式:DOCX 页数:2 大小:44.62KB
下载 相关 举报
浅析金融业运维转型之1510能力建设.docx_第1页
第1页 / 共2页
浅析金融业运维转型之1510能力建设.docx_第2页
第2页 / 共2页
亲,该文档总共2页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

浅析金融业运维转型之1510能力建设.docx

《浅析金融业运维转型之1510能力建设.docx》由会员分享,可在线阅读,更多相关《浅析金融业运维转型之1510能力建设.docx(2页珍藏版)》请在冰豆网上搜索。

浅析金融业运维转型之1510能力建设.docx

浅析金融业运维转型之1510能力建设

浅析金融业运维转型之“1-5-10”能力建设

近年来,随着金融主机业务逐步下移至开放平台,大型分布式系统的监控运维难度日益增大,且由于部署节点增多、调用链路复杂以及应用容器漂移等多种原因,故障的快速发现、定位及恢复等均面临越来越多的挑战。

在此背景下,为进一步提升故障处理能力,业界提出了“1-5-10”故障处理标准(即1分钟发现、5分钟定位、10分钟恢复),并发展为各家企业实现运维转型的核心目标之一。

本文对标“1-5-10”故障处理标准,结合金融业运维实践,将故障管理拆分为故障识别、故障诊断、故障恢复、回溯验证四个阶段,并就此展开分析研判。

一、故障识别

故障识别重点对应“1分钟发现”环节。

故障识别的基础是监控,而足够多、足够准确、足够全面的监控数据则是有效提升故障识别效率和精度的重要前提。

相较于互联网公司,传统金融机构虽然搭建了众多监控管理平台,但大多是从单个业务或技术层面反映状态,监控方式和标准不一,且由于组织架构复杂,导致各团队很难全面掌握各类信息,乃至造成故障发生时难以决策,而整合数据源、统一数据标准、完善监控覆盖也成为故障识别领域的最大难点。

对此,传统金融机构急需建设全方位的监控图谱,提升监控数据采集、存储、分析一体化能力,实现报警精细化管理。

从广度上,随着分布式跟踪技术的出现,“可观察性”的概念被引入监控运维领域,即通过日志信息、指标数据和链路信息三个方面实现白盒监控(如图1所示)。

图1白盒监控示意

日志信息重点用于记录离散事件,日志质量高低依赖于开发人员的习惯。

实践中,可通过统一标准化的方式来构建日志输出,以有效提升日志的可读性、规范性、准确性、完备性,并通过ELK来实现日志的采集、存储和可视化分析。

指标数据主要指时序数据,重点用于开展聚合分析。

当前,Prometheus是度量监控的利器,逐渐成为度量领域的主流。

链路信息在分布式环境下具有极为重要的作用,而其在采集时应注意尽量降低对应用的入侵,链路追踪系统则可考虑引入zipkin等开源项目来处理。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 考试认证 > IT认证

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1