浅析金融业运维转型之1510能力建设.docx

资源描述

《浅析金融业运维转型之1510能力建设.docx》由会员分享，可在线阅读，更多相关《浅析金融业运维转型之1510能力建设.docx（2页珍藏版）》请在冰豆网上搜索。

浅析金融业运维转型之1510能力建设.docx

浅析金融业运维转型之1510能力建设

浅析金融业运维转型之“1-5-10”能力建设

近年来，随着金融主机业务逐步下移至开放平台，大型分布式系统的监控运维难度日益增大，且由于部署节点增多、调用链路复杂以及应用容器漂移等多种原因，故障的快速发现、定位及恢复等均面临越来越多的挑战。

在此背景下，为进一步提升故障处理能力，业界提出了“1-5-10”故障处理标准（即1分钟发现、5分钟定位、10分钟恢复），并发展为各家企业实现运维转型的核心目标之一。

本文对标“1-5-10”故障处理标准，结合金融业运维实践，将故障管理拆分为故障识别、故障诊断、故障恢复、回溯验证四个阶段，并就此展开分析研判。

一、故障识别

故障识别重点对应“1分钟发现”环节。

故障识别的基础是监控，而足够多、足够准确、足够全面的监控数据则是有效提升故障识别效率和精度的重要前提。

相较于互联网公司，传统金融机构虽然搭建了众多监控管理平台，但大多是从单个业务或技术层面反映状态，监控方式和标准不一，且由于组织架构复杂，导致各团队很难全面掌握各类信息，乃至造成故障发生时难以决策，而整合数据源、统一数据标准、完善监控覆盖也成为故障识别领域的最大难点。

对此，传统金融机构急需建设全方位的监控图谱，提升监控数据采集、存储、分析一体化能力，实现报警精细化管理。

从广度上，随着分布式跟踪技术的出现，“可观察性”的概念被引入监控运维领域，即通过日志信息、指标数据和链路信息三个方面实现白盒监控（如图1所示）。

图1白盒监控示意

日志信息重点用于记录离散事件，日志质量高低依赖于开发人员的习惯。

实践中，可通过统一标准化的方式来构建日志输出，以有效提升日志的可读性、规范性、准确性、完备性，并通过ELK来实现日志的采集、存储和可视化分析。

指标数据主要指时序数据，重点用于开展聚合分析。

当前，Prometheus是度量监控的利器，逐渐成为度量领域的主流。

链路信息在分布式环境下具有极为重要的作用，而其在采集时应注意尽量降低对应用的入侵，链路追踪系统则可考虑引入zipkin等开源项目来处理。

展开阅读全文