浅析金融业运维转型之1510能力建设.docx
《浅析金融业运维转型之1510能力建设.docx》由会员分享,可在线阅读,更多相关《浅析金融业运维转型之1510能力建设.docx(2页珍藏版)》请在冰豆网上搜索。
浅析金融业运维转型之1510能力建设
浅析金融业运维转型之“1-5-10”能力建设
近年来,随着金融主机业务逐步下移至开放平台,大型分布式系统的监控运维难度日益增大,且由于部署节点增多、调用链路复杂以及应用容器漂移等多种原因,故障的快速发现、定位及恢复等均面临越来越多的挑战。
在此背景下,为进一步提升故障处理能力,业界提出了“1-5-10”故障处理标准(即1分钟发现、5分钟定位、10分钟恢复),并发展为各家企业实现运维转型的核心目标之一。
本文对标“1-5-10”故障处理标准,结合金融业运维实践,将故障管理拆分为故障识别、故障诊断、故障恢复、回溯验证四个阶段,并就此展开分析研判。
一、故障识别
故障识别重点对应“1分钟发现”环节。
故障识别的基础是监控,而足够多、足够准确、足够全面的监控数据则是有效提升故障识别效率和精度的重要前提。
相较于互联网公司,传统金融机构虽然搭建了众多监控管理平台,但大多是从单个业务或技术层面反映状态,监控方式和标准不一,且由于组织架构复杂,导致各团队很难全面掌握各类信息,乃至造成故障发生时难以决策,而整合数据源、统一数据标准、完善监控覆盖也成为故障识别领域的最大难点。
对此,传统金融机构急需建设全方位的监控图谱,提升监控数据采集、存储、分析一体化能力,实现报警精细化管理。
从广度上,随着分布式跟踪技术的出现,“可观察性”的概念被引入监控运维领域,即通过日志信息、指标数据和链路信息三个方面实现白盒监控(如图1所示)。
图1白盒监控示意
日志信息重点用于记录离散事件,日志质量高低依赖于开发人员的习惯。
实践中,可通过统一标准化的方式来构建日志输出,以有效提升日志的可读性、规范性、准确性、完备性,并通过ELK来实现日志的采集、存储和可视化分析。
指标数据主要指时序数据,重点用于开展聚合分析。
当前,Prometheus是度量监控的利器,逐渐成为度量领域的主流。
链路信息在分布式环境下具有极为重要的作用,而其在采集时应注意尽量降低对应用的入侵,链路追踪系统则可考虑引入zipkin等开源项目来处理。