智能化运维之IT系统统一监控预研报告.docx
《智能化运维之IT系统统一监控预研报告.docx》由会员分享,可在线阅读,更多相关《智能化运维之IT系统统一监控预研报告.docx(7页珍藏版)》请在冰豆网上搜索。
智能化运维之IT系统统一监控预研报告
IT系通通一监控预研报告
目
录
IT系通通一监控预研报告...................................
错误!
不决义书签。
1
前言.................................................
错误!
不决义书签。
2
平台建设的目标.......................................
错误!
不决义书签。
成立健全公司IT运行监测指标系统.....................
错误!
不决义书签。
完美公司业务监测指标系统,保障业务连续性
............
错误!
不决义书签。
管理业务系统容量...................................
错误!
不决义书签。
3
平台架构.............................................
错误!
不决义书签。
3.
1平台技术架构......................................
错误!
不决义书签。
采集层...........................................
错误!
不决义书签。
办理层...........................................
错误!
不决义书签。
显现层...........................................
错误!
不决义书签。
3.2平台功能架构........................................
错误!
不决义书签。
4
对新核心系统建设的要求...............................
错误!
不决义书签。
4.1规范系统日记输出....................................
错误!
不决义书签。
4.3
供给服务连续可用性监控方法..........................
错误!
不决义书签。
5
结论.................................................
错误!
不决义书签。
1前言
跟着信息系统规模连续扩大,业务应用的不停增添,服务用户对象的日趋增加,IT运维管理人员渐渐面对着三大难题:
(1)设施和业务种类众多,各种资料信息分别,致使位于一线的IT运维监控人员感知故障的速度晚于信息系统的使用用户,且故障发生后缺乏对信息系统的整体把控;尔后台管理人员也常常由于信息系统性能数据和故障数据的贫乏而缺乏对系统运行健康度的认识。
(2)核心计房可能散布于多个地址,部署范围宽泛,设施繁琐,关于大量最网络设施、主机服务器、应用系统没有一个一致的监控平台,不可以拟订一致的故障预警管理策略,故障预警效率低,业务恢复时间慢;
(3)对重点核心业务系统的运行健康程度缺乏评估手段和预警举措,只好被动等候问题发生,没法提早采纳技术手段和管理手段躲避问题。
在此背景下,总分公司一线运维人员数目多可是经验不足,后台运维工程师经验丰富可是数目少,这些矛盾促进我司在新系统建设时需同步建设一套一体化
的IT运维监控和服务预警平台,辅助以自动化的手段达成信息系统的监测和保护。
2平台建设的目标
2.1成立健全公司IT运行监测指标系统
第一,平台的主要目标是加大对公司内部各遗留及专有监控系统的整协力
度,提高IT运控中心对公司内其余分支机构IT系统管理、检测和把控能力,成立并完美IT系统监控、IT运行事件响应、IT系统故障办理、IT健康度报告、IT运行问题追踪和反应体制,引人自动化IT运维管理工具,从而在公司内部成立健全运行管理控制能力,实现IT健康度和业务连续性治理。
在此基础上,进一步优化监控策略,实现对设施及服务项全面、细粒度的监测,预警和管理,主要包含以下方面:
(1)打造多平台环境下安全稳固髙效的检测代理及检测工具;
(2)在实现对各种业务系统、硬件和网络设施、机房环境等及时检测的基础上,完美对新核心系统的全流程监控,依据性能数据进行预警,并将性能数据和故障数据引入事件管理平台进行后续治理,以可视化的方式向运维人员供给一览式的IT服务健康状况视图;
(3)建立集成监控平台,对平台的检测插件、检测体制、预警算法、视图显现等监控资源进行一致管理,实现大屏集中式告警,便于后台管理人员直观地看到系统整体健康程度;经过视图的灵巧组合能够迅速定位故障点,联合知识库缩短办理时间。
所以,IT运维自动化是一组将静态的设施构造转变为依据IT服务需求动向弹性响应的策略,目的就是实现IT运维的质量,降低成本。
2.2完美公司业务监测指标系统,保障业务连续性
跟着公司信息化的发展,IT技术已经从业务支持逐渐走向与业务的交融,
并成为公司稳重营运和发展的支柱。
公司内部好多业务流程都已经在IT部门的
支持下实现了流程的再造和优化,提炼并拟订了相应的流程图、流程文件及流程运作体制。
可是当前我们关于公司内部业务风险的管控尚处在初步阶段。
各种业务流程依旧面对着来自内部和外面的各样业务风险。
比如内部业务风险主要来自于职工和服务商对信息系统的不妥应用,如非受权操作或误操作;外面业务风险主要来自于外面的不安全事件,如黑客攻击、机房环境变化等。
对应用系统进行业务监控,能够及时辨别业务风险,有效进行相应的主动躲避操作,防止造成损失。
2.3管理业务系统容量
经过业务监控平台能够亲密监控业务系统性能,包含系统的业务办理量、办理性能、各资源使用状况等,经过对系统资源瓶颈的剖析,能够降低或提高业务系统容量;
3平台架构
3.1平台技术架构
运维平台能够对各种计算机设施、网络设施、安全产品、应用系统等IT设
备运行状况和各样网上行为进行集中监控,对各种设施进行全面集中的一致管理,及时发现各种异样状况、迅速定位各种事件故障并自动形成“工单”、自动分配,再由调动系统进行分配,由系统按预约流程规则进行自动化办理或人工办理的运维业务信息管理系统。
使运维工作由被动变主动,由手动办理变为自动办理,并大大降低了运维人员的工作强度,具备优秀的延展性,以下列图所示:
如上图所示,一体化运维监控平台的系统整体框架由下及上区分为3层数据
采集息(采集层)、数据办理层(办理层)和数据使用层(显现层)。
其余,经过平台的管理控制台,在各个层面都能够对平台进行全方向的配置管理。
采集层
采集层主要负责采集信息系统的性能数据和故障数据,经过在信息系统服务器上部署Agent,或许经过SNMP协议采集等多种方式与外头系统对接,获得所述基础数据。
采集层被动地接收平台服务器发出的采集指令,履行有关的信息采集
插件,将采集到的数据放人行列和数据库中,便于后续的剖析和数据发掘。
办理层
数据办理层依据不一样监控对象的自己特色和运维管理需要,灵巧定制相应的性能指标集,定义所述性能指标集中每个指标的监测范围、数据根源,计算方法、预警阈值、丈量频度参数,经过及时和历史性能图表,进行监测、剖析和确立系统性能瓶颈,若超出预警阈值的状况,自动成立事件,并通知运维人员,由调动系统进行指派,由运维人员手动办理或依据流程规则由自动化运维工具办理。
显现层
显现层分信息系统全局视图、系统健康度巡检报表、检测数据査询三个部分。
全局视图能够显现及时监督告警状况,利用巡检报表,系统管理员能够剖析系统性能状况,并记录进事件管理平台。
上述综合显现经过业务视图、逻辑拓扑、重
要设施、告警统计各个不一样视图,将运维管理工作所关注的内容有序、及时、全面地表现出信息系统资源和业务系统的整体运行状况。
3.2平台功能架构
一体化IT运维监控模型鉴于松耦合系统架构,采纳灵巧模块化组装、云计算灵巧部署构造,实现“监控、管理、管控”三个方面共同办理过程,其功能架构以下:
一致接见门户经过一次登录,即可对所有的平台功能进行操作,针对不一样的登录取户,能够供给特意的个人桌面和辅助工具。
监测台能够定义服务视图,将性能,流量,报表,拓扑等系统管理所关怀的信息在不一样款式的视图上集中表现出来。
运行服务平台以IT管理流程为核心,对运维的主要工作进行规范化的管理,并实现设施维修、值班的管理。
一致事件管理平台能够供给一致的公司级网络事件管理。
经过从各样网络设施和管理平台采集网络事件信息,并进行必需的剖析和自动化办理工作。
集成数据网管系统,供给数据网管标准接口以供信息交互,达成事件的一致管理,使网络和系统中的各样资源获得更为高效的利用和综合管理。
系统管理供给对服务器、储存设施、操作系统、数据库、中间件、综合管理,实现系统故障告警管理、系统性能管理、拓扑与配置管理。
接收来自防火墙、人侵检测、端口扫描等安全系统的告警,并将这些告警及时表现给信息网络安所有门,以采纳进一步的响应动作,保障网络系统的正常运行,并对网络流量进行监听和剖析。
4对新核心系统建设的要求
4.1规范系统日记输出
当前核心业务系统的日记输出没有一致的规范,有些日记采纳log4j进行输
出,有些直接在系统中采纳在文件中进行输出,给运维监控剖析排盘问题带来较
大的困难,建议在新系统的建设过程中,一致规范日记的输出:
(1)规范日记信息级别
日记信息输出的优先级从高到低起码应分为五档,分别是Fatal、ERROR、
WARN、INFO、DEBUG。
这些级别用来指定这条日记信息的重要程度。
在测试阶段
能够翻开所有级其余日记,系统上线后只同意输出INFO以上司别(含INFO)。
各级其余日记信息作用以下:
致命(Fatal)——严重的错误,系统没法正常运行,如硬盘空间满等。
这
个级别极少被用,常暗含系统或许系统的组件逼近崩溃。
错误(Error)——系统能够连续运行,但最好要赶快修复的错误。
这个级
别用的许多,经常陪伴Java异样,错误(Error)的环境不必定会造成系统的崩
溃,系统能够连续服务接下来的恳求。
警示(Warn)——系统能够正常运行,但需要惹起注意的警示信息。
这个级
别预示较小的问题,由系统外面的要素造成的,比方用户输入了不切合条件的参
数。
信息(Info)——系统运行的主要重点时点的操作信息,一般用于记录业务
日记。
但同时,也应当有足够的信息以保证能够记录再现缺点的路径。
这个级别
记录了系统平时运行中存心义的事件。
调试(Debug)——系统运行中的调试信息,便于开发人员进行错误剖析和
修正,一般用于程序日记,关怀程序操作(细粒度),不太关怀业务操作(粗粒度)。
系统出现问题时,一定抛出异样,在办理异样时记录日记,且日记级别一定是前
三个级别(Fatal\Error\Warning)中的一种。
(2)日记中除包含错误信息外,还需包含以下信息:
a)Web应用系统发生异样时,日记信息中需包含,系统操作用户的信息,
发生异样时的业务数据、系统功能、程序代码信息及完好的SQL语句;
b)接口类服务发生异样时,日记信息中需包含,接口调用的URL,调用端和被调用端的实地址,交互报文,报文的检查结果,接口响应经常;
c)在日记中,记录重点程序和数据库交易的办理时长,并依据预先预约
的阈值,在日记中以醒目的方式完好的显示超出阈值的程序代码的方法
名或SQL语句,以便运维监控人员剖析,排查性能隐患。
4.2预留应用系统监控接口,便于监控系统采集有关指标
在核心的建设过程中,需预留监控接口,应用监控系统经过调用核心系统的监控接口,来采集包含但不限于以下指标:
a)从web页面对应用程序功能进行语义监控,比方“页面加载错误”、
“Error500”、”Error404”;
b)对用户接见质量的监控,页面加载经常;
c)对程序主逻辑进行监控,判断主逻辑能否正常;
d)假如主逻辑正常,则对程序自己占用资源的合理性、程序的性能、和程
序的分支功能进行判断;
e)此外对程序占用的资源状况进行监控:
CPU资源的占用,内存资源的占用,文件句柄的使用状况,网络句柄的使用状况,文件状态的进度数;
f)服务的监控指标,数据加载的状况,模块的办理能力(均匀耗时,行列长度,线程池的使用率),模块间通信的状态(均匀连结时间,读、写错误数),模块运行时间;
g)系统用户的操作习惯,达成功能模块操作的时长;
4.3供给服务连续可用性监控方法
服务化是应用系统发展的方向,但服务的监控及问题的排查,向来困扰运维
人员,特别是多层服务之间调用问题的排查是相当困难的(比如:
服务调用
A->B->C->D,最后结果挨次返回D->C->B->A,中间任何环节出现问题,结果都
返回不到A)。
建议在新系统的建设过程中考虑供给服务的自测工具和监控方
法,服务的自测工具以便让运维人员进行手动的排盘问题;监控方法,主假如
将系统服务的监控归入监控管理平台,由监控平台对系统服务进行7*24小时不
中断的监控。
此外,在服务的设计中,建议考虑服务的配对规则,以便在服务间调用发生
异样后能迅速的经过配对规则辨别出服务的调用方和被调用方,从而迅速的定位
问题,排盘问题,解决问题。
5结论
IT系一致体化运维监控平台需包含性能监控、故障监控、决议剖析、数据挖
掘以及重点业务流程监控等多种功能,在此基础上经过数据剖析技术,成立智
能、高效、易用、适用、灵巧的面向业务流程的全方向、多层次的IT运维智能
决议支持系统,有助于提高信息管理的效率。