综合运维管理系统实施培训技术方案.docx
《综合运维管理系统实施培训技术方案.docx》由会员分享,可在线阅读,更多相关《综合运维管理系统实施培训技术方案.docx(64页珍藏版)》请在冰豆网上搜索。
综合运维管理系统实施培训技术方案
第1章项目概况
1.1.系统维护内容
xxx辖区内道路上总队与支队自建视为所有科技管控设备、执法站的科技设备及系统,统一到云南省公安厅交通管理警察总队布置的科技信息化相关平台。
1.2.项目的总体思路
1.2.1.整体思路
项目要在整体统一规划的基础上,采取分阶段、分步骤的策略对现有的信息系统进行建设,实现网络设备的集中监管和维护,通过集中部署管理方式、实现对网络设备的集中监管,全面建成实现一体化统一信息系统交通运维系统平台,实现整个道路交通管理基础设施的集中监控、集中管理和集中维护,全面提高交通管理基础设施运行、管理和维护水平。
1.2.2.达到的效果
综合运维管理系统的全面建设,将为基于信息化系统的各项业务和工作的顺利开展提供坚实的技术支撑,为交警日常工作提供良好环境和坚实的基础保障,交通管理部门作为项目成果的使用者、管理者和直接受益者,将从不同角度和层面感受到项目所产生的变革,具体价值体现为:
给予交通管理部门一个全局化的管理视角,能够杜绝信息系统运转过程中的黑箱现象,避免管理死角的出现。
通过简单直观的图形管控手段替代传统上不直观、不友好的管理界面,通过图形、动画、数据等多媒体手段的集成全方位展现整体信息系统动态运转情况,让管理人员对信息系统的运行情况做到全局掌握和实时了解,及时发现异常或问题,从而迅速介入和及时处理,做到问题早发现、早解决,提高对设备运行管理质量和保障能力。
提供对多厂商、跨平台异构交通管理系统的统一管理支持,由管理平台屏蔽它们的底层差异性,采取统一的管理维护方式,从而简化管理、降低管理难度,避免重复投资导致的资金浪费,实现经济好省。
管理覆盖全面,实现对构成的各要素、各环节进行全面监控,主要是数据交换平台(网络)、安全,管理平台开放的体系架构和高度的可扩展性不但能够充分满足当前的管理需要,而且能够充分适应未来管理发展的变化,快速实现对新技术、产品的支持和适应,保护现有投资,实现向后兼容性。
提供丰富的展现和分析手段,资源使用、系统负荷压力分布一目了然,为有效评估和科学评价提供帮助,确保资源的分配与使用更加科学合理;
提高交通管理部门响应速度和支持保障能力,具备从容应对各种突发事件的能力,通过统一平台的主动检测监控,实现各种问题的及时发现、分析、定位并提供一系列管理手段帮助实现故障的快速诊断和精确定位,帮助管理维护人员迅速锁定故障根原因,从而采取正确的措施迅速排障,最大限度降低故障对业务运转的影响;
为多部门、多专业进行高效协同提供统一平台,使不同岗位和专业的管理人员,各司其职,相互协调,相互监督,运转流畅,使信息运维管理工作步入管理规范化、管理科学化和办公现代化的轨道;
详实的运行维护数据为推行量化的精细管理奠定了基础,解决了交通管理部门进行有效绩效考评的困难,为上级部门和主管领导客观评价交通管理部门的工作成效提供了有力的论据,也有助于交通管理部门客观检查、审视自身工作,总结成绩、经验,发现不足,制定改进计划,持续改进、提高和优化信息管理维护工作;
准确掌握问题、故障的多发点,从设计、运行、管理等多环节切入寻找影响系统正常、稳定和可靠运转的关键因素,为深入优化、升级、改造提供有力的数据支持,从而确保信息管理和决策的科学性。
集成安全管理,统一管理监控入口,及时捕捉影响系统安全的各种风险因素,提高信息系统整体安全性和坚固性;
变被动的响应为主动监控;变事后修复为事前预防;变复杂操作维护为简单管理;变孤立分散管理为集中统一管理;全面扭转交通管理部门在运维工作中被动局面,借助于统一信息内网监管平台的有力支撑,有力推动交通管理部门朝着“全面实现以预防为主、修复为辅的主动式管理”的目标迈进。
该项目建设完成后,将会对运行维护和管理水平的整体提高发挥积极的推动和促进作用,做到故障早发现、早解决,确保计算机网络连续、可靠、安全运行,降低发生故障的可能性,提高信息运维部门的运行管理水平和服务保障能力,为信息运维综合监管系统的持续建设与深入应用提供强有力的支持与保障。
1.3.总体要求
结合项目特点综合运维管理系统要求如下:
实时掌握网络性能数据和故障信息,其中性能数据的获取时间不高于5分钟,告警数据的获取时间不高于30秒。
按时间段(天/周/月/季度/年)统计分析网络运行情况,支持设备性能和链路性能图表。
实现全路段系统汇总运行的统计分析,例如CPU平均使用情况、内存最大使用情况等。
分析数据可以层层下钻,看到各个网络设备相关指标的分析情况。
也可以分析某段时间内不同区域不同指标的情况。
实时监控、展现网络设备关键指标的变化情况。
支持统一告警台视图展现,可将监控的所有的内容所产生的事件汇总到统一的展现界面,并可通过事件的点击追溯到事故资源的详细指标信息中。
核心网络实时监控和分析展现是对核心网络数据深入统计分析,更好地了解核心网络系统的运行状况、分析异常数据变动的原始数据原因。
核心网络分析展现通过数据抽取对业务数据进行分析结果展现,同时提供分析所需要的细粒度数据和汇总数据。
网络实时监控和分析展现能按时间段(天/周/月/季度/年)统计分析网络指标的情况,分析数据可在时间维度逐层向下查看详细数据。
(1)系统需提供多种统计分析手段,如排序、同比、环比等而无需输入任何分析公式
(2)监控信息刷新频率可以按照用户的需要进行灵活调整
(3)满足实时抽取关键数据,按日批量和增量抽取明细数据
(4)监控信息刷新频率可以按照用户的需要进行灵活调整
1.4.需求分析
根据需求来看,实际运维工作中是有一些管理工具进行监控工作。
但是从实际运维管理工作需求角度出发,现有的管理工具存在较多的问题,这种问题体现在工具相互之间缺乏关联性,工具的非定制性导致采集数据和的实际运维工作存在较大的偏差,因此对于综合运维管理系统需求集中体现在以下几个方面:
1)所有交通管理设备均纳入综合运维管理系统管理
综合运维管理系统首先需要的是将所有交通管理设备均纳入管理,这是运维工作管理的基础和核心。
只有当所有设备都在管理范围内,对其进行的监控、告警、统计、分析、报表才有实际意义。
目前虽然有了一些监控工具,但从实际情况来看,并未将所有设备纳入监控范围,从监控本身角度存在较大的缺失。
2)全面增强的基础监控KPI
网络管理系统必须摆脱依赖于原有工具来开展运维工作的情况,需要根据自身运维管理工作特点,有目的有计划的展开各类管理对象的专题分析,比如网络设备监控、链路监控、服务器监控、数据库监控等,通过梳理现有的监控指标尤其是全国范围内用户对上述设备的管理指标,建立健全对基础监控的KPI库,将各类风险纳入到综合运维管理系统中,实现综合运维管理系统及时、快速、有效的对各类故障进行事前可知、事中可控、事后可查的目标。
1.5.建设目标
根据局现状和需求进行统筹规划,本着“从实际需要出发,保护已有投资”的原则,将目前已有的、针对网络的分散式监控管理系统,以及数据处理中心的动力集中到一个统一的监控系统,并以适当的形式进行集中展现,为运维人员进行系统、设备的监控、故障定位、故障诊断和解决等运维工作提供信息来源。
实现集中统一的事件监控、集中统一的性能监控,从而实现综合运维管理系统的各项业务功能要求。
利用综合运维管理系统全面主动反映个业务系统的运行健康情况,通过多种分析手段为合理有效地分配各运维人员和值班人员的人员调度,为制定设备升级、扩容方案提供决策支持。
通过综合运维管理系统对业务核心数据进行分析和实时监控,并实现丰富、科学、美观的展示。
第2章综合运维管理系统功能
我司系统采用层次化设计,对系统的各个层面进行了建模和抽象,使得各结构层面之间既相互独立,又相互关联,最大程度上提高了系统运行的效率。
2.1.综合运维系统架构图
我司平台的架构图如下:
从上图,可以直观的看出我司模块清晰,层次分明。
各模块之间既相互独立,又互相关联,共同实现了对被管对象的集中监控和管理,另外也通过WEB方式为用户进行了统一的展现。
2.2.综合监控
综合监控部分主要是对系统各个监控对象进行快速浏览时使用,适合用户查看管理对象的日常运行情况,操作简单,界面直观明了。
通过全网设备负载、线路流量自动TOPN排序,主动告诉用户哪些设备需要关注,全网运行的隐患在哪里。
综合监控功能包括:
管理监控、值班监控、设备运行、线路流量、峰值流量、环境监控、告警总览、服务总览。
2.2.1.综合监控的优势和亮点
●综合监控是我司系统对所有被管对象的一个综合展示窗口,展现直观方便、关联性强。
●支持全网设备负载自动TOPN排序,主动告诉用户哪些设备需要关注,全网运行的隐患在哪里。
●提供可配置功能,在一个界面上可以配置多个可视化项目。
用户可以配置自己个性化的监控首页,这样就可以让用户把自己最关心的东西,一进系统就能马上看到。
●通过业务视图展现各类服务逻辑,并对服务系统的诸多业务关键参数(KPI)进行监控,作为服务管理的基础。
●全网线路流量TOPN排序和峰值流量的展现,告诉用户当前网络的主要流量有哪些、在哪里。
●全网告警预览。
让用户一幕了然了解网络中的问题所在。
●自动生成全网设备运行统计率报表。
方便用户了解全网的设备运行状况。
2.2.2.管理监控与值班监控的功能
对于不同的管理人员对于数据指标的查看需求也有区别,我司系统提供了详细和简单两种不同的管理信息界面,对于值班员偏重于信息的关联,对于运维人员更偏重于信息指标的完整。
对于值班员和管理者需要查询的实时信息也是不同类型,系统按照管理要求提供了快捷值班监控和管理监控两个页面。
值班监控可通过定制化配置用户所关心关键指标,并实时数据展现,而管理监控则着重于从网络、服务、业务三个方面呈现实时管理效果。
2.2.3.设备运行的功能
展现整体系统设备运行情况,并展现CPU/MEM设备TOPN的当前状态
2.2.4.线路流量的功能
展现整体系统设备运行情况,并展现流量/帧流量设备TOPN的当前状态
2.3.主机系统服务资源管理
通过我司综合管理平台,主要是在用户环境中实现对主机系统及相关系统的综合管理,包括:
所有被管信息的收集、系统管理、数据库和中间件的管理、存储系统的管理、资源信息库管理、统一监控平台(对第三方管理软件的整合)。
数据采集是针对不同的对象所采用的不同采集方式,包括SNMP、SYSLOG、业务和应用仿真、透明Agent等。
对象抽象化层主要负责获取对象的信息,将它们抽象成管理对象,向上屏蔽不同交通管理对象的差异。
业务层主要提供具体的应用功能,如服务拓扑管理、报表分析和流程管理等。
访问层用户展示管理信息、暴露管理功能,用户通过它发出管理命令,执行日常管理任务。
支持的主机类型有:
Windows
IBMAIX
HP-UNIX
Solaris
Linux(REDHAT\SUSE…)
FreeBSD
CentOS
NovellTUR64
2.3.1.系统和通用应用数据采集
我司综合管理平台支持通过SYSLOG、命令集/透明AGENT、SNMP、端口应用仿真等多种监测方式监测服务器,可以获取远程服务器的系统资源,我司支持对Windows、UNIX、Linux、AIX、Solaris、HPUX等多种服务器系统管理和监视,对服务器操作系统的运行状态和性能数据,包括服务器的CPU负载、内存利用率、应用进程、文件系统、文件体积等信息的分析与监视。
管理和监视服务器上各应用服务的运行状态和性能数据,包括Ema、HTTP、FTP、EMA、Apache/IIS、数据库、DNS、DHCP服务以及各中间件等。
如下图所示:
2.3.1.1.进程状态分析
服务器进程控制对整个服务器的运行至关重要,会影响到其操作系统的正常运行和关键服务的正常运行,所以实时掌握服务器的所有进程运行情况是很有必要的。
正常情况下运行着大量的系统进程和应用进程。
它们在运行过程中会消耗服务器的资源,甚至一些非法的进程可以造成服务器的瘫痪,所以服务器的进程管理也是很有必要的。
首先就是进程的数量,第一,如果服务器里运行着的进程过多,势必会占用大量系统资源,进程数量越多,造成服务器不稳定的可能性就越大,所以监视所有进程的总数量可以帮助用户及时了解到服务器的资源情况,出现异常,也可以第一时间让用户了解到他必须现在去看看到底发生了什么事?
第二,相同名字的进程数量过多,大部分时间意味着病毒爆发,所以监视同名进程的数量也是很有意义的。
我们提供了进程数量的监视,时刻监视服务器所有进程数量或进程名字和设置匹配的进程数量,当出现异常时会在第一时间内提醒用户,保证用户尽早发现问题、解决问题,避免更严重的故障发生。
我司综合管理平台能够以表格的方式实时显示服务器的所有进程运行情况,包括进程名称、CPU利用时间、CPU占用情况、当前内存占用情况、运行状态等等,为用户分析服务器的当前运行情况提供详细的实时数据来源。
我司综合管理平台支持对服务器上的应用进程情况进行监视,支持使用*和?
的通配符统计符合条件的应用进程的数量,当该数量超过/小于指定的阈值时,系统将触发告警。
我司综合管理平台也可以直接监视某些特定名称的进程的活动状态。
系统中的某一活动着的进程可能对用户非常重要,所以用户会关心这个进程是否一直在进程列表中,我们称这样的进程为“关键进程”;当这些进程出现在进程表中或者不出现在进程表中时,系统将自动触发告警,提醒管理人员及时处理。
我司综合管理平台提供对指定进程进行CPU利用率、内存利用率不间断监视的功能。
每一个进程都会占用系统资源,如CPU、内存,当某一个进程或某几个进程占用的CPU过高时,会影响到整个服务器的运行,使得运行速度变慢,使得其他进程因为分享不到CPU而无法正常运行;某些进程如果存在内存泄露等问题,会不断申请内存,导致系统内存溢出。
我司综合管理平台自动每分钟从服务器上获取最新的进程运行数据,提供各进程的运行趋势分析图,包括进程的CPU占用趋势图、物理内存利用率趋势图,方便管理人员查看各进程一段时间以来的运行情况。
2.3.1.2.文件系统分析
很多的应用服务都需要使用磁盘空间进行数据的存储和处理,所以一般情况下,服务器的磁盘空间应该保持一定的空白容量,当磁盘空间低于可控制下限时,用户应该马上进行相应处理,避免磁盘空间被占满后关键服务不能正常运行的情况发生。
而且磁盘空间被占满也有可能是病毒引起的,这需要管理人员第一时间就要掌握到,尽量避免病毒的扩散和维护关键服务的正常运行。
文件系统分析主要提供服务器上各文件系统的空间大小和使用情况(已用空间、剩余空间、利用率)以及文件系统的名称、类型等基本信息。
管理人员可以指定系统的刷新间隔,自动以一定的频率从服务器上读取文件系统信息和参数,便于服务器文件系统的状态监视和处理。
2.3.1.3.CPU利用率
1、服务器CPU的利用率,可针对系统的每个CPU分别分析其相应的利用率;
2、服务器当前进程列表所占用的CPU利用率,CPU使用时间;
3、显示服务器CPU性能(分进程显示)实时变化情况和历史变化趋势;
4、服务器CPU阈值告警,当服务器CPU负载过大/小,能产生报警;
5、服务器进程CPU占用阈值告警,当进程占用CPU过大/小,能产生报警;
2.3.1.4.内存利用率
1、服务器内存的利用率;
2、服务器当前进程列表所占用的内存利用情况,内存利用率;
3、显示服务器内存利用率(分进程显示)实时变化情况和历史变化趋势;
4、服务器内存利用率阈值告警,当服务器内存利用率过大/小,能产生报警;
5、服务器进程内存利用率阈值告警,当进程占用内存过大/小,能产生报警;
2.3.1.5.硬盘性能分析
我司综合管理平台可以收集磁盘性能I/O状态信息。
帮助用户分析磁盘读取的繁忙程度,由于磁盘I/O信息是影响系统性能的常见因素,进而得到对优化整个系统性能的参考指标。
2.3.1.6.服务器日志查询、分析
我司综合管理平台采用syslog、WMI、telnet、ssh的方式来读取所监控服务器的日志,并可按分钟、小时、日等方式对日志进行查询与分析。
2.3.2.主机管理
●提供对WINDOWS、AIX、LINUX、Solaris等主机系统进行全方位的监测和管理,帮助用户及时了解到各类系统的KPI的运行状态。
●可以关联告警系统,对主机关键指标的异常状态进行告警,让用户可以及时的知道并进行处理。
●可以关联告警系统,对主机的异常进程,或进程的异常状态进行告警,让用户可以及时的知道并进行处理。
●支持动态数据流转图,可以图形化展现CPU负载、内存使用率、硬盘容量、应用进程、文件占用空间、网络流量等信息。
●取数方式灵活,支持Agent和Agentless两种方式供用户选择。
●数据展现方式多样、层层递进→物理拓朴图、监控总览、数据流转图、业务拓朴图。
我司综合管理平台提供对WINDOWS、AIX、LINUX、Solaris等主机系统的多方面监测和管理:
对Windows操作系统主要可以监控如下内容:
✓服务器的配置信息:
自动获取服务器名称、IP地址、系统版本、CPU个数、磁盘大小、内存大小等;
✓服务器的运行状态:
服务器运行状态、服务器磁盘状态、网卡状态、进程总数
✓服务器CPU运行情况:
CPU用户时间百分比、CPU系统时间百分比、CPU运行队列进程个数
✓服务器内存使用情况:
内存利用率、虚拟内存(交换区)的使用率、交换SWAP分区页数量(换入/换出);
✓服务器磁盘运行指标:
磁盘空间利用率、磁盘读/写速率、磁盘TPS指标。
✓服务器文件管理指标:
各文件系统分区的使用率和空闲空间、指定的关键文件是否存在和当前大小;
✓服务器关键进程运行指标:
包括进程ID、进程名、进程状态、占用CPU时间、内存占用大小等;
✓服务器日志告警:
检查服务器的关键日志文件,提取相关的错误日志信息(Warning/error/fa)并生成告警;实时监控操作系统,数据库和应用系统中制定的日志文件,并可根据其中的特定信息,执行用户预定义的操作;
✓HA状态监控,对HA的状态、系统间切换和节点间切换等状态进行主动监测,并记录每一次发生切换发生的时间、相关服务器名称等信息。
✓对系统服务进行监控,对重要服务的运行故障进行实时告警。
下图是我司综合管理平台对Windows监控的界面:
对AIX、Solaris、Linux等类Unix系统主要可以监控如下内容:
✓服务器的配置信息:
获取服务器名称、IP地址、系统版本、CPU个数、磁盘大小、内存大小等;
✓服务器的运行状态:
服务器运行状态、服务器磁盘状态、网卡状态、进程总数
✓服务器CPU运行情况:
CPU用户时间百分比、CPU系统时间百分比、CPU运行队列进程个数
✓服务器内存使用情况:
内存利用率、虚拟内存(交换区)的使用率、交换SWAP分区页数量(换入/换出);
✓服务器磁盘运行指标:
磁盘空间利用率、磁盘读/写速率、磁盘TPS指标。
✓服务器文件管理指标:
各文件系统分区的使用率和空闲空间、指定的关键文件是否存在和当前大小;
✓服务器关键进程运行指标:
包括进程ID、进程名、进程状态、占用CPU时间、内存占用大小等;
✓服务器日志告警:
检查服务器的关键日志文件,提取相关的错误日志信息(Warning/error/fa)并生成告警;实时监控操作系统,数据库和应用系统中制定的日志文件,并可根据其中的特定信息,执行用户预定义的操作;
✓HACMP状态监控:
对HACMP的状态、系统间切换和节点间切换等状态进行主动监测,并记录每一次发生切换发生的时间、相关服务器名称等信息。
✓对CICSRegion的监控:
通过监控相关的日志(Prepare 日志、Comm交通管理日志、Abort日志等)、并辅以模拟连接(将连接结果发送到我司综合管理平台),我们可以做到对P系统主机上CICS的状态和队列进行监控。
下图是我司综合管理平台对AIX系统监控的界面
2.3.3.数据库管理
●可以实现对多种数据库的监控和管理,方便用户对多种业务平台进行统一管理。
●实现对数据库容量、命中率、会话信息、日志信息等实现全面监控,并为用户提供直观的数据报表,方便掌握数据库的运行状态。
●可以关联告警系统,对数据库关键指标的异常状态进行告警,让用户可以及时的知道并进行处理。
●支持动态数据流转图,可图形化多角度动态全方位展现数据库诸如CPU、缓存、表空间、锁、缓存、读写速度多种信息。
我司综合管理平台可以对服务器上的DB2、ORACLE、SQLSERVER、SYBASE、INFORMIX等数据库系统提供状态监测和管理。
数据库服务监视主要是对大型数据库系统的性能、事务、连接等性能数据进行监视。
我司综合管理平台通过JDBC连接到指定的大型数据库服务上,执行管理人员指定的SQL语句,然后对所获得的结果进行分析处理,如果大于指定的阈值,则自动触发数据库服务监视告警。
通过SQL语言对数据库的系统表进行监视,可以对数据库的表空间(空闲率)进行容量规划,并能够对表空间的使用情况进行定期分析和预警;
可以实时监控当前连接数据库的会话,并能够在连接数据库出现问题触发告警;
可以获取会话级的数据库运行性能参数,并对性能参数进行关联性分析,进行告警监测;
可以处理数据库的事务提交数、事务回滚数、顺序扫描总数、排序总数、排序所使用的最大磁盘空间等系统运行状态参数的监测和告警;
可以对数据库的磁盘IO参数如读取数、缓冲区读取数、写入数、缓冲区写入数等数据进行监测;
可以对数据库的内存使用率、数据库容量、交易量、数据库连接数、进程状态、数据库资源使用率等信息进行监测;
我司综合管理平台可以对数据库的表空间(空闲率)进行容量规划,并能够对表空间的使用情况进行定期分析和预警。
可以处理数据库中的各数据表的记录数、锁模式、索引、Extents、总页数、使用页数等性能指标进行监测。
可以对数据库的交易日志进行监视。
由于生产环境使用的是IBM的DB2数据库,现以DB2为例介绍监控内容
✓DB2高可用性灾难恢复(HADR)状态监控和告警
✓数据库状态:
监听器是否工作,数据库是否工作;
✓数据库的基本配置信息:
数据库名、版本、32/64位、并行状态、归档模式、归档目录,基本配置等。
✓数据库进程监测信息:
进程占用CPU时间、内存大小、数据库进程总数;
✓数据库自身告警信息:
获取数据库的告警信息并告警;
✓数据库SGA监测信息:
高速缓冲区大小、重做日志缓冲区大小、共享池大小、数据字典缓存大小、共享库缓存大小、SQL缓存大小;
✓数据库SGA性能监测:
高速缓冲区命中率、共享库缓存命中率、共享数据字典缓存命中率、磁盘排序/内存排序比率;
✓实时SQL监测:
要求能够捕捉瞬时的或一段时间内(比如五分钟内)执行的SQL语句,使管理员可以有效地获取关于正在执行的事务的详细信息;前十条性能最差的SQL语句等。
✓数据库表空间运行监测:
制定表空间的使用空间大小,表空间使用率等、表空间碎片FSFI比率、读/写表空间平均时间;
✓数据库表空间配置信息:
表空间名称、初始大小、Next扩展值大小、扩展次数;
✓数据库文件性能:
数据文件名、数据文件大小、状态、读写次数、读写时间;
✓数据库回滚段监测:
回滚段名、回退段当前大小、命中率(取得次数和等待次数的比率),压缩次数;
✓数据库会话信息监测:
会话ID、用户名、占用CPU时间、内存排序次数、扫描表次数、读写次数、提交次数、所占用游标数、缓冲区命中率、已连接的用户数、空闲的连接数;
✓数据库会话安全监测:
判断是否有XX的IP地址、用户、时间段、使用特殊工具访问数据库的行为;
✓