综合运维管理系统实施培训技术方案.docx
《综合运维管理系统实施培训技术方案.docx》由会员分享,可在线阅读,更多相关《综合运维管理系统实施培训技术方案.docx(54页珍藏版)》请在冰豆网上搜索。
综合运维管理系统实施培训技术方案
综合运维管理系统实施培训技术方案
第1章项目概况
1.1.系统维护内容
xxx辖区内道路上总队与支队自建视为所有科技管控设备、执法站的科技设备及系统,统一到云南省公安厅交通管理警察总队布置的科技信息化相关平台。
1.2.项目的总体思路
1.2.1.整体思路
项目要在整体统一规划的基础上,采取分阶段、分步骤的策略对现有的信息系统进行建设,实现网络设备的集中监管和维护,通过集中部署管理方式、实现对网络设备的集中监管,全面建成实现一体化统一信息系统交通运维系统平台,实现整个道路交通管理基础设施的集中监控、集中管理和集中维护,全面提高交通管理基础设施运行、管理和维护水平。
1.2.2.达到的效果
综合运维管理系统的全面建设,将为基于信息化系统的各项业务和工作的顺利开展提供坚实的技术支撑,为交警日常工作提供良好环境和坚实的基础保障,交通管理部门作为项目成果的使用者、管理者和直接受益者,将从不同角度和层面感受到项目所产生的变革,具体价值体现为:
给予交通管理部门一个全局化的管理视角,能够杜绝信息系统运转过程中的黑箱现象,避免管理死角的出现。
通过简单直观的图形管控手段替代传统上不直观、不友好的管理界面,通过图形、动画、数据等多媒体手段的集成全方位展现整体信息系统动态运转情况,让管理人员对信息系统的运行情况做到全局掌握和实时了解,及时发现异常或问题,从而迅速介入和及时处理,做到问题早发现、早解决,提高对设备运行管理质量和保障能力。
提供对多厂商、跨平台异构交通管理系统的统一管理支持,由管理平台屏蔽它们的底层差异性,采取统一的管理维护方式,从而简化管理、降低管理难度,避免重复投资导致的资金浪费,实现经济好省。
管理覆盖全面,实现对构成的各要素、各环节进行全面监控,主要是数据交换平台(网络)、安全,管理平台开放的体系架构和高度的可扩展性不但能够充分满足当前的管理需要,而且能够充分适应未来管理发展的变化,快速实现对新技术、产品的支持和适应,保护现有投资,实现向后兼容性。
提供丰富的展现和分析手段,资源使用、系统负荷压力分布一目了然,为有效评估和科学评价提供帮助,确保资源的分配与使用更加科学合理;
提高交通管理部门响应速度和支持保障能力,具备从容应对各种突发事件的能力,通过统一平台的主动检测监控,实现各种问题的及时发现、分析、定位并提供一系列管理手段帮助实现故障的快速诊断和精确定位,帮助管理维护人员迅速锁定故障根原因,从而采取正确的措施迅速排障,最大限度降低故障对业务运转的影响;
为多部门、多专业进行高效协同提供统一平台,使不同岗位和专业的管理人员,各司其职,相互协调,相互监督,运转流畅,使信息运维管理工作步入管理规范化、管理科学化和办公现代化的轨道;
详实的运行维护数据为推行量化的精细管理奠定了基础,解决了交通管理部门进行有效绩效考评的困难,为上级部门和主管领导客观评价交通管理部门的工作成效提供了有力的论据,也有助于交通管理部门客观检查、审视自身工作,总结成绩、经验,发现不足,制定改进计划,持续改进、提高和优化信息管理维护工作;
准确掌握问题、故障的多发点,从设计、运行、管理等多环节切入寻找影响系统正常、稳定和可靠运转的关键因素,为深入优化、升级、改造提供有力的数据支持,从而确保信息管理和决策的科学性。
集成安全管理,统一管理监控入口,及时捕捉影响系统安全的各种风险因素,提高信息系统整体安全性和坚固性;
变被动的响应为主动监控;变事后修复为事前预防;变复杂操作维护为简单管理;变孤立分散管理为集中统一管理;全面扭转交通管理部门在运维工作中被动局面,借助于统一信息内网监管平台的有力支撑,有力推动交通管理部门朝着“全面实现以预防为主、修复为辅的主动式管理”的目标迈进。
该项目建设完成后,将会对运行维护和管理水平的整体提高发挥积极的推动和促进作用,做到故障早发现、早解决,确保计算机网络连续、可靠、安全运行,降低发生故障的可能性,提高信息运维部门的运行管理水平和服务保障能力,为信息运维综合监管系统的持续建设与深入应用提供强有力的支持与保障。
1.3.总体要求
结合项目特点综合运维管理系统要求如下:
实时掌握网络性能数据和故障信息,其中性能数据的获取时间不高于5分钟,告警数据的获取时间不高于30秒。
按时间段(天/周/月/季度/年)统计分析网络运行情况,支持设备性能和链路性能图表。
实现全路段系统汇总运行的统计分析,例如CPU平均使用情况、内存最大使用情况等。
分析数据可以层层下钻,看到各个网络设备相关指标的分析情况。
也可以分析某段时间内不同区域不同指标的情况。
实时监控、展现网络设备关键指标的变化情况。
支持统一告警台视图展现,可将监控的所有的内容所产生的事件汇总到统一的展现界面,并可通过事件的点击追溯到事故资源的详细指标信息中。
核心网络实时监控和分析展现是对核心网络数据深入统计分析,更好地了解核心网络系统的运行状况、分析异常数据变动的原始数据原因。
核心网络分析展现通过数据抽取对业务数据进行分析结果展现,同时提供分析所需要的细粒度数据和汇总数据。
网络实时监控和分析展现能按时间段(天/周/月/季度/年)统计分析网络指标的情况,分析数据可在时间维度逐层向下查看详细数据。
(1)系统需提供多种统计分析手段,如排序、同比、环比等而无需输入任何分析公式
(2)监控信息刷新频率可以按照用户的需要进行灵活调整
(3)满足实时抽取关键数据,按日批量和增量抽取明细数据
(4)监控信息刷新频率可以按照用户的需要进行灵活调整
1.4.需求分析
根据需求来看,实际运维工作中是有一些管理工具进行监控工作。
但是从实际运维管理工作需求角度出发,现有的管理工具存在较多的问题,这种问题体现在工具相互之间缺乏关联性,工具的非定制性导致采集数据和的实际运维工作存在较大的偏差,因此对于综合运维管理系统需求集中体现在以下几个方面:
1)所有交通管理设备均纳入综合运维管理系统管理
综合运维管理系统首先需要的是将所有交通管理设备均纳入管理,这是运维工作管理的基础和核心。
只有当所有设备都在管理范围内,对其进行的监控、告警、统计、分析、报表才有实际意义。
目前虽然有了一些监控工具,但从实际情况来看,并未将所有设备纳入监控范围,从监控本身角度存在较大的缺失。
2)全面增强的基础监控KPI
网络管理系统必须摆脱依赖于原有工具来开展运维工作的情况,需要根据自身运维管理工作特点,有目的有计划的展开各类管理对象的专题分析,比如网络设备监控、链路监控、服务器监控、数据库监控等,通过梳理现有的监控指标尤其是全国范围内用户对上述设备的管理指标,建立健全对基础监控的KPI库,将各类风险纳入到综合运维管理系统中,实现综合运维管理系统及时、快速、有效的对各类故障进行事前可知、事中可控、事后可查的目标。
1.5.建设目标
根据局现状和需求进行统筹规划,本着“从实际需要出发,保护已有投资”的原则,将目前已有的、针对网络的分散式监控管理系统,以及数据处理中心的动力集中到一个统一的监控系统,并以适当的形式进行集中展现,为运维人员进行系统、设备的监控、故障定位、故障诊断和解决等运维工作提供信息来源。
实现集中统一的事件监控、集中统一的性能监控,从而实现综合运维管理系统的各项业务功能要求。
利用综合运维管理系统全面主动反映个业务系统的运行健康情况,通过多种分析手段为合理有效地分配各运维人员和值班人员的人员调度,为制定设备升级、扩容方案提供决策支持。
通过综合运维管理系统对业务核心数据进行分析和实时监控,并实现丰富、科学、美观的展示。
第2章综合运维管理系统功能
我司系统采用层次化设计,对系统的各个层面进行了建模和抽象,使得各结构层面之间既相互独立,又相互关联,最大程度上提高了系统运行的效率。
2.1.综合运维系统架构图
我司平台的架构图如下:
从上图,可以直观的看出我司模块清晰,层次分明。
各模块之间既相互独立,又互相关联,共同实现了对被管对象的集中监控和管理,另外也通过WEB方式为用户进行了统一的展现。
2.2.综合监控
综合监控部分主要是对系统各个监控对象进行快速浏览时使用,适合用户查看管理对象的日常运行情况,操作简单,界面直观明了。
通过全网设备负载、线路流量自动TOPN排序,主动告诉用户哪些设备需要关注,全网运行的隐患在哪里。
综合监控功能包括:
管理监控、值班监控、设备运行、线路流量、峰值流量、环境监控、告警总览、服务总览。
2.2.1.综合监控的优势和亮点
●综合监控是我司系统对所有被管对象的一个综合展示窗口,展现直观方便、关联性强。
●支持全网设备负载自动TOPN排序,主动告诉用户哪些设备需要关注,全网运行的隐患在哪里。
●提供可配置功能,在一个界面上可以配置多个可视化项目。
用户可以配置自己个性化的监控首页,这样就可以让用户把自己最关心的东西,一进系统就能马上看到。
●通过业务视图展现各类服务逻辑,并对服务系统的诸多业务关键参数(KPI)进行监控,作为服务管理的基础。
●全网线路流量TOPN排序和峰值流量的展现,告诉用户当前网络的主要流量有哪些、在哪里。
●全网告警预览。
让用户一幕了然了解网络中的问题所在。
●自动生成全网设备运行统计率报表。
方便用户了解全网的设备运行状况。
2.2.2.管理监控与值班监控的功能
对于不同的管理人员对于数据指标的查看需求也有区别,我司系统提供了详细和简单两种不同的管理信息界面,对于值班员偏重于信息的关联,对于运维人员更偏重于信息指标的完整。
对于值班员和管理者需要查询的实时信息也是不同类型,系统按照管理要求提供了快捷值班监控和管理监控两个页面。
值班监控可通过定制化配置用户所关心关键指标,并实时数据展现,而管理监控则着重于从网络、服务、业务三个方面呈现实时管理效果。
2.2.3.设备运行的功能
展现整体系统设备运行情况,并展现CPU/MEM设备TOPN的当前状态
2.2.4.线路流量的功能
展现整体系统设备运行情况,并展现流量/帧流量设备TOPN的当前状态
2.3.主机系统服务资源管理
通过我司综合管理平台,主要是在用户环境中实现对主机系统及相关系统的综合管理,包括:
所有被管信息的收集、系统管理、数据库和中间件的管理、存储系统的管理、资源信息库管理、统一监控平台(对第三方管理软件的整合)。
数据采集是针对不同的对象所采用的不同采集方式,包括SNMP、SYSLOG、业务和应用仿真、透明Agent等。
对象抽象化层主要负责获取对象的信息,将它们抽象成管理对象,向上屏蔽不同交通管理对象的差异。
业务层主要提供具体的应用功能,如服务拓扑管理、报表分析和流程管理等。
访问层用户展示管理信息、暴露管理功能,用户通过它发出管理命令,执行日常管理任务。
支持的主机类型有:
Windows
IBMAIX
HP-UNIX
Solaris
Linux(REDHAT\SUSE…)
FreeBSD
CentOS
NovellTUR64
2.3.1.系统和通用应用数据采集
我司综合管理平台支持通过SYSLOG、命令集/透明AGENT、SNMP、端口应用仿真等多种监测方式监测服务器,可以获取远程服务器的系统资源,我司支持对Windows、UNIX、Linux、AIX、Solaris、HPUX等多种服务器系统管理和监视,对服务器操作系统的运行状态和性能数据,包括服务器的CPU负载、内存利用率、应用进程、文件系统、文件体积等信息的分析与监视。
管理和监视服务器上各应用服务的运行状态和性能数据,包括Ema、HTTP、FTP、EMA、Apache/IIS、数据库、DNS、DHCP服务以及各中间件等。
如下图所示:
2.3.1.1.进程状态分析
服务器进程控制对整个服务器的运行至关重要,会影响到其操作系统的正常运行和关键服务的正常运行,所以实时掌