系统监控方案详解Word下载.docx
《系统监控方案详解Word下载.docx》由会员分享,可在线阅读,更多相关《系统监控方案详解Word下载.docx(37页珍藏版)》请在冰豆网上搜索。
事件管理模块将重要的报警转发至服务台系统自动生成问题工单,由管理员进行修复并将修复过程录入知识库。
二.1.2Tivoli软件管理体系架构
IBMTivoli软件监控模块基于统一的管理架构——IBMTivoliFramework。
TivoliFramework是一个三层的体系架构,如下图所示:
Tivoli管理服务器是管理体系的核心,运行在单独的Unix服务器上,面向对象的管理数据库保存着所有管理对象的信息。
Tivoli管理网关是一个中间层,负责分担管理服务器的管理负荷,同时可以管理数据包的转发,避免相同的数据多次在广域网上传输,减少带宽占用。
网关的数据库只保存它管理的节点的信息。
管理服务器本身也可以定义为一个管理网关。
管理代理安装在被管理的服务器上,每个被管理服务器安装一个代理。
图中列出的远程管理、资产管理、软件分发、日志管理、应用管理、系统/数据库/中间件管理、任务下载和执行的管理任务均由管理代理控制。
管理代理不包含数据库,只有本地缓存,管理资源的信息保存在其连接网关的数据库中。
由于Tivoli管理代理是职能代理,当管理模块升级时会自动更新缓存,因而Framework构建完成后无需对管理代理进行任何手工操作。
上述三个层次之间可以通过防火墙进行加密通信,只需要打开一个自定义端口。
所有的管理内容均在管理服务器上进行预先定义,如:
监控哪些内容和参数、多长时间采集一次性能数据,监控哪些数据库等。
监控的模板称为Profile(图中黄色的小块),Profile可以共享,即不需要单独为每一台被管理服务器定义管理内容,而是定义一个Profile面向一组服务器,如:
UnixCPU监控Profile适用于所有Unix服务器。
将Profile发送到一组服务器后,管理代理会自动下载对应平台的执行代码并实现监控,这样可以大大减少管理的工作量,提高管理效率。
IBM建议XX信息中心设立独立的IBMTivoli管理服务器,建立IBMTivoli管理域(TMR)。
在被管理的业务系统上安装Tivoli管理代理(TMA-TivoliManagementAgent),实现服务器,其上数据库以及应用的管理。
二.2IBMTivoli软件对系统资源占用情况分析
在生产机上只安装一个TivoliAgent。
TivoliAgent是轻型代理,在初始安装后在AIX操作系统上大约占用1M内存,<
0.1%CPU(单CPU)。
IBMTivoliMonitoring监控软件会自动在被管理机上生成一个基于Java的子代理用于操作系统、数据库等的监控。
对于单CPU(1GHz)的AIX操作系统,只进行操作系统的监控CPU占用率不高于0.5%。
如果运行所有数据库的监控资源模型(超过30个),CPU占用率不高于5%。
由此可见,IBMTivoli对于系统资源的占用是很低的。
IBMTivoliAgent的安装是通过远程安装的方式,即通过rexec服务远程安装,Windows平台通过一台Windows服务器作为网关远程安装。
支持XX所有的操作系统,包括Windows、AIX、HP-UX、Solaris、SCO、Dynix。
二.3IBMTivoli管理解决方案
从网络系统以及应用管理整体来看,根据XX的各种IT资源,IBM建议采用如下的逻辑结构来搭建XX网络系统以及应用管理系统。
XX网络系统以及应用管理按照功能和管理侧重分成如下的几个主要模块。
基于以上的管理需求,我们建议实施如下的管理产品分阶段来实现对XX前置机系统的全面监控管理:
IBMTivoliMonitoring:
对主机系统的监控
IBMTivoliMonitoringforDatabases(Oracle/DB2/SQLServer):
对数据库的监控
IBMTivoliMonitoringforDomino:
Domino系统监控
IBMTivoliEnterpriseConsole:
集中的事件管理和网络管理
IBMTivoliBusinessSystemManager:
集中的系统管理视图
IBMTivoliDataWarehouse:
集中报表系统
IBM各个模块的关系如下图所示:
二.3.1网络监控子系统
针对XX的网络基础设施,IBMTivoliNetView可以实时对XX网络状况实施监控,包括XX信息中心内部局域网以及广域网络线路等。
可以发现XXIP网络、显示网络拓朴、关联和管理事件以及简单网络管理协议(SNMP)的中断、监视网络的健康状况以及采集网络性能数据。
基于IBMTivoliNetview的网络管理平台,XX信息中心可以实现集中化、远程的网络设备、线路的管理和维护,提高XX信息中心的网络管理范围和管理效率。
将Ciscoworks2000集成到IBMTivoliNetview网管平台上,可完善Cisco网络设备配置管理。
网络管理子系统针对的管理对象主要包括XX环境中的网络设备、网络连接和整体的网络环境,XX网络管理主要包括几个方面:
⏹网络配置管理
实现网络设备的远程配置更新管理,并对整个网络的拓扑结构进行自动发现和变化更新,以实时了解网络状态的变化。
与Ciscoworks2000集成可完成对CISCO设备的配置管理。
⏹网络性能管理
对网络性能进行实时分析或者连续采集,以了解网络性能现状并分析发展趋势,及时了解网络瓶颈,保持网络数据传输通畅。
⏹网络故障管理
对网络故障进行收集,并进行过滤。
同时对事件处理进行规则定义,如哪种故障要向上级转发,哪种故障可以自动恢复等,以提高管理效率。
通过IBMTivoliNetview网络管理平台,XX网络管理可以事项的以下的主要功能:
-网络拓扑图的自动发现
-可以管理网络上所有支持IP和SNMP协议的网络设备
-监控网络设备产生的各种事件信息(网络设备状态的变化、网络设备端口状态的变化、广域网和局域网的网络连接的状态变化等)
-采集网络设备的性能数据(例如:
端口流量、广域网带宽使用率等),并且存储在标准的数据库或者数据仓库中,以便其它工具对其进行数据分析
二.3.2使用IBMTivoliMonitoring来监控主机系统
IBMTivoliMonitoring能够实现对UNIX、Windows、Linux、OS400等各种操作系统关键资源的自动监控,帮助管理员及时发现故障和故障隐患。
IBMTivoliMonitoring对于各类操作系统提供了大量的资源模型,针对XX的监控需求,我们建议实施以下一些Monitor来实现对XXUNIX操作系统的监控,监控内容包括:
–CPU:
监控各个系统进程对CPU的占用情况
–内存:
监控系统内存的状态
–文件系统:
实时监控文件系统的利用率,如根文件系统、var文件系统、tmp文件系统、应用文件系统等。
–文件:
监控重要文件的改动,如/etc/、/etc/passwd等。
–进程:
监控所有重要的进程。
–安全:
监控系统的安全状态。
–网络:
监控服务器网络端口
IBMTivoliMonitoring通过连续监视重要系统资源,自动检测瓶颈问题和潜在的问题,同时对事件主动做出反应,来帮助管理大型的异构环境。
它扩展了现有关键业务服务器的监视能力,能够帮助您实施智能化管理,在终端用户受到影响之前发现问题。
先进的资源模型技术允许IBMTivoliMonitoring识别应用问题的特征,这有助于防止故障的发生。
问题特征是重要的指标和门限,当两者结合起来时,可触发一个能够预防系统故障的自动化操作过程。
IBMTivoliMonitoring建立在Tivoli软件的升级能力很强的分布式体系结构和服务基础之上,可为基于主机和Web的分布式系统提供有效、集中化的管理。
它使您能在问题影响应用和系统有效性之前预先主动地自动检测、纠正错误,避开问题。
IBMTivoliMonitoring使用许多预先定义的规则和连续检测技术来确定是否触发指示器,这有助于减少对无意义事件流的所造成的时间浪费。
IBMTivoliMonitoring通过集中化管理界面提供了一种简单、稳定的方法来监视和管理主要分布式资源。
IBMTivoliMonitoring可以即刻使用,把系统配置和设置的时间消耗降到最低。
用户能轻松地改变设置以表现他们的个性化系统,通过一次操作就可以设定监视参数、更新一组数据并应用到分布式资源。
与远程系统有关的数百次变动能够在几分钟之内发生,大大帮助了保持跨目标系统的稳定性。
IBMTivoliMonitoring能够帮助您即刻评估关键状况,它开发了一套标准来定义不良性能或死机事件与业务目标之间的关系。
Tivoli软件使用应用数种规则的决策树逻辑来验证系统的健全性,并决定是否触发一个事件。
IBMTivoliMonitoring的内置智能功能,使您能从执行普通的任务中解放出来,并且为您提供宝贵的故障诊断关键信息。
IBMTivoliMonitoring采集的性能数据首先会保存在本机一个文件数据库中,管理服务器会根据参数定义定期(如:
每小时)将各台被管理服务器上的数据上传到管理服务器上,通过数据库接口保存到后台的关系型数据库中。
对于XX的SCO、Dynix、OS/2和Win98操作系统,安装操作系统自带的SNMP代理后,可以通过NetView监控SNMP所能提供的监控参数,包括:
服务器名、IP地址、CPU利用率等。
同时,由于TivoliFramework的Agent支持上述平台,因此可以开发针对各个平台的有针对性地任务,通过脚本实现监控和管理功能。
二.3.2.1针对UNIX平台监控内容
监控CPU
●CPU高度过载
●系统CPU使用率
监控文件
●文件已更改
●文件属性已更改
●文件不存在
监控文件系统
●可用空间量
●可用空间百分率
●文件系统被分段
●i-node可用百分率
监控内存
●存储空间量
●交换空间量
●系统不稳定
监控网络接口
●输入信息包出错率
●输出信息包出错率
●信息包冲突百分率
●接口未启用
●接口无作用
●接口状态未知
监控网络RPC-NFS
●NFS缓冲区大小
●NFS服务器Get-attribute操作率
●NFS服务器读操作率
●NFS服务器Readlink操作率
●NFS服务器写操作率
●重复RPC服务器调用率
●重新传输的调用率
●超时和Badxid率
●网络流量
●网络速率
监控进程
●zombie进程数
●进程消耗CPU
●进程已被杀死或不存在
●进程已停止
监控安全
●重复帐户
●用户登录次数
●非法组
●非法所有者
●root的账户无效
●空密码
●可疑的超级组
●可疑的超级用户
●错误的文件方式
监控时能同时对多个资源进行监控,多方位判断问题
监控时具有持续监控能力,防止误报警
具有基于Web的健康状况监控控制台
具有跨平台监控能力
二.3.2.2针对Windows平台监控内容
监控处理器
●硬件忙
●CPU跟不上硬件
●硬件使CPU忙
●使用率差值百分率
●进程数
●处理器忙
监控逻辑磁盘
●每秒读取字节数
●每秒写入字节数
●传送速率
●磁盘时间百分比
●逻辑磁盘碎片情况
●磁盘空间量
●逻辑驱动器速率
●大量调页
●可用内存量
●可用内存量很低导致硬调页
●可用内存量很低导致软调页和调整页面文件大小
●可用内存量很低导致过度软调页
●可用内存量很低导致许多问题
●高速缓存占用量高导致可用内存量
●工作集占用量高导致可用内存量
●可用内存量很低且页面文件很小
●副本读取命中率
●数据映射命中率
●MDL读取命中率
●Pin读取命中率
●页面文件正在调整
●专用字节中存在内存泄漏
●系统代码中存在内存泄漏
●系统驱动程序中存在内存泄漏
监控网络接口卡
●调整工作项
●广播帧
●当前命令数
●出错率
●网络接口卡过载
●网络接口卡速率
●重定向器影响服务器
●重定向器过载
●重定向器过载影响段
●段影响重定向器
●段影响服务器
●服务器影响重定向器
●服务器过载
●服务器过载影响段
监控物理硬盘
●磁盘时间百分比率
●物理磁盘可能碎片
●物理驱动器速率
监控打印机
●当前时间百分率
●作业错误数
●每日作业错误数
●未就绪错误数
●每日未就绪错误数
●缺纸错误数
●每日缺纸错误数
●进程句柄泄漏
●进程CPU使用率
监控服务
●服务失败
●服务停止
监控TCP/IP
●分段率
●ping数值
●段ReXmit
二.3.3使用IBMTivoliMonitoringforDatabases来监控数据库
IBMTivoliMonitoringforDatabases能够实现对Informi、MSSQLServer、DB2、Oracle等各种数据库系统关键资源的自动监控,帮助管理员及时发现故障和故障隐患。
IBMTivoliMonitoringforDatabases对于各类数据库提供了大量的资源模型,针对XX的监控需求,我们建议实施以下一些主要的资源模型来实现对XXInformix、DB2数据库的监控:
Informix数据库监控:
✓ServerState:
监控InformixServer的状态。
✓Deadlocks:
监控数据库死锁的数量。
✓DMLLockRatio:
DML锁利用率
✓LogicalLogUsage:
监控LogicalLog的剩余空间百分比。
✓Chunks:
监控数据库Chunk的数量。
✓Dbspace:
监控数据库的空间使用状况。
✓CacheHitRatio:
监控数据库的缓存命中率。
✓ActiveTransaction:
监控数据库活动交易的数量
✓Archive:
监控InformixOnbar备份进程的更新状态
✓LRUQueues:
监控LRU队列
✓Overflow:
监控用户线程溢出
✓RollbackRate:
监控回滚率
✓VirtualProcessors:
监控虚拟处理器的CPU利用率
✓Writes:
监控Chunkwrites、LRUWrites和ForgroundWrites
✓Waits:
监控BufferWaits、LockWaits、CheckpointWaits和Latchwait
DB2数据库监控:
✓InstanceStatus:
监控数据库Instance状态
✓DatabaseActivity:
监控数据库的活动
✓LocksandDeadlock:
监控数据库锁和死锁
✓DirectI/O:
监控数据库I/O情况
✓BufferPool:
监控数据库的缓存
✓LockWait:
监控等待锁资源的应用数量
✓Sort:
监控Sort
✓Logging:
监控DB2数据库的日志功能
✓PackageCache:
监控Package缓存
✓ReplicationCapture:
监控DB2Replication的Capture组件
✓Sorting:
监控数据库管理器、数据库和应用的Sorting活动
✓SQLCursorActivity:
监控SQLCursor的数量
✓SQLStatementActivity:
监控数据库的Statement活动
✓TableActivity:
监控数据库表的活动
以上各个Monitor均设置相应的阈值,当监控返回值达到阈值时进行报警。
二.3.4使用IBMTivoliMonitoringforDomino来监控IBMDomino
IBMTivoliMonitoringforMassagingandCollaboration:
Domino能够实现对IBMDomino进行自动监控,帮助管理员及时发现Domino故障和故障隐患。
IBM建议XX监控以下Domino资源
✓DominoDatabaseManagement:
监控Domino数据库的状态
✓DominoMailStatisticsMonitor:
监控Mail系统状态
✓DominoReplicatorStatus:
监控复制状态
✓DominoServerAvaliability:
监控服务器可用性
✓DominoServerHealth:
监控Domino服务器的健康状况。
✓DominoSMTPMailStatisticsMonitor:
监控SMTPMTA中的邮件
✓监控Domino性能,包含以下参数:
◆DPSCalendarEntry
◆DPSDatabaseAccess
◆DPSNABSearch
◆DPSNetEchoDPS
◆DPSReplicateLocal
◆DPSRoundTripMail
◆DPSWebAccess
二.3.5使用IBMTivoliEnterpriseConsole来集中管理事件
事件相关处理是专门针对建立企业控制中心面临的难题:
问题根源分析。
当企业控制中心建立后,超过每天数十万条报警事件的分析是管理员面对的难题,报警事件包括网络、操作系统、数据库、应用的告警和通知事件,通过简单的过滤处理很难找到问题的根源,必须使用复杂的相关分析引擎进行处理,才能将每天几十万条报警事件转化为几十条名明确的根源故障报警,才能进行有效管理。
例如:
当一个网络资源出现故障时,监控系统会在每一个轮询周期发送一个报警。
这样,一个报警会重复出现多次,处理规则可以自动处理重复事件,只报出第一条收到的事件和重复的次数。
IBMTivoliEnterpriseConsole可以提供上述功能。
IBMTivoliEnterpriseConsole(TEC)是各类监控报警信息和系统日志信息的管理中心。
提供集中的事件展示、事件报警和处理。
我们建议实施的事件管理内容包括:
TEC主要的功能是提供不同来源事件相关处理能力,这样可以确定问题的根源。
一个核心交换机的模块故障导致多种报警,有网管系统的报警,有操作系统、数据库、中间件、应用的多个报警,事件数量可能高达数百个,而交换机故障报警可能淹没在这数百个报警事件之中,导致处理问题时间很长。
通过TEC的相关性处理规则,会确定出是交换机的模块故障导致这数百个报警,确定问题根源,从而大大减少故障处理的时间。
下面列举一些网络事件相关性分析的实例:
网络事件的过滤、上报与相关性处理
网络中一旦发生错误,就会有大量的相关事件产生,因此,对收集到的事件进行过滤、相关性处理是很重要的。
另外,由于我们要设计两级网管结构,网络事件的上报规则也会对网管系统有很大的影响。
过滤规则
对持续的、内容重复的告警(如网络持续报告某端口Down)进行过滤;
对CiscoSyslog中Debug级别的信息进行过滤;
对其它级别低、用户不关心的信息进行过滤。
相关性处理规则
某一InterfaceDown,如在一分钟内又Up,且之后五分钟没有再Down,则两条进行相关性处理为一条Up/Down。
如某一Interface在五分钟之内超过2次Up/Down,则把这多条Up/Dwon信息相关性处理为一条“链路不稳定”信息。
对于重要服务器和PC,InterfaceUp/Down信息与NodeUp/Down信息进行相关性处理为一条。
上游路由器Down事件和下游结点Down事件进行相关性处理为一条。
如果对某一个性能监控设置了两个阀值,比如CPU利用率超过50%是3级告警,超过80%是4级,则超过高级别阀值时,两条告警进行相关性处理为一条。
事件集中:
✓Tivoli监控事件的集中:
将IBMTivoliMonitoring和TivoliManagerforDatabases产生的报警事件统一发送到TEC。
✓系统日志和出错信息的集中:
通过TivoliLogfileAdapter将UNIX系统的日志信息和错误报告(AIXErrorReport)发送到TEC。
✓应用信息的集中:
通过TivoliLogfileAdapter将重要应用的Log信息发送到TEC。
事件报警和处理:
针