综合网管维护手册Word下载.docx
《综合网管维护手册Word下载.docx》由会员分享,可在线阅读,更多相关《综合网管维护手册Word下载.docx(23页珍藏版)》请在冰豆网上搜索。
4BAC9
4.1Sitescope状态检查和启动停止9
4.2BPM状态检查和启动停止10
4.3BAC状态检查10
4.4启停方法11
4.5常见问题12
4.5.1Bac界面访问系统可用性管理时报错?
12
5ORACLE13
5.1状态检查13
5.2启停方法13
5.3常见问题14
5.3.1什么时候需要重启数据库?
14
6TOMCAT14
6.1状态检查14
6.2启停方法14
6.3常见问题15
6.3.1什么时候需要重启TOMCAT?
15
6.3.2为什么重启过TOMCAT后打开会比较慢?
7报表数据16
7.1数据检查16
7.2数据库核查方法16
7.3常见问题18
7.3.1从数据库中可以查到设备有最新的通端数据,但为什么在统计报表里查询不到?
18
7.3.2为什么查不到接口流量(5分钟)最新的流量数据?
7.3.3为什么查询不到最新的主机性能数据?
19
7.4数据追赶方法19
7.4.1通断系列报表:
7.4.2流量系列报表:
20
7.4.3网络设备性能(cpu/内存)系列报表:
7.4.4主机cpu系列报表:
7.4.5主机memory系列报表:
7.4.6主机文件系统报表:
21
7.4.7主机进程报表:
7.4.8Oracle性能分析报表:
7.4.9告警统计报表:
8告警前转22
8.1状态检查22
8.2启停方法22
8.2.1afwagent-ovo的启动方法:
22
8.2.2afwagent-ovo的停止方法:
8.2.3ttsServer.exe启动方法:
8.2.4ttsServer.exe停止方法:
23
8.3常见问题23
8.3.1afwagent-ovo和ttServer的关系是什么?
8.3.2告警前转进程和前转条件都配置过了,但为什么还没有收到告警邮件?
文档修改记录
版本号
日期
修改内容
作者
审批人
V1.0
2009-03-03
创建
陈捷
V1.1
2009-03-10
修改优化文档细节
曹华
V1.2
2009-03-19
扈宇春
V1.3
2009-03-31
调整格式
肖站峰
NNM
状态检查
用root用户登陆到网管服务器,在命令行执行ovstatus-c,查看各个进程状态;
其中ovet开头的进程是扩展拓扑进程,定时启动;
还有一些进程是unknown的状态,是在特定版本的操作系统中启动。
以下列表是典型的NNM在Solaris操作系统中正常运行时的进程状态。
启停方法
启动NNM:
用root用户登陆到网管服务器,在命令行执行ovstart-c
停止NNM:
用root用户登陆到网管服务器,在命令行执行ovstop-c
常见问题
1.1.1什么时候需要重启NNM?
答:
服务器启动后会自动启动NNM进程。
在NNM重要进程异常停止时,可以采用重新启动NNM的方法。
另外,在修改发现过滤器后,也需要重启NNM(有关过滤器的用法,请参见配置手册)。
1.1.2NNM拓扑图或告警信息中有乱码?
可能是由于NNM是在英文环境下启动的,在Solaris操作系统中可参照如下操作:
#ovstop–c
#LANG=zh
#exportLANG
#ovstart–c
OVO
用root用户登陆到网管服务器,在命令行执行opcsv-status,查看OVO进程状态:
用root用户登陆到网管服务器,在命令行执行ovc-status,查看ovc进程状态:
启动OVO:
用root用户登陆到网管服务器,执行opcsv–start。
停止OVO:
用root用户登陆到网管服务器,执行opcsv–stop。
启动OVC:
用root用户登陆到网管服务器,执行ovc–start。
停止OVC:
用root用户登陆到网管服务器,执行ovc–stop;
ovc–kill。
检查远程ovoagent状态
通常情况用opcragt-statusall查看远程ovoagent的状态。
1.1.3OVC与OVO的关系是什么?
ovc是OVOagent程序,负责执行模板命令,监控本机的性能告警数据;
在OVO服务器端,还是一个消息中转站,将NNM等其他来源的告警消息转发给OVO。
1.1.4什么时候需要重启ovo和ovc?
服务器启动后会自动启动这些程序。
通常在OVO控制台无法登陆或者OVO的告警浏览器里没有新的告警时,才需要检查其进程状况。
1.1.5OVO告警和界面呈现有乱码?
可能是由于OVO是在英文环境下启动的,在Solaris操作系统中可参照如下操作:
#ovc–stop
#ovc-kill
#opcsv–stop
#opcsv–start
#ovc-start
OVPM
用root用户登陆到网管服务器,在命令行执行ovpmstatus,查看ovpm进程状态:
OVPM启停方法
启动OVPM:
用root用户登陆到网管服务器,在命令行执行ovpmstop。
停止OVPM:
用root用户登陆到网管服务器,在命令行执行ovpmstart。
OVPA启停方法
启动OVPA:
用root用户登陆到网管服务器,在命令行执行ovpastop。
停止OVPA:
用root用户登陆到网管服务器,在命令行执行ovpastart。
1.1.6执行ovpmstatus的结果页面里有很多信息,如何查看ovpm的状态?
最后一行“TheOVPMapplicationserverisrunning”表示ovpm正在运行。
上面“OVPMstutusFile”部分显示了ovpm最近从被管服务器中取得性能数据的情况。
1.1.7什么时候需要重启OVPM?
服务器启动后会自动启动OVPM进程。
通常当采集不到服务器性能数据时候,才需要检查OVPM的状态。
BAC
Sitescope状态检查和启动停止
登陆到网管服务器,在Windows服务中查看Sitescope服务状态,并可进行启动停止操作:
BPM状态检查和启动停止
登陆到网管服务器,在Windows服务中查看BPM服务状态,并可进行启动停止操作:
BAC状态检查
登陆到网管服务器,从如下菜单链接打开BAC服务状态页面,确认各项服务状态:
启动:
登陆到网管服务器,从以下菜单链接进行BAC服务的启动。
停止:
登陆到网管服务器,从以下菜单链接进行BAC服务的停止操作。
1.1.8Bac界面访问系统可用性管理时报错?
是BAC的一个bug,可通过重新启动Sitescope服务解决。
。
ORACLE
用root用户登陆到网管服务器,在命令行执行ps–ef|greporacle,查看oracle进程是否存在:
用root用户登陆到网管服务器,执行su–oracle切换到oracle用户,启动oracle,按照下图步骤执行:
停止oracle,按照下图步骤执行:
如果长时间不响应,请中断后重新连接,执行abort操作;
$sqlplus/nolog
SQL>
connection/assysdba;
shutdownabort
注:
执行shutdownabort进行停止的Oracle数据库,在启动的时候要花费较长的时间,有时甚至达到30分钟。
1.1.9什么时候需要重启数据库?
服务器启动后会自动启动oracle。
一般情况下不需要手工启停oracle。
TOMCAT
通过浏览器访问报表系统页面,如果可以打开网页,说明TOMCAT运行正常。
从以下菜单链接打开TOMCAT配置窗口:
从窗口中的“start”和“stop”按钮进行tomcat服务的启动和停止的切换。
1.1.10什么时候需要重启TOMCAT?
服务器启动后会自动启动TOMCAT。
一般来说,只有报表系统网页无法打开时才需要手工启动TOMCAT。
1.1.11为什么重启过TOMCAT后打开会比较慢?
重启TOMCAT后,TOMCAT会重新编译JSP页面并进行缓存,所以第一次访问页面在速度上会慢一些,再次访问就比较快了。
报表数据
数据检查
登陆到亿阳报表系统内,查看各个报表页面是否有最新的性能数据展示:
数据库核查方法
对性能数据报表的检查主要是查看后台采集的各种性能数据是否已经顺利更新到数据库中,这样webportal上所呈现的报表才是最新的数据。
以下是各报表与sql查询语句的对应关系,如查询到的时间结果与当前时间基本保持一致则说明性能数据采集、入库正常,同时也保证了各报表呈现数据的更新。
报表分类
报表名称
对应的数据库表
如何检查数据情况
网络性能
通断状况统计
通断状况统计〉〉、
**网通断情况〉〉
iptaw_devavlres_h
Selectmax(compress_day)fromiptaw_devavlres_h
**网通断情况(日,周)
iptaw_devavlres_d
Selectmax(compress_day)fromiptaw_devavlres_d
**网通断情况(月,年)
iptaw_devavlres_m
Selectmax(month)fromiptaw_devavlres_m
当前设备异常情况、
当前设备时延异常
iptpc_ping_5m
Selectmax(org_time)fromiptpc_ping_5m
流量统计
**网流量统计>
>
iptpa_interface
Selectmax(col_time)from
主干网流量统计(日,周)
iptca_link
iptaw_if_d
Selectmax(compress_day)fromiptaw_if_d
主干网流量统计(月,年)
iptca_link
iptaw_if_m
Selectmax(compress_day)fromiptaw_if_m
**网流量统计(日,周)
**网流量统计(月,年)
包流量统计
所有表
网络设备性能分析
网络设备cpu15分钟
网络设备mem15分钟
iptpc_net_memory
iptpc_net_cpu
Selectmax(col_time)fromiptpc_net_memory、iptpc_net_cpu
网络设备小时
网络设备日
iptaw_node_hour
iptaw_node_day
Selectmax(compress_day)Fromiptaw_node_hour
链路流量分析
链路流量统计
iptaw_link_hour
Selectmax(compress_day)
Fromiptaw_link_hour
接口流量分析
分钟
小时
Iptaw_Port_Hour_New
Selectmax(compress_day)fromIptaw_Port_Hour_New
主机性能
服务器性能分析
服务器cpu
服务器mem
服务器disk
iptpc_host_global_cpu_sum
iptpc_host_memory_sum
iptpc_host_disk_sum
iptpc_host_filesys_sum
Selectmax(org_time)fromiptpc_host_global_cpu_sum
iptpc_host_filesys_sum
1.1.12从数据库中可以查到设备有最新的通端数据,但为什么在统计报表里查询不到?
统计报表都是按照网元组进行分类显示的,所以需要先在网元组管理中将节点加入到对应网元组。
1.1.13为什么查不到接口流量(5分钟)最新的流量数据?
请用root用户登陆到网管服务器,在命令行执行ps–ef|grepsnmpdau,确认snmpdau进程是否启动:
如果没进程不存在,请执行su–yiyang切换到亿阳用户,然后执行:
/data/ipnms/DAL/snmpdau/bin/snmpdaustart,启动后台采集服务。
如果进程存在,那么可以先kill掉snmpdau进程,再重新启动snmpdau。
如果重启进程后问题还不能解决,请检查/data/ipnms/DAL/snmpdau/log里日志是否报错或将日志发给亿阳工程师处理。
1.1.14为什么查询不到最新的主机性能数据?
1.请确认这台服务器安装了ovpa软件,并用mwastatus命令检查ovpa运行是否正常;
如果没有运行,则执行mwarestart进行重新启动;
2.请确认这台服务器的地址已加入了/data/ipnms/DAL/AE/ini/iplist.txt文件中。
3.如以上检查都正确,请联系亿阳工程师处理。
数据追赶方法
在亿阳产品中,报表和数据库表的对应关系如下:
5(15)分钟报表对应数据库中的原始数据表;
小时报表对应数据库中的小时表;
日报表对应数据库中的日表;
月报表对应数据库中的月表;
数据库表的汇总顺序为:
5(15)分钟表--〉小时表--〉日表--〉月表。
因此当发生某张报表(从7.2小节中找到该报表对应的数据库表)没有数据时,要向下逐级核查看到底是在哪个过程中出了问题,并采取措施补追数据。
需要注意的是,如果核查发现底层表都没有数据,需要检查相关采集程序是否正常运行。
追赶数据的方法一般是用ipnms用户(密码ipadmin)登陆数据库在sqlplus下或利用PLSQL等工具执行相关存储过程。
如下是按报表分类讲述数据的追赶方法:
1.1.15通断系列报表:
Selectmax(org_time)fromiptpc_ping--采集入库表,5分钟粒度,接口通断如果没有最新数据,通断采集有问题,查看通断采集的log日志。
Selectmax(org_time)fromiptpc_ping_5m--web用5分钟粒度表,设备通断如果没有最新数据,执行execspw_devavlres(0);
Selectmax(compress_day)Fromiptaw_devavlres_h--小时表,如果没有最新数据,手动执行:
execspw_devavlres_hour(0);
Selectmax(compress_day)Fromiptaw_devavlres_d--日表,如果没有最新数据,手动执行:
execspw_devavlres_day(0);
Selectmax(compress_day)Fromiptaw_devavlres_m--月表,如果没有最新数据,手动执行:
execspw_devavlres_mon(0);
Selectmax(compress_day)fromiptaw_ping_statistic--宕机时间日表,如果没有最新数据,手动执行:
execspw_devavlres_status;
1.1.16流量系列报表:
Selectmax(col_time)Fromiptpa_interface--采集入库5分钟表,如果没有最新数据,说明是采集入库出了问题,查看snmpdau最新日志。
Selectmax(compress_day)Fromiptaw_port_hour_new–小时表,如果没有最新数据,手动执行:
execspw_if_hour_new(0,0);
Selectmax(compress_day)Fromiptaw_if_d–日表,如果没有最新数据,手动执行:
execspw_if_d(0);
Selectmax(compress_day)Fromiptaw_if_m–月表,如果没有最新数据,手动执行:
execspw_if_mon(0);
如果表中有数据,但链路的视图中没有数据,请参见上面视图创建的sql查看是哪个where条件没有关联上导致。
1.1.17网络设备性能(cpu/内存)系列报表:
Selectmax(org_time)fromiptpc_net_cpu--网络设备CPU采集入库表,5分钟,如果没有最新数据,snmpdau采集有问题,查看snmpdau的log日志。
Selectmax(org_time)fromiptpc_net_memory--网络设备内存采集入库表,5分钟,如果没有最新数据,snmpdau采集有问题,查看snmpdau的log日志。
Selectmax(compress_day)fromiptaw_node_hour--网络设备CPU/内存小时表,counter_type为1的是CPU,counter_type为2的是内存,如果没有最新数据,手动执行execspw_node_hour;
Selectmax(compress_day)fromiptaw_node_day--网络设备CPU/内存日表,counter_type为1的是CPU,counter_type为2的是内存,如果没有最新数据,手动执行execspw_node_day;
1.1.18主机cpu系列报表:
Selectmax(org_time)fromiptpc_host_global_cpu--主机CPU采集入库表,5分钟粒度数据,但调度是半小时调度一次,所以只要有半小时之前的数据即算正常。
如果没有最新数据,AE有问题,查看AE的log日志。
Selectmax(org_time)fromiptpc_host_global_cpu_sumwheresum_level=0--主机CPU小时表,如果没有最新数据,手动执行execspw_Host_Global_CPU_sum(0);
Selectmax(org_time)fromiptpc_host_global_cpu_sumwheresum_level=1--主机CPU日表,如果没有最新数据,手动执行execspw_Host_Global_CPU_sum
(1);
1.1.19主机memory系列报表:
主机磁盘系列报表:
Selectmax(org_time)fromiptpc_host_disk--主机磁盘采集入库表,5分钟粒度数据,但调度是半小时调度一次,所以只要有半小时之前的数据即算正常。
Selectmax(org_time)fromiptpc_host_disk_sumwheresum_level=0--主机磁盘小时表,如果没有最新数据,手动执行execspw_Host_disk_sum(0);
Selectmax(org_time)fromiptpc_host_disk_sumwheresum_level=1--主机磁盘日表,如果没有最新数据,手动执行execspw_Host_disk_sum
(1);
1.1.20主机文件系统报表:
Selectmax(org_time)fromiptpc_host_filesys--主机文件系统采集入库表,5分钟粒度数据,但调度是半小时调度一次,所以只要有半小时之前的数据即算正常。
Selectmax(org_time)fromiptpc_host_filesys_sumwheresum_level=0--主机文件系统小时表,如果没有最新数据,手动执行execspw_Host_filesys_sum(0);
Selectmax(org_time)fromiptpc_host_filesys_sumwheresum_level=1--主机文件系统日表,如果没有最新数据,手动执行execspw_Host_filesys_sum
(1);
1.1.21主机进程报表:
Selectmax(org_time)fromiptpa_host_proc--主机进程采集入库表,5分钟粒度数据,但调度是半小时调度一次,所以只要有半小时之前的数据即算正常,如果没有最新数据,AE有问题,查看AE的log日志。
1.1.22Oracle性能分析报表:
页面基本信息都是通过sql语句直接连接对方数据库查询出来的。
如果没有数据,可以直接执行上面相关的sql查看原因。
--一般是dblink建立问题
Selectmax(org_time)fromiptpc_db_mem_used--DB_Buffer命中率趋势分析,由db2db采集,如果没有最新数据,请查看db2db的