第五章日常维护.docx

资源描述

第五章日常维护.docx

《第五章日常维护.docx》由会员分享，可在线阅读，更多相关《第五章日常维护.docx（46页珍藏版）》请在冰豆网上搜索。

第五章日常维护.docx

第五章日常维护

第一节省级话务网管维护及优化

一、系统简介

（一）平台架构

图5-1系统简介图

1、采集适配器：

网元接口适配器为厂家接入程序，为二次开发的程序或组件，对于新的网元类型或接口协议才需要开发新的组件，而接入同一个类型的多个网元应该作为同一个适配器的多个实例。

2、主动检测：

自动检测为主动采集的发起方，是驻留在采集机上的守护进程；采集检测模块从LDAP中读取配置信息，它自动生成检测任务；执行相应的检测任务，检测任务的执行就是调用各厂家检测脚本不断的对OMC针对特定时间段进行数据完整性检查；一旦发现某个时间段的数据完备了，它就通知采集逻辑控制部分启动采集；根据连续多次检测成功的时间作为经验值来启动单独进程进行检测任务的执行，这样就可以提高检测进程的命中率，降低检测进程的执行时间；对长期检测不成功的任务采用滑动窗口机制执行，降低检测任务的优先级，降低进程个数，降低系统负荷；自动调整经验值；支持强制采集功能、自动补采功能，支持触发定时采集功能；检查厂家OMC端数据的完整性。

根据OMC端的接口情况分别采用相应的检查方法；文件接口：

根据设定的节点网元列表、文件列表及相应文件大小、1分钟内文件是否被修改来判断OMC端数据的完整性；指令接口：

判断采集点IP地址是否可达，通过向OMC发某条指令分析指令返回结果判断OMC端数据的完整性（需要厂家OMC支持）；数据库接口：

根据设定的某测量当前时间的理论数据条数、该测量最近一段时间的平均数据条数、指标检查规则检查OMC端数据的完整性。

3、采集控制：

接收采集检测模块发送的启动采集任务消息，完成对采集任务的调度和总控，向自身管理模块发送采集状态，接收自身管理模块下发的启动停止命令并进行执行，调用采集适配器完成任务的调度，能够自动补采。

4、数据装载：

把数据入库到数据库中，数据入库策略采用在表上建主键或唯一索引利用数据库自身的过滤规则来进行增量方式入库，同时也提供先删除后入库的方式，对这两种方式提供开关控制;

5、数据核查：

比较原始数据库中某测量当前时间的数据条数和库中该测量配置数据条数；比较原始数据库中某测量当前时间的数据条数和原始数据库中该测量最近一段时间的平均数据条数；根据设定的某测量的指标检查规则检查原始数据库中该测量当前时间的每一条记录，指标检查规则是该指标是否可为空、下限、上限等约束条件；

6、数据导出：

根据数据需求把数据从数据库中导出为数据文件，便于数据共享。

7、自身管理：

检测各模块的心跳信息，确定系统的总体运行状况，创建Socket服务端接受各采集控制模块发送来的采集过程中的状态信息;通过MQ发送到公共服务平台上;采集过程发生的可识别错误，能够以内部事件方式向网管系统发出告警，把告警信息发送到告警平台上;把必要的信息存入数据库方便查询;接收公共服务平台上的控制消息，通过Socket客户端发送给相应的模块。

下发的控制消息包括：

通知采集控制模块启动停止某个采集程序。

8、元数据管理界面：

采用B/S结构，在界面中实现对原始数据库中表、字段的增、删、改、查，原始数据库中数据和网元侧数据的对应关系也采用元数据描述。

参考界面如下：

图5-2元数据管理界面

采集自身管理界面：

对平台运行状态监视，系统资源CPU、内存、硬盘占用情况监视，采集控制，生成系统数据采集状况报告。

（二）功能视图

根据对湖北移动有关情况初步的调研和对于国内外类似的有关业务、应用系统的研究；我公司对全省综合采集处理系统的具体需求进行了归纳，主要如下：

1、实时响应请求

要求数据指令系统能够不间断，7×24小时实时响应来自网管系统和其他平台的请求，并实时应答对方请求；

2、自动尝试重新连接

实现系统自动重新握手，同网元设备的连接意外中断后，自动尝试重新连接；

3、实现并发访问

实现多套指令向同一网元设备提交问题，允许多种版本指令并存；一台处理机可以同时对多个交换设备。

4、高处理速度

在数据处理高峰期，指令不能因为联机指令系统的性能问题而堆积；

实现指令优先级控制功能

根据不同重要指令，需要尽快响应的指令，实现优先处理；

在增加网元设备或网元设备版本更新时，对网管系统和其他平台实现透明

今后如果有新版本交换设备入网，综合采集系统可以平滑升级，配合支持。

建立覆盖全省的综合指令中心系统，形成全省统一的联机指令体系结构，从而实现统一模式，为实现综合业务网络统一管理、监控作好准备。

网络传输上充分利用当前移动信息系统已建立的网络系统：

在不影响原来的应用系统的数据传输的基础上，在原来的网络连接上同时传输联机指令系统的数据，必要时扩大原来网络连接的带宽。

网络设计上充分考虑网络结构的层次性和连接链路的简明，使整个网络的传输性能易于优化和管理。

综合采集系统的三层结构：

网元设备接口层、核心处理层和数据接口层。

多模块、可扩展的设计原则，采用模块化的流水线处理方式，保证业务实现的灵活性、高拓展能力。

如新增网元设备或是网元设备升级，都不会对系统的稳定运行造成影响。

网管系统和其他平台通过数据接口层与综合采集系统进行数据交换。

数据接口层对核心数据处理层进行数据请求，核心处理层实现集中存储网管系统和其他平台的请求数据的同时，将指令能够按照优先级等规则或者定义的排序规则进行排队有序处理，同时实现指令互斥判断功能；实现数据量高峰时的缓冲处理；核心处理层对于数据的分析，使集中存储的数据实现分类放置，缩短请求响应时间，减少系统内存使用率，提高系统的工作效率；实现数据的分发和重发，保障系统数据发送准确。

经过核心处理层处理的数据发往网元设备接口层进行数据请求，实现指令转换，同网元设备交互；对网元设备接口层进行数据请求时，按照业务种类进行分类交换，如GSM、GPRS，智能网，IP17951、短信平台等业务种类。

综合采集系统的数据接口层、核心处理层和网元设备接口层通过本地链路连接，提高了处理速度，同时保障了线路的可靠性。

（三）技术视图

图5-3技术视图

二、系统组网结构

（一）组网结构图

图5-4系统组网结构图

（二）软硬件概述

名称

设备名称

型号

用途

IP地址

其他板卡

控制口IP

性能数据库服务器、TD数据库服务器

TDDB1

SUNM8000

提供性能/配置数据的保存，查询及备份

10.25.0.212

无

性能采集服务器

hubei-uniondal

SUNM8000

采集网元的性能信息。

10.25.0.219

无

部省接口服务器

hubei-mq

SUNE2900

向总部传送省内的资源、性能、告警数据。

10.25.0.3

无

综合告警数据库服务器

HBAMS1

SUNV890

综合告警数据库服务器

10.25.0.193

无

综合告警采集服务器

HBAMS2

SUNV890

综合告警采集服务器

10.25.0.194

无

网优采集服务器

nios-server

SUNV890

老网优采集，数据库服务器

10.25.0.195

无

综合告警采集服务器

hbniosserver1

SUNM8000

网优（OSS2.0）数据库服务器

10.25.0.213

无

综合告警采集服务器

SUNV890

主动监控采集服务器

10.25.0.11

无

TD采集服务器

hbwg2

SUNE2900

TD数据的采集服务器

10.25.0.7

无

告警标准化采集服务器

hbwg3

SUNE2900

告警标准化平台底层采集，解析服务器

10.25.0.2

无

告警标准化数据库服务器

hbwg4

SUNE2900

告警标准化平台数据库服务器

10.25.0.4

无

话务网管域管理服务器

IBM350

话务网管域管理服务

10.25.0.10

无

话务网管域管理服务器

IBM350

话务网管报表WEB服务器

10.25.2.79

无

话务网管域管理服务器

IBM350

话务网管局数据应用服务器

10.25.0.9

无

话务网管域管理服务器

IBM350

话务网管智能巡检WEB服务期

10.25.0.27

无

话务网管域管理服务器

IBM350

话务网管主动监控服务器

10.25.0.26

无

（三）外部接口概述

1、与网管系统接口

（1）统一指令系统接口机和网管系统连接所使用的物理介质为10/100M网络

（2）使用TCP/IP协议

（3）使用统一格式的数据包进行数据传送

（4）统一指令系统接口机与网管系统的数据交换方式

异步方式：

建立两条逻辑链路实现数据的传输。

网管系统使用其中的一条逻辑链路传输数据给联机指令系统接口机，联机指令系统接口机使用另外一条逻辑链路传输联机指令系统的应答给网管系统，如下图示：

图5-5异步方式

同步方式：

联机指令系统接口机与网管系统采用多条双向式连接链路交换数据，发送数据请求，等待结果返回，如下图示：

图5-6同步方式

2、与网元设备接口

针对不同的网元设备，不同的外挂通讯模块

（1）针对不同的网元设备，不同的指令配置参数

（2）与网元设备的通讯接口一对一设计，互相独立

（3）端口级负载均衡

（4）端口级容错功能

三、日常例行维护

服务器巡检

主机检查

检查文件系统使用情况，％used是否超过75%

#/df-k

/usr--超过70%需要进一步检查增大原因

/var--超过60%需要进一步检查增大原因，超过85%需要及时检查处理

/var/run--超过50%需要进一步检查增大原因

/opt--最好不要超过80%超过需要及时检查处理

/tmp--超过60%需要进一步检查增大原因

/export/home--超过60%需要进一步检查增大原因

/var/mqm/errors--超过60%需要进一步检查增大原因

/var/mqm/log--超过60%需要进一步检查增大原因

日志文件的监测

检查方法：

df-Fufs-oi

可用（df-oi）

使用率超过90%需要预警

防止一个目录下文件个数超过unix限制

#/var/adm/messages.log

#/var/log/syslog.log

备份数据库状态检查

数据库备份

全系统0级备份：

1、改动onconfig

TAPEDEV/dev/rmt/0h

TAPEBLK16

TAPESIZE4096000

2、ontape–s–L0

3、检查online.log日志，查看备份是否成功。

把备份目录文件转储磁带

%find*|cpio–o/dev/rmt/0h

数据库运行状态检查

数据库状态检查

表空间检查：

（低于10%）

Onstat–d或

selecttabnamefromsystables

wheretabnamelike'tmp%'

检查最近20行的数据库日志和运行状态：

Onstat–m

检查部分大表数据纪录：

selecttabname,nrowsfromsystables

wheretabid>99

andnrows>10000000

数据库日志

检查一周是否存在Assert,Fail等错误

Vionline.log（hbwg2-npmuser-/opt/informix/log/npm）

主机运行检查

MQSERVER（.3）

检查/var/mqm、/var空间是否超过85%（超过则运行下面2步）

主机检查（.3）

清理rm/var/tmp/*

rm/var/mqm/errors/*.FDC

crontab内容的检查

检查方法:

crontab-l

察看任务内容是否都存在，主要是检查是否有人误操作将任务都清除掉；注意不要误敲命令：

crontab-r该命令将会清除定时任务；

0,6,12,18,24,30,36,42,48,54****/opt/BOCO.DAL/bin/sfa_sync_act.sh

查看/opt/BOCO.DAL/bin/log/sfa_sync_act.log检查crontab运行日志，如发现crontab运行异常时联系维护人员处理

积压检查（.3）

export/home/mqadmin/bin/showkpi.sh

PM采集（.18）

检查#/trace/*/目录错误日志

主机检查（.18）

清理*.report和*.log日志（定时任务已完成）

集中告警、操作维护（.12）

检查告警采集和处理进程个数是否正常

ps-ef|grepinvoker_rt

ps-ef|grep-vgrep|greprthandler|wc–l

ps-ef|grep-vgrep|grepSCollector|wc–l

*集中操作维护代理是否正常

ps-ef|greptrans_port_neagt

*检查LDAPSERVER是否正常

ps-ef|grepslapd

*检查MySQL数据库是否正常，数据文件大小

/usr/local/MySQL/bin/mysqladmin-uprootstatus

ls–l/usr/local/MySQL/var/dbfmiddb

ls–l/usr/local/MySQL/var/fmid

磁盘整理检查

T3阵列

T3阵列检查

Volstatv0

Volstatv1

Volmodev0

Volmodev1

Frustat

服务器

登录用户

详细信息

检查方法

重点关注

10.25.0.12

（三改告警采集）

nfmdal

Nfm!

@123

磁盘空间检查

df-k（系统监控）

/usr--超过70%需要进一步检查增大原因

/var--超过60%需要进一步检查增大原因

/var/run--超过50%需要进一步检查增大原因

/opt--最好不要超过90%超过需要及时检查处理

/tmp--超过60%需要进一步检查增大原因

/export/home--超过60%需要进一步检查增大原因

/var/mqm/errors--超过60%需要进一步检查增大原因

/var/mqm/log--超过60%需要进一步检查增

df-oi

查看日志

cd/var/adm

vimmessages（:

$）

检查是否存在Error等报错信息

cd/var/log

vimsyslog（:

$）

系统资源检查

top（系统监控）

如idle小于30%

freemem<2G

freeswap<5G

iowait>30%

则查找最费资源的进程，联系相关人员进一步处理

检查告警采集和处理进程个数

ps-ef|grep-vgrep|greprthandler|wc-l

45个。

如果为0或差别很大，需要重启rthandler和Scollector

ps-ef|grep-vgrep|grepSCollector|wc-l

crontab内容检查

crontab-l

crontab内容检查

10.25.0.193

（综合告警数据库）

oracle

Ora!

@123

磁盘空间检查

df-k（系统监控）

df-oi

系统资源检查

top（系统监控）

如idle小于30%

freemem<2G

freeswap<5G

iowait>30%

则查找最费资源的进程，联系相关人员进一步处理

查看日志

cd/opt/BOCO.DAL/bin/log

tail-fsfa_sync_act.log

查看一个完整的进程运行完所需要的时间（5分钟左右正常，超过9分钟异常）

cd/opt/BOCO.DAL/bin/log

catupdate_statistic.log

每天12点01分运行

cd/opt/BOCO.DAL/bin/log

catclear_data.log

每天9点30分运行,两条清除一条插入

cd/var/adm

ls-ltr

tail-fmessages

检查是否存在Error等报错信息

crontab内容检查

crontab-l

crontab内容检查

10.25.0.194

（综合告警采集）

daladmin

Dal!

@123

磁盘空间检查

df-k（系统监控）

/usr--超过70%需要进一步检查增大原因

/var--超过60%需要进一步检查增大原因

/var/run--超过50%需要进一步检查增大原因

/opt--最好不要超过90%超过需要及时检查处理

/tmp--超过60%需要进一步检查增大原因

/export/home--超过60%需要进一步检查增大原因

/var/mqm/errors--超过60%需要进一步检查增大原因

/var/mqm/log--超过60%需要进一步检查增

df-oi

系统资源检查

top（系统监控）

如idle小于30%

freemem<2G

freeswap<5G

iowait>30%

则查找最费资源的进程，联系相关人员进一步处理

invoker_rt

运行状况

ps-ef|grepinvoker_rt

（系统监控）

invoker_rt运行状况

查看日志

cd/tmp/alarmlog

ls-ltr

检查是否有当前最新时间产生的log日志

crontab内容检查

crontab-l

crontab内容检查

mqadmin

Mqa!

@123

查看消息列队状态管理

cd/opt/BOCO.MQ/bin

show.sh

查看消息列队状态管理

进程检查

ps-ef|grepfmhandler|wc

（系统监控）

进程检查

crontab内容检查

crontab-l

crontab内容检查

10.25.0.2

（告警标准化）

daladmin

Dal!

@123

磁盘空间检查

df-k（系统监控）

/usr--超过70%需要进一步检查增大原因

/var--超过60%需要进一步检查增大原因

/var/run--超过50%需要进一步检查增大原因

/opt--最好不要超过90%超过需要及时检查处理

/tmp--超过60%需要进一步检查增大原因

/export/home--超过60%需要进一步检查增大原因

/var/mqm/errors--超过60%需要进一步检查增大原因

/var/mqm/log--超过60%需要进一步检查增

df-oi

查看日志

cd/var/adm

vimmessages（:

$）

检查是否存在Error等报错信息

系统资源检查

top（系统监控）

如idle小于30%

freemem<2G

freeswap<5G

iowait>30%

则查找最费资源的进程，联系相关人员进一步处理

查看日志

cd/tmp/alarmlog

ls-ltr

检查是否有当前最新时间产生的log日志

crontab内容检查

crontab-l

crontab内容检查

mqadmin

Mqa!

@123

查看消息列队状态管理

cd/opt/BOCO.MQ/bin

show.sh

查看消息列队状态管理

进程检查

ps-ef|grepfmhandler|wc

（系统监控）

进程检查

查看日志

cd/tmp

ls-lrt

通过日志查看消息发送是否正常

是否存在

AlarmForward3AD.log（3期重大）

AlarmForward_TF.pl.log.pid.num（3期退服）

AlarmForward4.log（4期重大）

AlarmForward4_TF.pl.log（4期退服）

（表示传输队列的当前深度超过了最大值）

并检查内容中是否有报错（退服日志可以有CC=2）

进程检查

ps-ef|grepmqadmin|grepAlarmForward_TF.pl

（系统监控）

AlarmForward4

ps-ef|grepmqadmin|grepAlarmForward3.pl

（系统监控）

查看省部接口重大告警前转程序

crontab内容检查

crontab-l

crontab内容检查

10.25.0.4（告警标准化数据库）

oracle

Ora!

@123

查看日志

cd/opt/oracle/bin/log

tail-fsfa_sync_act.log

查看一个完整的进程运行完所需要的时间（5分钟左右正常，超过9分钟异常）

cd/opt/oracle/bin/log

catupdate_statistic.log

每天12点01分运行

cd/var/adm

ls-ltr

tail-fmessages

检查是否存在Error等报错信息

crontab内容检查

crontab-l

crontab内容检查

10.25.0.7（转发北纬）

Lz8&ujR}

日志检查

cd/opt/td/BOCO/logcd当前日期vimAlarmTransfer.log

检查最新产生的日志中AlarmTransfer.log是否正常

10.25.0.11（主动性能监控转发程序）

hbdal

xK17?

PME

日志检查

tail-f/opt/hbdal/NPMKpiForward/log/gdau.log

检查日志内的告警产生时间，是否是当前时间

例：

2010-07-0509:

24:

数据库核查

核查转发库情况

nmosdb@wnmsserver1

selectmax（eventtime）fromtfa_alarm_kpi

查出的时间应该接近当前时间

服务器

登录用户

详细信息

检查方法

重点关注

10.25.0.7

（TD采集）

npmdal

Npm123!

磁盘空间检查

df-k（系统监控）

/usr--超过70%需要进一步检查增大原因

/var--超过60%需要进一步检查增大原因

/var/run--超过50%需要进一步检查增大原因

/opt--最好不要超过90%超过需要及时检查处理

/tmp--超过60%需要进一步检查增大原因

/export/home--超过60%需要进一步检查增大原因

/var/mqm/errors--超过60%需要进一步检查增大原因

/var/mqm/log--超过60%需要进一步检查

展开阅读全文

第五章 日常维护.docx

第五章日常维护.docx