ImageVerifierCode 换一换
格式:DOCX , 页数:46 ,大小:469.70KB ,
资源ID:8839588      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/8839588.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(第五章 日常维护.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

第五章 日常维护.docx

1、第五章 日常维护第五章日常维护第一节省级话务网管维护及优化一、系统简介(一)平台架构图5-1 系统简介图1、采集适配器:网元接口适配器为厂家接入程序,为二次开发的程序或组件,对于新的网元类型或接口协议才需要开发新的组件,而接入同一个类型的多个网元应该作为同一个适配器的多个实例。2、主动检测:自动检测为主动采集的发起方,是驻留在采集机上的守护进程;采集检测模块从LDAP中读取配置信息,它自动生成检测任务;执行相应的检测任务,检测任务的执行就是调用各厂家检测脚本不断的对OMC针对特定时间段进行数据完整性检查;一旦发现某个时间段的数据完备了,它就通知采集逻辑控制部分启动采集;根据连续多次检测成功的时

2、间作为经验值来启动单独进程进行检测任务的执行,这样就可以提高检测进程的命中率,降低检测进程的执行时间;对长期检测不成功的任务采用滑动窗口机制执行,降低检测任务的优先级,降低进程个数,降低系统负荷;自动调整经验值;支持强制采集功能、自动补采功能,支持触发定时采集功能;检查厂家OMC端数据的完整性。根据OMC端的接口情况分别采用相应的检查方法;文件接口:根据设定的节点网元列表、文件列表及相应文件大小、1分钟内文件是否被修改来判断OMC端数据的完整性;指令接口:判断采集点IP地址是否可达,通过向OMC发某条指令分析指令返回结果判断OMC端数据的完整性(需要厂家OMC支持);数据库接口:根据设定的某测

3、量当前时间的理论数据条数、该测量最近一段时间的平均数据条数、指标检查规则检查OMC端数据的完整性。3、采集控制:接收采集检测模块发送的启动采集任务消息,完成对采集任务的调度和总控,向自身管理模块发送采集状态,接收自身管理模块下发的启动停止命令并进行执行,调用采集适配器完成任务的调度,能够自动补采。4、数据装载:把数据入库到数据库中,数据入库策略采用在表上建主键或唯一索引利用数据库自身的过滤规则来进行增量方式入库,同时也提供先删除后入库的方式,对这两种方式提供开关控制;5、数据核查:比较原始数据库中某测量当前时间的数据条数和库中该测量配置数据条数;比较原始数据库中某测量当前时间的数据条数和原始数

4、据库中该测量最近一段时间的平均数据条数;根据设定的某测量的指标检查规则检查原始数据库中该测量当前时间的每一条记录,指标检查规则是该指标是否可为空、下限、上限等约束条件;6、数据导出:根据数据需求把数据从数据库中导出为数据文件,便于数据共享。7、自身管理:检测各模块的心跳信息,确定系统的总体运行状况,创建Socket服务端接受各采集控制模块发送来的采集过程中的状态信息;通过MQ发送到公共服务平台上;采集过程发生的可识别错误,能够以内部事件方式向网管系统发出告警,把告警信息发送到告警平台上;把必要的信息存入数据库方便查询;接收公共服务平台上的控制消息,通过Socket客户端发送给相应的模块。下发的

5、控制消息包括:通知采集控制模块启动停止某个采集程序。8、元数据管理界面:采用B/S结构,在界面中实现对原始数据库中表、字段的增、删、改、查,原始数据库中数据和网元侧数据的对应关系也采用元数据描述。参考界面如下:图5-2 元数据管理界面采集自身管理界面:对平台运行状态监视,系统资源CPU、内存、硬盘占用情况监视,采集控制,生成系统数据采集状况报告。(二)功能视图根据对湖北移动有关情况初步的调研和对于国内外类似的有关业务、应用系统的研究;我公司对全省综合采集处理系统的具体需求进行了归纳,主要如下:1、实时响应请求要求数据指令系统能够不间断,724小时实时响应来自网管系统和其他平台的请求,并实时应答

6、对方请求;2、自动尝试重新连接实现系统自动重新握手,同网元设备的连接意外中断后,自动尝试重新连接;3、实现并发访问实现多套指令向同一网元设备提交问题,允许多种版本指令并存;一台处理机可以同时对多个交换设备。4、高处理速度在数据处理高峰期,指令不能因为联机指令系统的性能问题而堆积;实现指令优先级控制功能根据不同重要指令,需要尽快响应的指令,实现优先处理; 在增加网元设备或网元设备版本更新时,对网管系统和其他平台实现透明今后如果有新版本交换设备入网,综合采集系统可以平滑升级,配合支持。建立覆盖全省的综合指令中心系统,形成全省统一的联机指令体系结构,从而实现统一模式,为实现综合业务网络统一管理、监控

7、作好准备。网络传输上充分利用当前移动信息系统已建立的网络系统:在不影响原来的应用系统的数据传输的基础上,在原来的网络连接上同时传输联机指令系统的数据,必要时扩大原来网络连接的带宽。网络设计上充分考虑网络结构的层次性和连接链路的简明,使整个网络的传输性能易于优化和管理。综合采集系统的三层结构:网元设备接口层、核心处理层和数据接口层。多模块、可扩展的设计原则,采用模块化的流水线处理方式,保证业务实现的灵活性、高拓展能力。如新增网元设备或是网元设备升级,都不会对系统的稳定运行造成影响。网管系统和其他平台通过数据接口层与综合采集系统进行数据交换。数据接口层对核心数据处理层进行数据请求,核心处理层实现集

8、中存储网管系统和其他平台的请求数据的同时,将指令能够按照优先级等规则或者定义的排序规则进行排队有序处理,同时实现指令互斥判断功能;实现数据量高峰时的缓冲处理;核心处理层对于数据的分析,使集中存储的数据实现分类放置,缩短请求响应时间,减少系统内存使用率,提高系统的工作效率;实现数据的分发和重发,保障系统数据发送准确。经过核心处理层处理的数据发往网元设备接口层进行数据请求,实现指令转换,同网元设备交互;对网元设备接口层进行数据请求时,按照业务种类进行分类交换,如GSM、GPRS,智能网,IP17951、短信平台等业务种类。综合采集系统的数据接口层、核心处理层和网元设备接口层通过本地链路连接,提高了

9、处理速度,同时保障了线路的可靠性。(三)技术视图图5-3 技术视图二、系统组网结构(一)组网结构图图5-4 系统组网结构图(二)软硬件概述名称设备名称型号用途IP地址其他板卡控制口IP性能数据库服务器、TD数据库服务器TDDB1SUN M8000提供性能/配置数据的保存,查询及备份10.25.0.212无无性能采集服务器hubei-uniondalSUN M8000采集网元的性能信息。10.25.0.219无无部省接口服务器hubei-mqSUN E2900向总部传送省内的资源、性能、告警数据。10.25.0.3无无综合告警数据库服务器HBAMS1SUN V890综合告警数据库服务器10.25

10、.0.193无无综合告警采集服务器HBAMS2SUN V890综合告警采集服务器10.25.0.194无无网优采集服务器nios-serverSUN V890老网优采集,数据库服务器10.25.0.195无无综合告警采集服务器hbniosserver1SUN M8000网优(OSS2.0)数据库服务器10.25.0.213无无综合告警采集服务器hbSUN V890主动监控采集服务器10.25.0.11无无TD采集服务器hbwg2SUN E2900TD数据的采集服务器10.25.0.7无无告警标准化采集服务器hbwg3SUN E2900告警标准化平台底层采集,解析服务器10.25.0.2无无告警

11、标准化数据库服务器hbwg4SUN E2900告警标准化平台数据库服务器10.25.0.4无无话务网管域管理服务器IBM 350话务网管域管理服务10.25.0.10无无话务网管域管理服务器IBM 350话务网管报表WEB服务器10.25.2.79无无话务网管域管理服务器IBM 350话务网管局数据应用服务器10.25.0.9无无话务网管域管理服务器IBM 350话务网管智能巡检WEB服务期10.25.0.27无无话务网管域管理服务器IBM 350话务网管主动监控服务器10.25.0.26无无(三)外部接口概述1、与网管系统接口(1)统一指令系统接口机和网管系统连接所使用的物理介质为10/10

12、0M网络(2)使用TCP/IP协议(3)使用统一格式的数据包进行数据传送(4)统一指令系统接口机与网管系统的数据交换方式异步方式:建立两条逻辑链路实现数据的传输。网管系统使用其中的一条逻辑链路传输数据给联机指令系统接口机,联机指令系统接口机使用另外一条逻辑链路传输联机指令系统的应答给网管系统,如下图示:图5-5 异步方式同步方式:联机指令系统接口机与网管系统采用多条双向式连接链路交换数据,发送数据请求,等待结果返回,如下图示:图5-6 同步方式2、与网元设备接口针对不同的网元设备,不同的外挂通讯模块(1)针对不同的网元设备,不同的指令配置参数(2)与网元设备的通讯接口一对一设计,互相独立(3)

13、端口级负载均衡(4)端口级容错功能三、日常例行维护服务器巡检主机检查检查文件系统使用情况,used是否超过75%#/df -k/usr -超过70%需要进一步检查增大原因/var -超过60%需要进一步检查增大原因,超过85%需要及时检查处理/var/run -超过50%需要进一步检查增大原因/opt -最好不要超过80% 超过需要及时检查处理/tmp -超过60%需要进一步检查增大原因/export/home -超过60%需要进一步检查增大原因/var/mqm/errors-超过60%需要进一步检查增大原因/var/mqm/log -超过60%需要进一步检查增大原因日志文件的监测检查方法:d

14、f -F ufs -o i 可用(df -o i)使用率超过 90% 需要预警防止一个目录下文件个数超过unix限制#/var/adm/messages.log#/var/log/syslog.log备份数据库状态检查数据库备份全系统0级备份:1、改动onconfigTAPEDEV /dev/rmt/0hTAPEBLK 16TAPESIZE 40960002、ontape s L 03、检查online.log日志,查看备份是否成功。把备份目录文件转储磁带%find * |cpio o /dev/rmt/0h数据库运行状态检查数据库状态检查表空间检查:(低于10%)Onstat d 或sele

15、ct tabname from systableswhere tabname like tmp%检查最近20行的数据库日志和运行状态:Onstat m检查部分大表数据纪录:select tabname,nrows from systableswhere tabid99 and nrows10000000数据库日志检查一周是否存在Assert, Fail等错误Vi online.log(hbwg2-npmuser-/opt/informix/log/npm)主机运行检查MQ SERVER(.3)检查 /var/mqm、/var空间是否超过85%(超过则运行下面2步)主机检查(.3)清理 rm /

16、var/tmp/*rm /var/mqm/errors/*.FDCcrontab 内容的检查检查方法: crontab -l 察看任务内容是否都存在,主要是检查是否有人误操作将任务都清除掉;注意不要误敲命令:crontab -r 该命令将会清除定时任务;0,6,12,18,24,30,36,42,48,54 * * * * /opt/BOCO.DAL/bin/sfa_sync_act.sh查看/opt/BOCO.DAL/bin/log/sfa_sync_act.log检查crontab运行日志,如发现crontab 运行异常时联系维护人员处理积压检查(.3)export/home/mqadmi

17、n/bin/showkpi.shPM采集(.18)检查#/trace/*/目录错误日志主机检查(.18)清理 *.report 和 *.log 日志(定时任务已完成)集中告警、操作维护(.12)检查告警采集和处理进程个数是否正常ps -ef|grep invoker_rtps -ef | grep -v grep | grep rthandler|wc lps -ef|grep -v grep |grep SCollector|wc l*集中操作维护代理是否正常ps -ef|grep trans_port_neagt*检查LDAP SERVER是否正常ps -ef|grep slapd*检查M

18、ySQL数据库是否正常,数据文件大小/usr/local/MySQL/bin/mysqladmin -uproot statusls l /usr/local/MySQL/var/dbfmiddbls l /usr/local/MySQL/var/fmid磁盘整理检查T3阵列T3阵列检查Vol stat v0Vol stat v1Vol mode v0Vol mode v1Fru stat服务器登录用户详细信息检查方法重点关注10.25.0.12(三改告警采集)nfmdalNfm!123磁盘空间检查df -k(系统监控)/usr -超过70%需要进一步检查增大原因 /var -超过60%需要进

19、一步检查增大原因 /var/run -超过50%需要进一步检查增大原因 /opt -最好不要超过90% 超过需要及时检查处理 /tmp -超过60%需要进一步检查增大原因 /export/home -超过60%需要进一步检查增大原因 /var/mqm/errors -超过60%需要进一步检查增大原因 /var/mqm/log -超过60%需要进一步检查增df -o i查看日志cd /var/admvim messages(:$)检查是否存在Error等报错信息cd /var/logvim syslog(:$)系统资源检查top(系统监控)如idle小于30%free mem 2G free s

20、wap 30% 则查找最费资源的进程,联系相关人员进一步处理检查告警采集和处理进程个数ps -ef | grep -v grep | grep rthandler|wc -l45个。如果为0或差别很大,需要重启rthandler和Scollectorps -ef|grep -v grep |grep SCollector|wc -lcrontab内容检查crontab -lcrontab内容检查10.25.0.193(综合告警数据库)oracleOra!123磁盘空间检查df -k(系统监控)aidf -o i系统资源检查top(系统监控)如idle小于30%free mem 2G free

21、swap 30% 则查找最费资源的进程,联系相关人员进一步处理查看日志cd /opt/BOCO.DAL/bin/logtail -f sfa_sync_act.log查看一个完整的进程运行完所需要的时间(5分钟左右正常,超过9分钟异常)cd /opt/BOCO.DAL/bin/logcat update_statistic.log每天12点01分运行cd /opt/BOCO.DAL/bin/logcat clear_data.log每天9点30分运行,两条清除一条插入cd /var/admls -ltrtail -f messages检查是否存在Error等报错信息crontab内容检查cro

22、ntab -lcrontab内容检查10.25.0.194(综合告警采集)daladminDal!123磁盘空间检查df -k(系统监控)/usr -超过70%需要进一步检查增大原因 /var -超过60%需要进一步检查增大原因 /var/run -超过50%需要进一步检查增大原因 /opt -最好不要超过90% 超过需要及时检查处理 /tmp -超过60%需要进一步检查增大原因 /export/home -超过60%需要进一步检查增大原因 /var/mqm/errors -超过60%需要进一步检查增大原因 /var/mqm/log -超过60%需要进一步检查增df -o i系统资源检查top

23、(系统监控)如idle小于30%free mem 2G free swap 30% 则查找最费资源的进程,联系相关人员进一步处理invoker_rt运行状况ps -ef|grep invoker_rt(系统监控)invoker_rt运行状况查看日志cd /tmp/alarm logls -ltr检查是否有当前最新时间产生的log日志crontab内容检查crontab -lcrontab内容检查mqadminMqa!123查看消息列队状态管理cd /opt/BOCO.MQ/binshow.sh查看消息列队状态管理进程检查ps -ef|grep fmhandler|wc(系统监控)进程检查cro

24、ntab内容检查crontab -lcrontab内容检查10.25.0.2(告警标准化)daladminDal!123磁盘空间检查df -k(系统监控)/usr -超过70%需要进一步检查增大原因 /var -超过60%需要进一步检查增大原因 /var/run -超过50%需要进一步检查增大原因 /opt -最好不要超过90% 超过需要及时检查处理 /tmp -超过60%需要进一步检查增大原因 /export/home -超过60%需要进一步检查增大原因 /var/mqm/errors -超过60%需要进一步检查增大原因 /var/mqm/log -超过60%需要进一步检查增df -o i查

25、看日志cd /var/admvim messages(:$)检查是否存在Error等报错信息系统资源检查top(系统监控)如idle小于30%free mem 2G free swap 30% 则查找最费资源的进程,联系相关人员进一步处理查看日志cd /tmp/alarm logls -ltr检查是否有当前最新时间产生的log日志crontab内容检查crontab -lcrontab内容检查mqadminMqa!123查看消息列队状态管理cd /opt/BOCO.MQ/binshow.sh查看消息列队状态管理进程检查ps -ef|grep fmhandler|wc(系统监控)进程检查查看日志

26、cd /tmpls -lrt通过日志查看消息发送是否正常是否存在AlarmForward3AD.log(3期重大)AlarmForward_TF.pl.log.pid.num(3期退服)AlarmForward4.log(4期重大)AlarmForward4_TF.pl.log(4期退服)(表示传输队列的当前深度超过了最大值)并检查内容中是否有报错(退服日志可以有CC= 2)进程检查ps -ef |grep mqadmin|grep AlarmForward_TF.pl(系统监控)AlarmForward4ps -ef |grep mqadmin|grep AlarmForward3.pl(系

27、统监控)查看省部接口重大告警前转程序crontab内容检查crontab -lcrontab内容检查10.25.0.4(告警标准化数据库)oracleOra!123查看日志cd /opt/oracle/bin/logtail -f sfa_sync_act.log查看一个完整的进程运行完所需要的时间(5分钟左右正常,超过9分钟异常)cd /opt/oracle/bin/logcat update_statistic.log每天12点01分运行cd /var/admls -ltrtail -f messages检查是否存在Error等报错信息crontab内容检查crontab -lcronta

28、b内容检查10.25.0.7(转发北纬)tdLz8&ujR日志检查cd /opt/td/BOCO/log cd 当前日期 vim AlarmTransfer.log检查最新产生的日志中AlarmTransfer.log是否正常10.25.0.11(主动性能监控转发程序)hbdalxK17?PME日志检查tail -f /opt/hbdal/NPMKpiForward/log/gdau.log检查日志内的告警产生时间,是否是当前时间例:2010-07-05 09:24:16数据库核查核查转发库情况nmosdbwnmsserver1select max(event time) from tfa_a

29、larm_kpi查出的时间应该接近当前时间服务器登录用户详细信息检查方法重点关注10.25.0.7(TD采集)npmdalNpm123!#磁盘空间检查df -k(系统监控)/usr -超过70%需要进一步检查增大原因 /var -超过60%需要进一步检查增大原因 /var/run -超过50%需要进一步检查增大原因 /opt -最好不要超过90% 超过需要及时检查处理 /tmp -超过60%需要进一步检查增大原因 /export/home -超过60%需要进一步检查增大原因 /var/mqm/errors -超过60%需要进一步检查增大原因 /var/mqm/log -超过60%需要进一步检查

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1