OSS维护工具.docx
《OSS维护工具.docx》由会员分享,可在线阅读,更多相关《OSS维护工具.docx(23页珍藏版)》请在冰豆网上搜索。
![OSS维护工具.docx](https://file1.bdocx.com/fileroot1/2023-2/8/705d8f61-2ba7-41d4-b8d0-b52aab64ab3f/705d8f61-2ba7-41d4-b8d0-b52aab64ab3f1.gif)
OSS维护工具
OSS维护资料整理
(李钰Wednesday,June24,2009)
AreasofResponsibility
•UserAdministration
•DatabaseManagement
•MaintainNetworkElementconnections
•ProcessManagement
•MaintainavailabilityofOSSapplications
•Backup&Restore
1、系统健康检查手册
资料:
E:
\爱立信OSS随工\济宁资料\OSS设备健康检查手册.doc
维护要点:
1)看最新日志信息中有无重要告警信息
#dmesg|grepWARN
#dmesg|greperror
#dmesg|greppanic
如果以上3个命令后,如有输出,一定要留意!
!
!
!
2)使用prtdiag命令检查机器硬件是否存在异常
#/usr/platform/sun4u/sbin/prtdiag-v看里面是否发现有failuresfoundinSystem
4)使用iostat命令检查硬盘是存在异常
#iostat-E
用iostat命令检查磁盘读写情况,每次使用#iostat-x6010在60秒内产生10个统计报告,输出。
如果%w和wait很高,就需要关注硬盘IO是否难以满足需求。
如检查后发现有异常,请运行explorer(#/opt/SUNWexplo/bin/explorer,并将/opt/SUNWexplo/output中相应的.gz文件ftp下来,EMAIL给华胜技术服务热线信箱:
hotline@)并申报case.
5)查看主机及阵列的状态灯,是否有黄灯
检查的项目:
主机面板灯:
查看电源、硬件、硬盘、运行等状态灯显示是否正常。
其它显示灯:
电源模块、电池、控制器等状态灯
6)检查磁带机状态---------------目前这条指令没有试验
把带子放入左边solt中,再移入driver(面板操作),mt-f/dev/rmt/1nstat看
找一盘空白磁带上带,卸带,看过程是否正常,尝试向磁带中写入一个文件进行测试,检查磁带机的正常读写功能
测试写功能:
tarrvf/dev/rmt/1unfile_to_store
测试读功能:
tartvf/dev/rmt/1un
7)操作系统相关检查
检查系统log信息
more/var/adm/messages
看系统空间
df-lh除syb的不能太大(超过90%)
8)数据库相关检查---------------?
分析sybaseerrorlog信息
使用脚本检查sybase空间使用情况
/var/opt/sybase/sybase/log/(SQLSERVER).ERRORLOG具体看哪个数据库名称,然后键入。
一般先键入
cd/var/opt/sybase/sybase/log,然后ls,然后
db_check.shmasterdataservice.ERRORLOG
数据库空间占用不超过85%------SYB打头的算不算在内?
smlogdb不用太多考虑。
9)客户端可用性检查
能够正常连接OSSSERVER,能够正常进行各项应用操作,CITRIXSERVER保证没有过多的无用连接。
hzoss@gmhzuas>su-a
Usage:
su[-][username[arg...]]
hzoss@gmhzuas>su
Password:
#su-ctxsrvr
SunMicrosystemsInc.SunOS5.10GenericJanuary2005
$cd/opt/CTXSmf
$cdbin
$ls
ctx3bmousectxgrabctxmountctxqsessionctxshadow
ctxcapturectxlogoffctxmsgctxqueryctxunshadow
ctxconnectctxlprctxprintersctxquser
ctxdisconnectctxmasterctxqserverctxreset
$./ctxqsession
SESSION:
IDUSERNAMESTATETYPEDEVICE
gmhzuas:
0-listenwdica-
gmhzuas:
60hzwydiscwdicaHZ-WL-YUANCHF
gmhzuas:
64hzwydiscwdicaHZ-WL-MUYU
gmhzuas:
71hzwydiscwdicaHZ-WL-MUYU
gmhzuas:
72hzossactivewdicaHZ-WL-LIYUHZ
gmhzuas:
75hzwydiscwdicaHZ-WL-MUYU
gmhzuas:
77nmsadmactivewdicaEV001F297ED97C
gmhzuas:
78hzwyactivewdicaHZ-WL-MUYU
$./ctxlogoffgmhzuas:
60
$./ctxqsession
SESSION:
IDUSERNAMESTATETYPEDEVICE
gmhzuas:
0-listenwdica-
gmhzuas:
64hzwydiscwdicaHZ-WL-MUYU
gmhzuas:
71hzwydiscwdicaHZ-WL-MUYU
gmhzuas:
72hzossactivewdicaHZ-WL-LIYUHZ
gmhzuas:
75hzwydiscwdicaHZ-WL-MUYU
gmhzuas:
77nmsadmactivewdicaEV001F297ED97C
gmhzuas:
78hzwyactivewdicaHZ-WL-MUYU
$
10)应用系统关键进程健康检查
tcsh
smtooll|grep-vstart
11)应用系统可用性检查------系统重启后查看
使用eric等OSS帐号登陆,打开各应用模块,如CAN,OPS,SMIA,CHA等,是否能正常打开。
检查CIF各应用系统进程运行是否正常
12)相关模块可用性检查-----系统重启后查看
登陆OSS系统,对常用系统应用项目进行检查,例如Canadjust,Ops,,RNO,AAM的一些定时任务执行,检查FS看网元统计的到达时间是否具有实时性
13)系统登陆帐号正确性检查------!
检查帐号密码强度
检查系统中有无多余的帐号
检查系统中无共用帐号
检查系统重要帐号的时效性
检查系统帐号密码最近一次更新的时间
以相关帐号登陆验证是否正常
14)用vmstat报告虚拟内存、磁盘和cpu活动的统计数字
关注r,如果数据很大表示此时cpu很忙,若是总是这样,考虑cpu是否能满足应用的需求
16)使用swap命令检查交换区使用情况
#swap-s
查看输出中swap的available是否已经剩余很少
2、省公司检查的作业计划项目及检查要求
1)OSS系统备份
作业计划执行要求:
OSS系统备份每月一次,原则上应在月初第一周或者月末最后一周的任何一个工作日的下午13:
00-16:
00进行,应提前1小时将备份的计划(备份开始时间、预计持续时间)公告至省公司监控组。
使用OSS服务器上/ericsson/dmr/bin下的dmtool工具执行,将系统备份至磁带。
作业计划检查方式:
检查作业计划系统中该项目的执行记录;陆到OSS服务器,检查/ericsson/dmr/log目录下是否有对应记录,日期是否能与NSP的备份记录日期对应;查值班日志中是否有OSS系统备份登记记录;控支持人员通过网络监测平台核实是否在备份前发布公告。
3、OSSR9.1日常维护流程
10)磁盘状态:
vxdisklist;vxprint-ht
周流程
6)查看并删除core文件:
1.查找core文件:
find/-typef–namecore–ls。
2.查看core文件类型:
#whatcore。
3.删除不必要的core文件。
7)查找文件系统中的大文件:
#find/-typef-size+20000000c-ls..()10M)并删除不必要的文件
月流程:
1)全系统备份:
/ericsson/dmr/bin/dmtool
2)
3)删除CNAprintouts:
/var/opt/ericsson/cna/log/printouts
定期网优删除
4、OSSRC1.1维护作业计划(20060206更新).xls
4)检查Sybase空间-库
#cd/opt/ericsson/sck/bin
当数据库占用空间较大时,可以执行一下操作:
A)在LogAdministration中对FMAalarmandoperatorlog,EACcommandandresponses,andinformationlog进行“Delete”和“Store”
B)清理BSM数据库
isql-Usa–Psybase11-i/opt/ericsson/bsmcm/info/bsmdb_cleanup.sql
5)检查文件系统和磁盘空间
#df-k
当文件系统占用磁盘空间较大时,可以执行以下操作:
A)删除目录/var/opt/ericsson/log下的systemlogs
B)删除core文件:
查找core文件:
find/-typef-namecore-ls;查看core文件类型:
#whatcore;删除不必要的core文件。
C)删除文件系统中的大文件:
#find/-typef-size+10000000c-ls,删除大于10M不必要的文件
D)删除目录/var/opt/ericsson/cna/log/printouts下的CNAprintouts
E)删除目录/var/opt/sybase/sybase/transdump下的sybasetransactionlogs
F)删除
/var/opt/ericsson/nms_rnr_pmr/data/axefiles
/var/opt/ericsson/nms_rnr_pmr/data/tempfiles
下所有不用的PMR文件
5、典型案例分析
1)硬盘故障
Ø故障现象1:
Ø在/var/adm/messages文件中有大量的block读写错误且level都是fatal
ØFeb510:
23:
45testunix:
WARNING:
/pci@1f,4000/scsi@3/sd@1,0(sd1):
ØFeb510:
23:
45testErrorforCommand:
read(10)ErrorLevel:
Fatal
ØFeb510:
23:
45testunix:
RequestedBlock:
28733280ErrorBlock:
28733394
ØFeb510:
23:
45testunix:
Vendor:
SEAGATESerialNumber:
0026H61446
ØFeb510:
23:
45testunix:
SenseKey:
MediaError
ØFeb510:
23:
45testunix:
ASC:
0x11(unrecoveredreaderror),ASCQ:
0x0,FRU:
0xe4
通过more/var/adm/messages发现此类告警。
Ø故障现象2:
Ø用SDS卷管理软件发现硬盘状态异常(metastat)
Ød101:
Submirrorofd20
ØState:
Needsmaintenance
ØInvoke:
metareplaced20c2t4d0s0
ØSize:
4097331blocks
ØStripe0:
ØDeviceStartBlockDbaseStateHotSpare
Øc2t4d0s00NoMaintenance
使用metastat命令检查SVM磁盘和卷状态是否有异常。
#metastat|grepMaintenance
#metastat|grepError
Ø故障现象3:
Ø用VXVM卷管理软件发现硬盘状态异常(vxdisklist)
ØDEVICETYPEDISKGROUPSTATUS
Øc0t0d0s2sliced--online
Øc0t1d0s6simplec0t1d0s6rootdgonline
Øc1t5d0s2sliceddisk01datadgonline
Øc1t5d1s2sliced--online
Ø--disk02datadgfailedwas:
c1t5d1s2
使用vxdisklist命令检查卷管理软件
Ø故障现象4:
Ø用系统命令发现硬盘状态异常(format)
ØSearchingfordisks...done
ØAVAILABLEDISKSELECTIONS:
Ø0.c0t0d0
Ø/sbus@3,0/SUNW,socal@d,10000/sf@0,0/ssd@w21000020372b2933,0
Ø
Ø1.c0t1d0/sbus@3,0/SUNW,socal@d,10000/sf@0,0/ssd@w21000020372b370d,0
Ø故障现象5:
Ø用阵列的系统命令发现硬盘状态异常(T3:
frustat)
ØCTLRSTATUSSTATEROLEPARTNERPORT1PORT2TEMP
Ø-------------------------------------------------------------
Øu1ctrreadyenabledmasteru2ctrreadyready32
Øu2ctrreadyenabledaltmasteru1ctrreadyready32
ØDISKSTATUSSTATEROLEPORT1PORT2TEMPVOLUME
Ø-------------------------------------------------------------
Øu1d01readyenableddatadiskreadyready29v0
Øu1d02readyenableddatadiskreadyready26v0
Øu1d03readyenableddatadiskreadyready29v0
Øu1d04readyenableddatadiskreadyready29v0
Øu1d05readyenableddatadiskreadyready27v0
Øu1d06readyenableddatadiskreadyready28v0
Øu1d07readyenableddatadiskreadyready30v0
Øu1d08faultsubstituted
处理方法:
Ø当发现上面现象中的一种或者几种以后,请立即申报case并同时收集相应的信息发到我们的热线中心进行故障判断。
Ø以上的这些现象,硬盘基本都是要做硬件更换的。
Ø在申报case的同时请及时做好相应的备份
Ø工程师现场更换
2)电源故障
Ø故障现象1:
Ø在/var/adm/messages文件中有大量的关于温度或者是风扇的告警
ØJul1013:
47:
09omcsp3unix:
WARNING:
SBusFFBSOC+IOboard1iswarm.Pleasechecksystemcooling
通过more/var/adm/messages发现此类告警。
Ø故障现象2:
Ø用系统命令检查到系统有报错
Ø(/usr/platform/sun4u/sbin/prtdiag–v)
ØDetectedSystemFaults
Ø======================
ØUnit5CorePowerSupplyfailure
ØDetectedSatJul806:
26:
172006
ØPowerSupplies:
Ø---------------
ØSupplyStatus
Ø---------------
Ø1OK
Ø3OK
Ø5FAIL
使用prtdiag命令检查机器硬件是否存在异常
#/usr/platform/sun4u/sbin/prtdiag–v看里面是否发现有failuresfoundinSystem
处理方法:
Ø当发现上面现象中错误以后,请立即申报case并同时收集相应的信息发到我们的热线中心进行故障判断。
Ø电源故障,都是要做硬件更换的。
Ø工程师现场更换
3)电池故障
Ø故障现象:
Ø用阵列命令发现阵列电池问题(healthck–a)
ØHealthCheckSummaryInformation
Øfg030_003:
FailedBattery
Øhealthcksucceeded!
处理方法:
Ø当发现上面现象中错误以后,请立即申报case并同时收集相应的信息发到我们的热线中心进行故障判断。
Ø电池故障,都是要做硬件更换的,并且需要停机。
Ø在申报case的同时请及时做好阵列的备份
Ø工程师现场更换
6、OSSRC系统管理文档.
1)OSS典型目录
/optoptionaltoSolaris
/opt/ericssonOSSprocuctcomponents
/opt/ericsson/binOSSexecutables
/opt/ericsson/canExampleComponentdirectory
/etcConfigurationfiles
/etc/opt/ericssonConfigurationfilesforOSScomponents
/varLogfilesandspooldirectories
/var/opt/ericssonOSScomponentslogfiles
/var/opt/ericsson/logRuntimelogfilesforCIFSM
2)CIF管理
CommonintegrationFramework(CIF)支持OSSRC的使用,可以通过命令,也可以通过维护台来操作CIF,管理进程。
3)系统重启
常用重启命令:
Shutdown-y-i6-g0
4)磁盘管理
root@gmhzmas1o>vxdisklist
DEVICETYPEDISKGROUPSTATUS
c0t0d0s2auto:
slicedrootmirrrootdgonline
c0t1d0s2auto:
slicedrootdiskrootdgonline
c1t40d0s2auto:
cdsdiskdisk2mirrossdgonline
c1t40d1s2auto:
cdsdiskdisk3mirrossdgonline
c2t40d0s2auto:
cdsdiskdisk2ossdgonline
c2t40d1s2auto:
cdsdiskdisk3ossdgonline
root@gmhzmas1o>format
Searchingfordisks...done
AVAILABLEDISKSELECTIONS:
0.c0t0d0
/ssm@0,0/pci@18,600000/pci@2/scsi@2,1/sd@0,0
1.c0t1d0
/ssm@0,0/pci@18,600000/pci@2/scsi@2,1/sd@1,0
2.c1t40d0
/ssm@0,0/pci@19,700000/SUNW,qlc@1/fp@0,0/ssd@w216000c0ff8b5aaf,0
3.c1t40d1
/ssm@0,0/pci@19,700000/SUNW,qlc@1/fp@0,0/ssd@w216000c0ff8b5aaf,1
4.c2t40d0
/ssm@0,0/pci@1a,600000/SUNW,qlc@2/fp@0,0/ssd@w216000c0ff8bd1ac,0
5.c2t40d1
/ssm@0,0/pci@1a,600000/SUNW,qlc@2/fp@0,0/ssd@w216000c0ff8bd1ac,1
Specifydisk(enteritsnumber):
^C
5)sybase数据库使用
使用密码为sybase11
root@gmhzmas1o>isql-Usa-w999
Password:
1>usecsddb
2>go
1>select*fromLOAS_ADMwhereNE="HZBSC58"
2>GO
IDTIMERESRPLNE
-------------------------------------------------------------------------------------------------------------
(0rowsaffected)
1>
6)相关文件存放