基础平台运维故障诊断指南Word格式.docx
《基础平台运维故障诊断指南Word格式.docx》由会员分享,可在线阅读,更多相关《基础平台运维故障诊断指南Word格式.docx(13页珍藏版)》请在冰豆网上搜索。
#bosboot-ad/dev/ipldevice
#shutdown-Fr
switchfrom64-bitto32-bitkernel
#ln-sf/usr/lib/boot/unix_mp/unix
#ln-sf/usr/lib/boot/unix_mp/usr/lib/boot/unix
#shutdown–Fr
/var/adm/wtmp文件保存所有用户登录的讯息,随著时间会增长到很大。
(1).清空,执行cp/dev/null/var/adm/wtmp。
或者#>
/var/adm/wtmp
(2).部分清空wtmp:
用fwtmp命令先将文件wtmp变成ASCII格式的dummy.file:
#/usr/sbin/acct/fwtmp<
/var/adm/wtmp>
dummy.file
利用编辑器(例如vi)删除不必要的记录之后存盘,再将ASCII文件转变成二进位文件.
#/usr/sbin/acct/fwtmp-ic<
dummy.file>
现举例如下:
(1).添加新硬盘到rootvg
#extendvgrootvghdisk1
(2).镜像rootvg
#mirrorvg-c2rootvghdisk1
(3).重新生成bootimage
#bosboot-ad/dev/hdisk0
(4).更新bootlist
#bootlist-mnormalhdisk0hdisk1cd0
(5).重起系统
当用户的某个目录下有非常多的文件,当用户使用ls列示所有文件或使用mv*命令想把所有文件移至另一目录时,系统报错,相应操作无法进行。
错误信息为:
"
。
该错误的产生是由于/usr/include/sys/limits.h文件中ARG_MAX参数对应值的限制,最大值为24576,并且无法改变此限制。
因此当某目录下的文件数超过24576时,可以使用下面的命令列示、删除或移动所有的文件:
(1).列示文件:
find<
path>
-name"
*"
|xargsls–l
(2).删除文件:
|xargsrm{}
(3).移动所有文件至目标目录:
sourcedirectory>
|xargs-I{}mv{}<
destinationdir>
在同一网段内,可通过timed来同步时间,
在server端:
startsrc-stimed-a"
-M"
在client端:
startsc-stimed
(1).从引导介质(bootableCD-ROMorbootabletape)起动系统。
(2).选择StartMaintenanceModeforSystemRecovery(Option3),进入维护菜单.然后依次再选择如下:
a.AccessaRootVolumeGroup(Option1).
b.0continueandSelectVolumeGroupbynumber.
c.Accessthisvolumegroupandstartashellbeforemountingthefilesystems(Option2).
(3).检查并mount根文件系统
#fsck-y/dev/hd4
#mount/dev/hd4/mnt
(4).重建删除的文件和目录
#cd/mnt
#ln-s/usr/binbin
#ln-s/usr/lib/boot/unix_upunix或#ln-s/usr/lib/boot/unix_mpunix
#ln-s/usr/liblib
#ln-s/homeu
(5).重起系统
#cd/
#umount/dev/hd4
#exit
#sync;
sync;
sync
操作系统在启动时会在主控台屏幕上显示一些信息。
启动后,你仍可以用alog命令查看这些信息以及其它没有在屏幕上显示的启动信息,命令如下:
#alog-o-tboot
有时由于某种原因,/etc/inetd.conf文件损坏。
会对机器带来TCP/IP方面问题:
如FTP
可用以下步骤来恢复inetd.conf文件。
#stopsrc-sinetd
#vi/etc/inetd.conf
#mv/etc/inetd.conf/etc/inetd.conf.old
#cd/usr/lpp/
#cpinetd.conf/etc/inetd.conf
#startsrc-sinetd
可使用命令fuser-k<
用户的主目录>
如:
fuser-k/home/guest
方法一:
/etc/ftpusers文件即可。
添加需要拒绝的用户,每用户一行,例如:
#more/etc/ftpusers
c4gl
当尝试ftp登录时,系统报错:
Name(localhost:
root):
c4gl
530Userc4glaccessdenied.
Loginfailed
方法二:
通过SMIT菜单设置:
smit--->
CommunicationsApplicationsandServices--->
TCP/IP--->
FurtherConfiguration--->
ServerNetworkServices--->
RemoteAccess--->
RestrictFileTransferProgramUsers(/etc/ftpusers)--->
AddaRestrictedUser
先检查有没有什么问题,如果没有问题,就可以这样处理。
用命令/usr/lpp/diagnostics/bin/usysfault-snormal
diag->
TaskSelection->
IdentifyandAttentionIndicators中找到SetSystemAttentionIndicatortoNARMAL(第二项),按回车,使前面出现个"
+"
然后用"
ESC+7"
一会就好了,灯灭了后就用"
ESC+0"
退出即可
在AIX上由于异常终止或其它原因经常会遇到不能正常释放光驱的问题
执行#fuser-kxuc/dev/cd#
或#fuser/dev/cd#列出当前访问此设备的进程,然后使用kill-9pid终止所有进程。
如果需要mount远程的光盘文件系统,使之作为本地文件系统使用,按照以下步骤:
(1).服务器端
1).检查portmap和NFS进程的状态:
lssrc-sportmap
lssrc-gnfs
如果它们未处于活动的状态,用如下命令启动它们:
startsrc-sportmap
startsrc-gnfs
2).mountCD-ROM
如果光盘文件系统的mount点不存在,用命令mkdir/cdrom创建它.
将光盘放入光驱.
输入smittycdrfs.
选择"
添加光盘文件系统"
.
从用F4键列出的列表中选择设备.
在"
MOUNT点"
项中输入相应mount点.
如果希望在系统重启时mount该文件系统,将"
在系统重启时自动mount"
项置为"
是"
注意:
如果将此项置为"
则重启系统时光驱中必须有光盘,否则mount操作会失败.
输入mount/cdrom
3).将该文件系统加入NFS调出列表:
输入smittymknfsexp.
输入要调出目录的路径名(如/cdrom)
将调出目录的方式置为"
只读"
输入允许客户访问的主机和网组
输入允许作为root用户访问的主机
按下回车键调出该文件系统
4).确认文件系统已被调出
输入命令showmount-e
(2).在客户端
2).确认服务器端的该文件系统已被调出:
输入showmount-e<
server_name>
<
是服务器的主机名.
3).创建用于访问NFS的目录
输入mkdir/cdrom.
4).在客户端远程mountNFS:
输入smittymknfsmnt.
输入mount点的路径名(如/cdrom).
输入远程目录的路径名(如/cdrom).
输入远程目录所在的主机名.
将NFS文件系统的存取方式置为"
,
按下回车键远程mount该NFS文件系统。
14.何改动IP地址
如果用smitmktcpip去改动IP地址,就会在/etc/hosts中加一项,而且以前的地址仍保留,正确的做法是smittcpip---Furtherconfiguration---Networkinterface----NetworkInterfaceSelection----Change/ShowcharacteristicsofaNetworkinterface去改动。
15.在AIX中扩展卡的逻辑名和它所在插槽的对应关系
在IBM的Pseries服务器中,相同类型的扩展卡可以插多块,但是AIX如何确定每一块卡所在的插槽?
可用以下步骤来确定它们的关系:
(1).检查相同类型的卡的逻辑名及个数.
例如:
确定服务器中以太网卡的名称:
#lsdev-Ccadapter|grepent
ent0Available07-082-Port10/100/1000Base-TXPCI-XAdapter(14108902)
ent1Available07-092-Port10/100/1000Base-TXPCI-XAdapter(14108902)
ent2Available09-08GigabitEthernet-SXPCI-XAdapter(14106802)
ent3Available0F-0810/100MbpsEthernetPCIAdapterII(1410ff01)
(2).通过查看DeviceSpecific.的值,确定其所对应的插槽.
#lscfg-vlent0
ent0U7879.001.DQDGHNM-P1-T62-Port10/100/1000Base-TXPCI-XAdapter(14108902)
2-Port10/100/1000Base-TXPCI-XAdapter:
NetworkAddress.............001125E64994
ROMLevel.(alterable).......DV0210
DeviceSpecific.(YL)........U7879.001.DQDGHNM-P1-T6
#lscfg-vlent3
ent3U7879.001.DQDGHNM-P1-C2-T110/100MbpsEthernetPCIAdapterII(1410ff01)
10/100MbpsEthernetPCIAdapterII:
PartNumber.................09P5023
FRUNumber..................09P5023
ECLevel....................H10971A
ManufactureID..............YL1021
NetworkAddress.............000D600C08A2
ROMLevel.(alterable).......SCU015
ProductSpecific.(Z0).......A5204209
DeviceSpecific.(YL)........U7879.001.DQDGHNM-P1-C2-T1
用tar备份链接文件时,缺省时只备份链接,用-h选项可以将链接所指的文件一同备份进去.
在/etc/inittab里面添加:
#mkitab-ircnfs"
rclocal:
2:
wait:
/etc/rc.local>
/dev/console2>
&
1"
#touch/etc/rc.local
#chmod700/etc/rc.local
编辑/etc/rc.local,添加你要启动的程序的命令行
需要使用chfs或者smitchfs菜单更改文件系统大小,他们可以自动扩展逻辑卷。
直接增加文件系统所在的逻辑卷不会对文件系统产生任何影响。
首先确认系统中已安裝了filesetbos.content_list:
#lslpp-lbos.content_list
然后用下面的命令查找与指定文件相关的fileset:
#/usr/sbin/which_fileset<
filename>
如,#/usr/sbin/which_filesetiostat
得到:
/usr/bin/iostatbos.acct5.2.0.0
查找指定的fileset中包含哪些文件:
#lslpp-f<
fileset>
如,#lslpp-fbos.acct
....
/usr/bin/iostat
通过其它终端登陆到系统中,执行/usr/lpp/diagnostics/da/dkbd命令,可以重置键盘,/usr/lpp/diagnostics/da/dmousea可以重置鼠标。
另外一个命令是:
mkdev–l/dev/kbd0和mkdev–l/dev/mouse0。
从可启动的光盘或者磁带启动,在Installation/Maint菜单,选择第4项"
Startalimitedfunctionmaintenanceshell在"
#"
提示符后输入命令:
getrootfshdiskN(N是rootvg中一块磁盘号),大约一两分钟后,可以重新回到#提示符,这是已经以单用户模式注册进系统,编辑/etc/security/passwd文件,删除掉以下三行:
root用户选项下的password,lastupdate,flags.保存后退出,然后为root用户生成新的password,Shutdown,正常reboot系统,这时可以用新的密码了。
/bin/mknod/dev/nullc22
修改/etc/shutdown(它实际上是一个脚本程序,你可以自己改)。
(1).下面命令输出中的'
C'
字段是一个进程的cpu-penalty值(0到120之间),值越大表明进程越活跃。
#
ps
alxw
|
sort
+5
–n|more
(2).显示前10个累计占用CPU时间的进程
#ps
-e|head
-n
1;
-e|grep
–v"
TIME|0:
|sort
+2b
-3
-r|head
10
(3).显示前10个当前占用CPU时间的进程
-ef|head
-ef|grep
C|0:
00"
+3b
-4
(4).显示前10个占用CPU应用的进程
gu|head
gu|grep
CPU|kproc"
10
当我们对网络或网卡进行操作时,经常会遇到"
device
busy"
而不让我们进行操作.
例如:
rmdev
-l
ent1
Method
error
(/etc/methods/ucfgdevice):
0514-062
Cannot
perform
the
requested
function
because
the
specified
is
busy.
(1).首先我们要确认网络接口已经"
down"
及
detached"
.
使用以下脚本文件可以"
及"
detach"
所有TCP/IP网络接口.
interfaces=`lsdev
-Cc
if
-F
name
grep
-v
lo0`
for
interface
in
$interfaces
do
ifconfig
$interface
down
detach
done
(2).
检查是否下列应用正在运行:
1)
SNA
:
lssrc
-g
sna
(检查SNA是否运行)
stopsrc
sna(中断)
-f
-s
sna(强行中断)
如果以上两条命令都不起作用:
/usr/bin/sna
-stop
-t
forced
如果仍不能中断:
cancel
2)
IPX:
-ef
|grep
npsd
sapd
(IPX是否运行)
/usr/lpp/netware/bin/stopnps
(中断)
3)
Netbios:
netbios
(是否运行)
mcs0
unload
以上步骤对于大部分"
问题都可解决。
在实际安装存储设备时,我们经常需要升级光纤卡的微码。
在AIX中,最常见的光纤卡是6239。
(1).首先我们要确保服务器及操作系统要符合要求:
1).AIX操作系统要求升级APAR包:
AIX5.1=APARIY35308
AIX5.2=APARIY35747
注意:
APAR升级不正确可能会损坏光纤卡。
使用下面的方法可以查看APAR的情况:
lslpp-L|grep
ForAIX5.1,thefilesetmustbeat5.1.0.50orhigher
ForAIX5.2,thefilesetmustbeat5.2.0.10orhigher
2).机器硬件微码的要求:
特别注意:
Machinetype7039-651的机器硬件微码必须升级到3J030521以上.
用下面的命令可以查看机器现有的类型及系统微码:
lscfg-plsysplanar0|grepModel|awk'
{print$2}'
lsmcode-rtsystem
(2).查看光纤卡的现有型号和微码:
在升级之前请仔细查看光纤卡