redhat操作系统故障分析与解决手册.docx

上传人:b****5 文档编号:7544517 上传时间:2023-01-24 格式:DOCX 页数:18 大小:508.01KB
下载 相关 举报
redhat操作系统故障分析与解决手册.docx_第1页
第1页 / 共18页
redhat操作系统故障分析与解决手册.docx_第2页
第2页 / 共18页
redhat操作系统故障分析与解决手册.docx_第3页
第3页 / 共18页
redhat操作系统故障分析与解决手册.docx_第4页
第4页 / 共18页
redhat操作系统故障分析与解决手册.docx_第5页
第5页 / 共18页
点击查看更多>>
下载资源
资源描述

redhat操作系统故障分析与解决手册.docx

《redhat操作系统故障分析与解决手册.docx》由会员分享,可在线阅读,更多相关《redhat操作系统故障分析与解决手册.docx(18页珍藏版)》请在冰豆网上搜索。

redhat操作系统故障分析与解决手册.docx

redhat操作系统故障分析与解决手册

 

redhat操作系统

故障分析与解决手册

 

更改前版本号

更改后版本号

更改人

生效日期

备注

1

1.1

薛煜昆

2015-3-2

修改内存故障检查方法

1.1

1.2

张德帅

2015-7-3

修改CPU故障检查方法

1.2

1.3

张德帅

2015-10-4

修改磁盘阵列链接方法

 

第一章

Linux常用命令

1.1常规查询命令

1.1.1查看修改主机IP地址命令

查看IP方法一:

[root@ahdx-yqzl~]#ifconfig

查看IP方法二:

[root@ahdx-yqzl~]#cat/etc/sysconfig/network-scripts/ifcfg-eth0

修改主机IP

[root@ahdx-yqzl~]#vi/etc/sysconfig/network-scripts/ifcfg-eth0

修改IPADDR,NETMASK,GATEWAY的值

[root@ahdx-yqzl~]#servicenetworkrestart重启network服务来使IP生效

在一块网卡上生成多个IP

[root@ahdx-yqzl~]ifconfigeth0:

1134.64.101.98netmks255.255.255.224

注:

用ifconfig新增的IP保存在内存中,重启network或者重启主机以后,地址就失效了,如果长期使用建议采用新增网卡配置文件的方法

在/etc/sysconfig/network-scripts目录里面创建一个名为ifcfg-eth0:

1的文件

内容样例为:

DEVICE=eth0:

1

IPADDR=172.16.170.2

BROADCAST=172.16.170.254

NETMASK=255.255.255.0

ONBOOT=yes

保存退出后,重启network后生效

1.1.2.查看主机网卡速率和全半双工设置

[root@ahdx-yqzl~]#ethtooleth0

1.1.3.查看修改主机路由表

查看路由表方法一:

[root@ahdx-yqzl~]#netstat-rn

查看路由表方法二:

[root@ahdx-yqzl~]#route–n

增加路由:

增加某一个IP的路由

routeadd-host192.168.198.34gw172.29.97.1deveth0

增加某一段IP路由

routeadd-host192.168.198.0netmask255.255.255.0gw172.29.97.1deveth0

删除某一条路由

routedel–host192.168.198.34

1.1.4.查看主机序列号

[root@ahdx-yqzl~]#dmidecode-ssystem-serial-number

注:

在某些刀片机安装的Redhat需要使用下面的命令查看序列号

[root@ahdx-yqzl~]#dmidecode-schassis-serial-number

1.1.5.查看操作系统发行版本和内核版本

查看操作系统发行版本方法一:

[root@ahdx-yqzl~]#head-n1/etc/issue

查看操作系统发行版本方法二:

注:

在一些主机上安装oracle时会修改/etc/redhat-release中的发行版本号,所以有时候用方法二看到的操作系统发行版本并不一定是真实的。

查看操作系统内核版本:

[root@ahdx-yqzl~]#uname–a

1.1.6.查看主机网卡&HBA卡

查看网卡&HBA型号

[root@crmnmdb~]#lspci–tv

查看网卡mac地址

[root@ahdx-yqzl~]#ifconfig-a

查看HBA卡WWN号

[root@crmnmdb~]#cat/sys/class/fc_host/host2/port_name

注:

/sys/class/fc_host/下的每一个hostX代表一块HBA卡

查看HBA卡当前的链接速率

[root@crmnmdbhost2]#cat/sys/class/fc_host/host2/speed

1.1.7.查看主机系统盘和文件系统

文件系统使用率

[root@ahdx-yqzl~]#df–h

系统所在磁盘

[root@ahdx-yqzl~]#fdisk–l

如果是LVM格式可以使用pvdisplay来查看

1.1.8.用户、组相关操作

增加一个用户

[root@ahdx-yqzl~]#useraddbossnmv3

注:

默认情况下增加的用户的主目录会在/home目录下,如果要修改可以使用如下参数

[root@ahdx-yqzl~]#useraddbossnmv3–d/opt/bossnmv3

注:

默认情况下useraddusername以后会自动新建一个与username名称一样的groupname,如果要加入到别的组可以使用如下参数

[root@ahdx-yqzl~]#useraddbossnmv3–d/opt/bossnmv3–gbossnm

注:

默认情况下新增用户使用的是bsh,如果想使用其他sh,可以使用如下参数

[root@ahdx-yqzl~]#useraddbossnmv3–d/opt/bossnmv3–gbossnm–s/bin/ksh

注:

在vsftp环境下想新建用户,但不需要新增的用户能够登陆主机,所以就不需要这个用户在主目录生成它自己的环境变量,可以使用如下参数

[root@ahdx-yqzl~]#useraddbossnmv3–d/opt/bossnmv3–gbossnm–M

修改某用户的密码

[root@ahdx-yqzl~]#passwdbossnmv3

1.1.9.修改主机名

方法一:

[root@ahdx-yqzl~]hostnameoratest

注:

用命令修改主机名只在重启network前或重启主机前生效,如果需要长期修改建议修改配置文件

方法二:

[root@ahdx-yqzl~]vi/etc/sysconfig/network

修改HOSTNAME字段,重启network生效

配置主机hosts

[root@ahdx-yqzl~]vi/etc/hosts

增加IPhostname

1.1.10.网络链路聚合的设置

1、在/etc/sysconfig/network-scripts/目录下新建ifcfg-bond0文件并按照如下编辑

[root@ahdx-yqzl~]vi/etc/sysconfig/network-scripts/ifcfg-bond0

DEVICE=bond0

BOOTPROTO=static

IPADDR=172.31.0.13

NETMASK=255.255.252.0

BROADCAST=172.31.3.254

ONBOOT=yes

TYPE=Ethernet

2、按照如下修改/etc/sysconfig/network-scripts/下的ifcfg-eth0,ifcfg-eth1(本例假设是将eth0和eth1聚合)

[root@ahdx-yqzl~]vi/etc/sysconfig/network-scripts/ifcfg-eth0

DEVICE=eth0

BOOTPROTO=none

HWADDR=D8:

D3:

85:

FC:

89:

42

ONBOOT=yes

MASTER=bond0

SLAVE=yes

TYPE=Ethernet

USERCTL=no

[root@ahdx-yqzl~]vi/etc/sysconfig/network-scripts/ifcfg-eth1

DEVICE=eth1

BOOTPROTO=none

HWADDR=D8:

D3:

85:

FC:

89:

52

ONBOOT=yes

MASTER=bond0

SLAVE=yes

TYPE=Ethernet

USERCTL=no

3、修改modules.conf文件新增如下内容

[root@ahdx-yqzl~]vi/etc/modules.conf

aliasbond0bonding

optionsbond0miimon=100mode=1

说明:

miimon是用来进行链路监测的。

比如:

miimon=100,那么系统每100ms监测一次链路连接状态,如果有一条线路不通就转入另一条线路;

mode的值表示工作模式,他共有0,1,2,3四种模式,常用的为0,1两种。

mode=0表示loadbalancing(round-robin)为负载均衡方式,两块网卡都工作。

mode=1表示fault-tolerance(active-backup)提供冗余功能,工作方式是主备的工作方式,也就是说默认情况下只有一块网卡工作,另一块做备份.

4、重启主机后生效

第二章Linux系统检查

2.1主机硬件检查

方法一:

到机房现场查看主机有没有告警灯提示

方法二:

有的主机配置了管理口IP,可以远程通过web登陆查看主机状态

方法三:

查看系统日志,关键看日志中有没有IOerror等字样

[root@ahdx-yqzl~]more/var/log/messages

方法四:

根据不同的机型(IBM,DELL,HP)可以去官网或者找800索要硬件诊断工具,收集相关信息后发到800后台,定位硬件故障

2.2操作系统关键日志检查

查看系统日志

[root@ahdx-yqzl~]more/var/log/messages

查看系统最近100条登陆日志

[root@ahdx-yqzl~]last-100

查看用户mail(如果主机关闭sendmail可能没有mail日志)

[root@ahdx-yqzl~]mail

2.3操作系统性能检查

2.3.1主机当前整体负载情况

[root@ahdx-yqzl~]top

利用top可以获得以下关键数据

主机启动至今的时间:

up625days

主机当前进程数:

Tasks257

CPU使用率:

用户进程us1.5%,系统进程sy11.1%,空闲进程id87.4%

内存(Mem)使用率:

总共内存total16432976k,已使用used1294344k,空闲free3489532k,缓冲池buffers2101412k

交换区(Swap):

总共交换区total16383992k,已使用used212k,空闲free16383780k,缓存cached9753692k

在top运行后,可以输入“-A”可以分列显示

2.3.2CPU使用率

[root@ahdx-yqzl~]sar-u15#每一秒一个输出,5秒内的CPU使用率

注:

重点关注%idleCPU空闲

2.3.2内存使用率

[root@ahdx-yqzl~]free–m

注:

剩余内存为free+buffers+cached

2.3.3磁盘I/O

[root@ahdx-yqzl~]#iostat15

注:

重点关注%iowait

2.3.4网卡流量

[root@ahdx-yqzl~]#sar-nDEV13#每一秒一个输出,3秒内的网卡流量

2.3.5当前主机端口监听情况

[root@ahdx-yqzl~]#netstat-an|greptcp

可以加-p参数得到监听端口对应的进程名和PID

[root@ahdx-yqzl~]#netstat-anp|grepLISTEN|greptcp

 

第三章Linux参数调整

5.1ulimit参数调整

5.1.1修改主机最大进程数,最大文件打开数

修改主机进程最大数,文件打开数

vi/etc/security/limits.conf

#添加如下的行

*softnoproc11000

*hardnoproc11000

*softnofile4100

*hardnofile4100

说明:

*代表针对所有用户

noproc是代表最大进程数

nofile是代表最大文件打开数

5.1.2限制用户创建文件大小

#ulimit–f1000#限制当前用户创建文件大小在1000个block以内

说明:

在Linux系统下一个block的默认大小是512bytes。

例子中所能创建的文件size的最大值为512x1000=512000bytes。

 

5.1.3限制用户的管道缓冲区大小

#ulimit–p512#限制管道缓冲区的大小为512Kbytes

5.1.4限制进程最大可用的虚拟内存

#ulimit–v200000#限制最大可用的虚拟内存为200000Kbytes

 

5.2修改系统内核参数

修改系统内核参数多数用于oracle数据库的安装,修改值参考oracle安装手册的要求

#vi/etc/sysctl.conf

kernel.shmall=2097152#系统一次可以使用共享内存总量,一般不需修改

kernel.shmmax=4294967296#共享内存段最大尺寸,这里设为4G

kernel.shmmni=4096#共享内存段最大数量,默认即可,不需修改

kernel.sem=25032000100128#信号量

fs.file-max=6815744#可以打开的文件数量

fs.aio-max-nr=1048576

net.ipv4.ip_local_port_range=900065500

net.core.rmem_default=262144#默认接收窗口大小

net.core.rmem_max=4194304#接收窗口最大大小

net.core.wmem_default=262144#默认发送窗口大小

net.core.wmem_max=1048586#发送窗口最大大小

执行以下命令使设置生效:

/sbin/sysctl-p

 

第四章Linux故障处理

6.1主机网络故障处理

模拟场景一:

用户申告服务器连不上,ping不通

处理过程:

1、先用安全平台或者SecureCRT看能否登陆,排除用户地址限制或者操作不当。

2、登陆到与故障估计相同网段的主机上去ping故障主机,判断是否是网络限制。

3、远程无法连接的情况下,去现场连显示器登陆主机,排除是否是主机宕机导致。

4、无宕机的情况下,在图形界面打开终端窗口,ping网关是否ping通。

5、网关ping不通情况下,重启network服务,跟踪后台日志,看网卡启动过程中有没有报错信息,排除网卡故障和链路故障

6、观察主机网线接口指示灯闪烁是否正常,如不闪烁,拔插网线,观察是否恢复;如网卡灯不闪烁,换一个网线接交换机,排除网线和交换机端口问题。

7、以上步骤都完成后仍然无法恢复网络,可以联系网络维护人员一起协查。

模拟场景二:

服务器无法和指定IP通信

处理过程:

1、在服务器上ping对端IP,看是否能ping通。

2、利用tracerouteIP命令跟踪主机到对端IP的路由,看在哪一段路由无法到达。

3、观察路由最后一跳和指定IP是否一致或同一网段。

4、如果路由不可达,可以联系网络管理员协查

模拟场景三:

无法访问服务器某端口

处理过程:

1、在同网段的其他主机上telnet故障主机的IP+端口(telnetIPport),排除端口是否处于监听状态。

2、利用netstat–an查看端口是否在正确的网卡上处于LISTEN状态

3、如果端口监听正常,联系网络管理员查看端口是否在防火墙上被屏蔽;如果端口监听不正常,建议用户重启应用进程。

6.2主机宕机故障

模拟场景一:

用户申告服务器连不上,ping不通

处理过程:

1、先用安全平台或者SecureCRT看能否登陆,排除用户地址限制或者操作不当。

2、登陆到与故障估计相同网段的主机上去ping故障主机,判断是否是网络限制。

3、远程无法连接的情况下,去现场连显示器登陆主机,排除是否是主机宕机导致。

4、如果主机宕机,观察主机有没有告警灯,排除硬件故障。

5、如果连显示器没有显示,键盘鼠标没有反应,基本上主机已经宕机。

长按主机电源开关键强制重启主机。

6、跟踪观察主机重启过程,尤其是主机硬件自检过程中有没有报错信息。

7、主机硬件自检通过后,启动操作系统时,观察操作系统启动中有没有报错信息。

8、系统启动完毕后,查看/var/log/messages中在宕机时间段内有没有错误信息。

9、通过ITSM的历史性能分析,观察主机在宕机时间段的交换区负载是不是过高。

6.3HBA卡光纤链路故障

模拟场景一:

主机一条链路丢失

1、通过multipath–ll观察聚合路径中哪些多路径的盘的状态时ghost

2、通过pvscan观察有没有device是failed状态

3、根据multipath–ll可以看到device对应的路径4:

0:

3:

3有ghost状态,路径第一个数字4代表了host4的光纤卡,去机房观察host4的光纤卡指示灯闪烁是否正常。

4、如果HBA接有SAN环境,检查SAN到存储的光路是否正常。

5、登陆存储检查存储的光纤卡是否正常。

注:

本例中是两块HBA卡接入SAN环境,SAN到存储有4条路径,所以当存储一端有问题的时候,会有两条路径不可用。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 法律文书 > 调解书

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1