1、IBM服务器维护手册第一类、机房环境及物理检查一、机房内环境要求1.温度与湿度:最佳工作温度:20-25摄氏度极限工作温度:10-40摄氏度 湿度: 8-80%(在23摄氏度条件下)如果不是工作在最佳温度,请注意改善机房环境2.同时机房要保证清洁.机房应保持清洁,若空气灰尘过多,很容易造成资源读写错误及磁盘机中磁盘或读写磁头毁损。二、电源要求电 压:要求电压稳定, 尖峰电压会损坏设备电压范围:220V +/- 10%, 即200-240V, 50-60Hz电源功率:视机器类型和系统配置而定电源线:标准的零, 地, 火三相电, 其中零, 地电压不得超过3.0V.电源接驳:用符合电流要求的空气开关
2、或其他设备和主机电源线接驳,保证计算机系统的可靠工作应使用稳压电源和UPS,并建议配备发电机组;对于冗于电源的接入,建议采用两路单独输入.三、硬件检查检查服务器、磁阵的安装、电源线、7133和主机接线符合要求。服务器状态检查:1. 当服务器处于启动和正常工作状态时,其前面板上的液晶显示屏上应无信息显示。2. 当液晶显示器上出现带数字和字母的信息时,说明有硬件告警。可以通过查询相关机型的Service Guide查到相应告警原因,情况严重的,则要立即通知IBM技术专家进行问题排查。7133状态检查:磁阵前面板上有7133机柜的状态灯(与电源灯并排)和各硬盘的状态灯(一排小灯,与各硬盘位置一一对应
3、)。1. 当机柜的状态灯出现橙黄色时,说明有硬件告警,此时要检查磁柜的电源、接线、硬盘等。如果有硬件故障则立即进行更换和更正,如果查不出具体问题,则需要联系相关专家进一步诊断。2. 当硬盘工作正常时,与各硬盘对应的硬盘灯会呈绿色,如无读写,则绿灯一直亮,如该硬盘有读写操作,则绿灯会不规则闪烁,当硬盘损坏时或SSA环路出现问题时,则硬盘状态灯将熄灭,或者呈闪烁状态:以13秒的频率有规律地、不停地闪烁第二类、系统日常维护流程2.1系统启动系统启动正常顺序如下:首先对外设(磁盘阵列、磁带库等)加电。待所有外设加电自检完成后, 主机加电正常起机。主机加电后,系统进行自检,在液晶显示屏显示”ok”后,才
4、能按白色POWER键起机.启动主机HACMP,启动后可用命令 tail -f /tmp/hacmp.out 来检查启动情况,在HACMP未完全启动前不要进行下一步。检查服务器的网络地址,路由表(可用netstat -i , netstat -rn 等),检查文件系统,逻辑卷(可用 mount , lsvg -o 等)。检查各项应用是否工作正常。2.2系统关闭停止HACMP( smitty clstop)。查看HACMP的状态,检查服务器的网络地址,路由表(可用netstat -i , netstat -rn 等),检查文件系统,逻辑卷(可用 mount , lsvg -o 等)。在HACMP未
5、完全停止前不要进行下一步。关闭主机 (shutdown F)。重启系统可以使用:shutdown -Fr如有必要的话,按磁盘阵列前方的白色按钮关闭磁盘阵列。2.3查看系统的错误记录在系统运行时,一些系统错误会记录在errlog 中,其中有些错误还会在终端上显示。检查错误日志可用以下命令:#errpt|more 查看系统所有的记录IDENTIFIERTIMESTAM PTCRESOURCE_NAMEDESCRIPTIONE85C5C4C 0426104399 P S CFGLFT SOFTWARE PROGRAM ERROR2BFA76F6 0426104099 T S SYSPROC SYST
6、EM SHUTDOWN BY USER9D4CF6E7 0426104399 T O errdemon ERROR LOGGING TURNED ON1E2AC07E 0426103999 T O errdemon ERROR LOGGING TURNED OFF1E5EER4T 0423132999 T O clstrmgr OPERATOR NOTIFICATION 其中IDENTIFIER 为错误编号,当需要检查详细信息时常会用到。TIME STAMP 为时间标签,它记录的是出错时间,其格式:月月日日时时分分年年T 为Type , 它记录的是错误类型P :为永久错误,需引起注意T :为临
7、时错误。C 为Class,它记录的是错误种类,如H : HardwareS : SoftwareO : Errloger command messagesU : undeterminedRESOURCE_NAME为错误来源DESCRIPTION 为错误描述#errpt -aj 查看系统详细记录内容其中IDENTIFIER为错误编号,如 #errpt -aj 0426104399#errpt -dH 查看系统所有的硬件出错记录 2.4系统与数据备份有效及时的系统备份是系统管理的非常重要的一环。当系统出现故障时,特别是文件系统被严重损坏或硬盘损坏时,常需要使用系统备份来恢复系统。在以下情况下应做系
8、统备份:1、新装机。在硬件及系统软件安装完成后,应做系统备份。2、软件改动。系统软件或应用软件有改动时,应做系统备份。3、定期备份。对系统进行定期备份,最好每两或三个月做一次备份备份注意事项:进行系统备份无须停止业务,业务可以继续进行。建议客户进行定期的系统备份(使用命令smitty mksysb)。客户也可根据需要利用SMIT对系统的特定的VG或FS进行备份。smitty mksysb只备份rootvg中mount起来的文件系统,其它文件系统或数据并没有做备份,所以数据备份需要另外完成(建议客户使用TAR格式)在条件允许的情况下,最好有一盘以上备份带,以防止磁带损坏。 系统备份过程中有时候会
9、提示有些/tmp目录下的文件无法备份,显示如下:Creating list of files to back up.Backing up 34025 files.1694 of 34025 files (4%).2733 of 34025 files (8%).backup: 0511-449 An error occurred accessing ./tmp/sh34736.1: A directory in the path name does not exist.backup: 0511-449 An error occurred accessing ./tmp/sh34736.2: A
10、 directory in the path name does not exist.backup: 0511-449 An error occurred accessing ./tmp/sh34736.3: A directory in the path name does not exist.15458 of 34025 files (45%).31920 of 34025 files (93%).0512-003 mksysb may not have been able to archive some files.The messages displayed on the Standa
11、rd Error contained additionalinformation.这是正常现象,备份成功。2.5系统恢复 当系统发生比较严重的故障以致采取一般性维护手段不能在短期内恢复原系统,在与客户进行蹉商后,可将最近一次的系统备份带倒回机器内以全面恢复系统到最近 一次做备份时的系统环境,然后可将当日的数据备份再倒回系统内。至此,系统可恢复正常运行。此后,客户应当与IBM工程师再进行整个事件的全面分析与回 顾,以期找到故障发生的原因,并采取相应措施以杜绝类似事件再次发生。2.6 DUMP当系统运行出现软件故障导致系统down机时,机器的液晶显示器会出现 888 102 xxx 0c0 (xx
12、x可能为700或其它),AIX常会将当时系统的运行情况记录下来,这就是DUMP。当DUMP产生后,请将磁带放入磁带机,用命令 # snap -a -o /dev/rmt0将DUMP 文件拷贝到磁带设备/dev/rmt0 中。注明磁带机的block size, DUMP产生的日期和机器的型号及序列号。同时,请用# errpt -a /tmp/err.log 将errorlog 记在/tmp/err.log中,并将 /tmp/err.log 和 /tmp/hacmp.* 拷贝到软盘或磁带上。将磁带和软盘交给IBM工程师。2.7日常检查服务器状态的项目及其相关命令1 运行lsdev 命令配以各种参数
13、,所列各种设备状态都应为Available。#lsdev C H S a 列出系统中可用设备。#lsdev Cc processor 列出系统中的所有CPU。#lsdev Cc memory 列出系统中的所有内存。#lsdev Cc disk 列出系统中的所有硬盘。#lsdev -Cc adapter | grep ent 列出系统中的所有网卡#lsdev -Cc adapter | grep scsi 列出系统中的所有SCSI卡。#lsdev -Cc adapter | grep ssa 列出系统中的所有SSA卡。2 lspv命令#lspv 显示系统中可用的PV。#lspv hdiskn 显
14、示hdiskn的具体信息。#lsdev Cc pdisk显示磁盘阵列的硬盘的具体信息。对SSA硬盘的检测:在对主机进行工作之前可以先把磁盘阵列上电,等主机完全启动后,登录到主机上,运行以下命令“ lsdev Cc pdisk “,应该可以看到所有SSA硬盘,并且状态应为Available.。3lsattr命令# lsattr E l mem0列出系统中内存mem0的大小,本项目中内存有4GB。4lsvg命令#lsvg 列出系统中所有的vg。#lsvg rootvg 列出rootvg的详细信息。#lsvg o 列出激活的vg5oslevel命令#oslevel 显示操作系统版本信息。6netst
15、at命令#netstat in 显示系统中各网卡的配置。可查看网卡的IP配置好了没有。7# diag 命令运行硬件诊断程序检测主机内所有硬件,检测结果为 “No trouble found ”显示各部分工作正常。 8使用#diag命令(选择:Task Selection- SSA Service Aids)对SSA硬盘链路连接的校验,可以通过SSA 工具里的Link Verification 来检测。如有必要,可以用 Certify Disk运行硬盘诊断部分进行硬盘的表面分析测试 ,由1% 至100%,检测结果显示主机内置硬盘的所有扇区均读写正常。9lsps a 查看PAGING SPACE的
16、使用情况,如果使用率超过70%,就需要采取措施。10lsvg o | lsvg il | grep i stale查看有无stale的lv,如果输入该命令之后有输出结果,就需要采取措施11有否发给root用户的错误报告(mail)。12检查双机状态:lssrc g cluster 检查ha三个工作进程是否激活,/usr/sbin/cluster/clstat a检查双机状态是否up,并检查hacmp.out日志,看是否有异常信息。13用vmstat, topas,sar 命令检查系统性能,检查cpumemoyrIO ,是否存在性能瓶颈。14检查能否顺利进入CDE界面,如果不能进入的话,要检查/
17、etc/hosts表中有否错误的项目。15用smitty ssaraid 查看磁盘阵列RAID盘的状态是否是Good。如果是degrade或其他状态表示RAID盘出现问题了16用sysdumpdev l 查看系统的DUMP设置是否正常。17用instfix ik | grep ML当前操作系统补丁版本补丁程序(PTF)是否满足稳定运行的需要。一般要求433操作系统补丁要打到10以上,5.1操作系统补丁要打到5以上18使用df kP查看磁盘空间占用率,请确保以下文件系统的占用率高于80%立即上报: 2.8性能监控与调优通过命令vmstat 1 来观察.kthr memory page fault
18、s cpu- - - - -rb avm frerepipofr srcyin sycs us sy id wa命令解析:vmstat 命令的输出可以反映系统整体运行状况,包括cpu、内存、虚拟页面、系统进程和系统调用情况。检查CPU是否为瓶颈,分别检查CPU的四项数值和kthr的两项数值.检查MEM是否为瓶颈,分别检查Memory的两项数值和Page 的六项数值.通过命令 sar mu P ALL 来观察。命令解析:sar可以用来收集反映系统运行状况,在这里主要是查看CPU的运行状况,CPU是否负载均衡,是否存在分配不均的情况。通过命令ps gv | more来观察。PID TTY STAT
19、TIME PGINSIZE RSS LIMTSIZ TRS %CPU %MEM COMMAND 0 - A 4:20 7 12 14516 xx 0 145040.05.0 s 1 - A 1:33103 78952 79044 32768 25 360.0 29.0 /etc/ini命令解析:ps可以用来查看进程的当前状态。在这里通过参数的配搭,可以观察目前正在运行的进程所耗的时间,CPU和memory 量.其中,%CPU表示进程所占用的CPU资源情况,%MEM表示进程所占用的内存情况。主要检查是否有标示为的僵尸进程耗 用系统资源,以及informix 数据库的oninit进程的系统消耗情况
20、。在机器上用dd命令进行磁盘阵列的写操作校验,与此同时用iostat 1 dhdiskX观察磁盘。Disks: % tm_act Kbps tps Kb_read Kb_wrtn命令解析: iostat可以用来查看系统的 I/O的输入输出情况,在这里主要查看阵列上的硬盘的每秒读写量,同时估算磁盘阵列读写速度HHhHhh 。通过命令netstat a进行查看。Active Internet connections (including servers)ProtoRecv-QSend-QLocal Address Foreign Address (state命令解析: netstat可以用来查看系
21、统的网络情况,在这里主要是查看网络客户端连接的情况和开销,检查参数为state,如有死连接,state状态为fin_wait, 这样耗用系统网络资源,从而导致网络性能下降构成瓶颈。2.9 安全工作守则a.系统定期进行系统备份,系统盘建议镜像。b.当有系统变更或进行操作系统补丁安装的时候,必须作一次系统备份。c.在7133和shark发现有硬盘故障的时候,请提醒客户注意当天的数据备份。在更换硬盘的时候,请确认当天数据备份已经完成。d.在更换敏感的电子元件,时候一定要防静电。e.在插拔外围设备的时候,请把外围设备下电。f.在进行主机微码升级时候,请留意微码的完整性。 g.在进行文件删除的时候,请留
22、意当前路径是否正确。h.在进行文件解压缩的时候,请留意参数和路径。2.10 维护电话在日常维护中碰到问题和疑难,可以致电:IBM 免费技术支持保修热线: 800-810-6677 -5100客户技术咨询热线: 800-810-1818IBM广州分公司联系电话: 本帖最后由 mfkqwyc86 于 2010-11-4 12:32 编辑 _#君子务本,本立而道生。-mfkqwyc86,飞鹰工作室ITPUT个人空间: -01.【Oracle RAC】Linux + Oracle 11g R2 RAC 安装配置详细过程02.【Oracle RAC】Oracle RAC更改VIP IP地址_2节点的实验
23、03.【Oracle RAC】Oracle RAC删除一个节点_3节点的实验04.【Oracle RAC】Oracle RAC增加一个节点_3节点的实验05.【Oracle RAC+DG】Oracle RAC+ASM+DataGuard配置实验记录06.【Oracle RAC】Oracle RAC CRS、OCR、Voting破坏重建07.【Oracle 表分区管理】Oracle Partition表分区与分区索引几种方式的实验操作08.【IBM DB2表空间管理】db2表空间管理实例讲解之精华09.【IBM DB2补丁升级】从v9.5.0.1升级到DB2 v9.5.0.610.【中间件资料下
24、载汇总】WebSphere,MQ,Portal,WebLogic资料下载汇总【PDF格式-共51类】只看该作者 mfkqwyc86 飞鹰工作室 精华贴数 1 个人空间 400技术积分 826 (3079)社区积分 28 (9086)注册日期 2007-4-28论坛徽章:1#2使用道具发表于 2010-11-4 12:22 跟贴说明:大家看了以下日常维护及故障处理汇总方法后,请大家在贴后跟上自己遇到过的错误问题,及解决方法!第三类、故障定位、故障排除根据我们在实际商用系统中碰到问题,我们总结出了以下几种常见故障及其定位方式和解决方法。3.1硬件故障硬件故障有很多种,对系统产生的影响也不一样,这里
25、按其故障对系统的影响程度分:致命影响的硬件故障和只影响功能的硬件故障两类进行硬件分类:其损坏对系统产生致命影响(将使机器宕机或无法启动)的硬件包括:主板、CPU、I/O柜(包含本地盘、光驱、PCI插槽等的柜子)或CEC柜(包含CPU/MEMORY等的柜子)、I/O柜与CEC柜的接线、电源模块、风扇、本地硬盘、内存损坏等等注:I/O柜和CEC柜一般在比较高端的小型机才有,如M80,低端的是合一的。这些设备的损坏等将使系统无法完成自检、引导和启动,液晶显示屏上都将有错误信息,可根据液晶显示屏上的错误码对照Service Guide查的错误原因,如果是工作状态下出现这些硬件损坏,则系统将被挂起或宕机
26、。其损坏对仅对系统产生功能影响(机器不会宕机并能正常启动)的硬件包括:网卡、本地硬盘有坏块、显卡、SSA卡和其他外围设备这些设备的损坏只影响特定功能,如网络功能、显示功能、访问磁阵的功能等,对于本地硬盘有坏块的情况,则要看坏块中是否包含了重要的系统文件,如果不是重要系统文件,则系统功能不受影响,但也建议立即更换该硬盘。故障定位和排除:以上硬件故障信息都可以使用:液晶屏上的错误码或:errpt dH 查看到根据错误码确定是什么硬件出了故障,对商用系统来讲,由于是双机系统,如果损坏机器是主机可以将此服务器切换成备机,然后修复故障机器,恢复系统。3.2磁阵故障磁阵引起的故障是目前碰到的最频繁、危害最大的故障,据不完全统计,其故障覆盖到总故障的70%以上,具体来讲,可能引起磁阵故障的环节包括:磁阵硬盘、7133柜子、主机上的SSA卡、连接7133与主机的SSA线、硬盘的位置和ssa线的接线方式、以及盘柜使用的电压及周围磁场、磁阵/硬盘/ssa卡的微码等都可能造成7133的异常。
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1