服务器故障处理预案.docx

上传人:b****4 文档编号:1456221 上传时间:2022-10-22 格式:DOCX 页数:9 大小:78.83KB
下载 相关 举报
服务器故障处理预案.docx_第1页
第1页 / 共9页
服务器故障处理预案.docx_第2页
第2页 / 共9页
服务器故障处理预案.docx_第3页
第3页 / 共9页
服务器故障处理预案.docx_第4页
第4页 / 共9页
服务器故障处理预案.docx_第5页
第5页 / 共9页
点击查看更多>>
下载资源
资源描述

服务器故障处理预案.docx

《服务器故障处理预案.docx》由会员分享,可在线阅读,更多相关《服务器故障处理预案.docx(9页珍藏版)》请在冰豆网上搜索。

服务器故障处理预案.docx

服务器故障处理预案

 

公司

信息系统服务器故障应急处理预案(初稿)

 

第一部分服务器故障的处理响应2

第二部分服务器硬件故障的诊断和处理4

第三部分服务器软件故障的诊断和处理5

第一部分服务器故障的处理响应

(一)、服务器故障的定义

本预案所指的服务器故障是指公司管理信息系统范围内的网络服务器设备的故障。

包括因设备质量原因导致的系统故障、人为因素和网络系统外界因素而导致的系统故障、计算机病毒感染及遭受黑客或恶意代码攻击而导致的应用系统故障等。

涉及本预案的服务器设备包括小型机和服务器,设备清册参见附表1。

(二)、服务器故障的分类

以服务器设备的故障性质和故障可能涉及的范围,按照以下的标准进行分类:

服务器硬件故障:

服务器硬件故障,包括服务器的底板故障、板及设备故障、板及故障、内存板及内存故障、磁盘阵列及磁盘故障以及磁带库故障等。

这类故障将直接影响服务器的正常运行,情况严重的,将使服务器陷于瘫痪状态,基于该服务器的所有应用将无法正常使用。

如果该服务器承担的是网络的控制和管理职能,将对整个管理信息系统造成极为严重的影响;如果该服务器承担的是单个或多个应用系统的运行和管理,那么,这些应用系统将无法提供正常的服务。

服务器系统软件故障:

服务器的系统软件故障,包括操作系统故障、网络控制和管理系统故障、集群管理系统故障等等。

严重的服务器系统软件故障,同样会使服务器陷入瘫痪状态。

故障造成的影响,视该服务器承担的应用系统的不同而不同,如果该服务器承担了网络的控制管理或关键应用职能,将有可能造成非常严重的后果。

关键应用服务故障:

关键应用服务故障,包括数据库故障、数据库故障、数据库故障、故障、服务故障、邮件服务故障等。

这些应用服务软件的故障,对于相关的应用系统将产生一定的影响,其影响范围和损害程度随故障的性质和严重程度而定,严重的,将引起系统瘫痪。

(三)、服务器故障响应处理流程

 

 

第二部分服务器硬件故障的诊断和处理

一、硬件故障诊断

硬件故障的诊断一般是在服务器操作系统无法引导启动的情况下进行,可以通过对主机配置、主板故障指示灯、面板状态屏幕、面板指示灯提供的信息进行,如条件允许(如光驱引导启动正常),还应使用设备制造厂家提供的专用诊断软件进行检查和分析。

二、识别硬件故障的方法

1.电源故障。

电源故障的现象一般为:

电源部件开关在“合”状态、指示灯不亮;面板状态屏幕不亮;按电源开关机器无反应、主机电源指示灯不亮;无任何报警声。

2.如果在开机后出现错误代码或“哔”声错误信息,则应对照该型服务器的用户手册中有关的错误信息列表进行判别。

3.如果服务器的前面板有显示主机状态的液晶屏幕,应根据屏幕显示的信息对照用户手册中相应的内容进行判别。

4.如果服务器的底板、板、内存板上有显示状态的指示灯,一般都可以在机箱内找到代表指示灯意义的说明贴纸,可依此进行判别。

5.服务器一般都自带用于对硬件系统进行检测的诊断程序光盘,在服务器可以用该光盘进行引导启动的情况下,应使用该光盘进行系统测试。

三、故障排除顺序

1.如果系统无法上电,可按以下步骤进行操作:

(1)检查以确保电缆和电源线都牢固插进相应的插座。

(2)检查以确保系统所有部分均已打开并已正确调整。

(3)如果服务器电源线插入带开关的多插座接线盒,应确保接线盒上的开关已打开。

(4)将另一个电气设备电缆或电源线插入电源插座,并打开该设备。

(5)断开电源线,等待20秒,然后再次插入电源线并重新启动系统。

2.如果系统可以上电,但无法完成开机自检测试,可按以下步骤进行操作:

(1)如果系统发出一系列哔声,则表示系统有错误,应参阅该型服务器的用户手册中的“错误信息”章节进行判别。

或与产品供应商联系维修。

(2)如果系统无法运行开机自检测试,且屏幕显示错误信息,应参阅该型服务器的用户手册中的“错误信息”章节进行判别。

如果手册推荐的方法无法解决问题,应与产品供应商联系维修。

3.如果系统通过开机自检测试,但不运行,可按以下步骤进行操作:

(1)检查以确保服务器在安装实用程序中配置正确。

(2)如果服务器仍无法工作,应关机并卸下除显示器和键盘以外的所有外围设备。

测试服务器,并注意现在是否正常工作。

(3)如果服务器仍不工作,应关闭显示器、服务器和所有外围设备,然后按(4)条执行。

4.检查内置硬件:

(1)断开的电源线,卸下服务器主机盖。

(2)检查所有附件板是否牢固地固定在各自的插槽中。

(3)确保所有磁盘驱动器电源电缆和数据电缆已牢固并正确地联接。

使用机内配置的布线和开关配置图,查对海量存储器配置。

(4)检查并确保内存条和内存扩展板牢固地固定在各自的插槽中,且添加的内存条符合要求。

(5)重新装上服务器盖板,并锁定系统。

(6)重新装上所有电源线和电源电缆。

(7)打开服务器电源,查找错误信息。

(8)经以上步骤检查,仍无法得到有意义的错误信息,应与产品供应商联系维修。

第三部分服务器软件故障的诊断和处理

一、服务器软件故障分析和诊断

软件故障分析和诊断主要通过对主机运行状况、服务与进程、网络连接状况、系统端口、事件日志记录进行检查,这种检查的必要条件是服务器操作系统可以引导启动,并可以提供相应的检查界面。

1.主机运行状况的检测

服务器主机的、内存、磁盘的使用情况对服务器的性能影响很大,如果出现问题,将直接影响到服务器的正常运行,进而对服务器上正在运行的重要的应用系统带来不可预料的后果。

因此,处理服务器软件故障前,对主机的、内存、磁盘资源使用情况进行检测是一个非常重要的步骤,往往可以在第一时间发现主机基本性能的状态异常。

在平台上,一般使用任务管理器中的“性能”选项卡检测主机和内存的运行状况,使用资源管理器检查磁盘的使用情况,检查要点为:

●使用值,一般不会持续超过50%;

●内存“认可用量总数”持续超过“物理内存总数”会引起系统性能下降;

●内存“认可用量峰值”持续接近“认可用量限制”,系统将有崩溃的危险;

●任何装有运行系统的磁盘的可用空间趋近于零,系统将停滞或有崩溃的危险。

●装有操作系统的磁盘(一般为C:

\)的可用空间不应低于磁盘分区总容量的15%,根据实际的运行观察,当服务器C盘可用空间小于50M时,系统的运行将进入不稳定状态。

2.服务、进程管理的检测

服务器主机上的服务和进程主要来自二个部分,一是操作系统本身提供的系统服务和进程,这些服务的功能和状态在的服务列表中有比较详细的描述,这些服务的异常,系统一般会给出比较明确的错误提示。

另一部分是应用系统的服务,服务器上往往运行着非常重要的应用系统,例如大型的数据库系统、系统、或特殊业务的应用系统等。

应用系统的进程和服务是否正常运行是判断应用系统是否正常的关键,如果这些关键的进程和服务已经停止,则应用系统肯定无法正常工作。

监测服务器上的进程和服务是服务器管理的一个重点,对于进程的监测尤其重要,检查的要点为:

●有无可疑的进程活动;

●有无不显示进程标识符()的进程活动;

●有无不显示映象名称的进程活动;

●有无不显示用户名或显示非法用户名的进程活动;

●有无大量占用的进程;

●有无大量占用内存的进程;

●有无对象异常的进程。

3.网络状况检测

服务器网络组件的运行状况是服务器能否维持正常的网络访问和提供正常的网络服务的一个关键。

在服务器运行异常时必须检测服务器网卡的配置情况是否正常,最简单的测试是在提示符下运行命令,察看各个网络连接当前的配置状态。

使用网络监视器可以获得更多的信息,在网络监视器的实时部分,主要监视网络利用率、每秒帧数、每秒字节数、每秒广播、每秒多播等指标,在捕获统计中,主要监视缓冲区里的帧、当缓冲区超出限制时帧的丢失数、缓冲区利用率、丢失的帧数等指标。

当发现以上指标有异常,应进一步对捕获的数据帧进行分析,此时应特别注意查寻有无源地址或目标地址异常的帧,有无协议异常的帧。

4.系统端口检测

网络中的服务器系统通常会提供一系列的服务给网络中的其他机器进行访问和使用,这些服务都是通过一些指定的端口进行通讯的,所以系统业务端口的正常与否对于系统业务有直接的影响。

对服务器的系统业务端口的检测可以在提示符下使用命令,该命令随带的参数所表示的意义如下:

显示所有连接和监听端口。

显示包含于创建每个连接或监听端口的可执行组件。

在某些情况下已知可执行组件拥有多个独立组件,并且在这些情况下包含于创建连接或监听端口的组件序列被显示。

这种情况下,可执行组件名在底部的[]中,顶部是其调用的组件,等等,直到部分。

注意此选项可能需要很长时间,如果没有足够权限可能失败。

-e显示以太网统计信息。

此选项可以与选项组合使用。

以数字形式显示地址和端口号。

显示与每个连接相关的所属进程。

显示指定的协议的连接;可以是下列协议之一:

、、6或6。

如果与选项一起使用以显示按协议统计信息,可以是下列协议之一:

、6、、6、、6、或6。

显示路由表。

显示按协议统计信息。

默认地,显示、6、、6、、6、和6的统计信息;选项用于指定默认情况的子集。

与选项一起使用时将显示包含于为所有可执行组件创建连接或监听端口的组件。

重新显示选定统计信息,每次显示之间暂停时间间隔(以秒计)。

按停止重新显示统计信息。

如果省略,显示当前配置信息(只显示一次)

对于服务器,可通过系统业务端口,发送请求,以监测端口是否能够响应。

5.日志检查

服务器上的应用系统或重要进程运行时会产生大量的日志文件,这些日志文件对于检查程序运行状态、查找程序出错原因很有帮助。

对于平台上,可使用的日志系统是管理工具中提供的“事件查看器”,其中包括了系统日志、应用程序和安全性日志,需要重点关注的是“错误”和“警告”。

另外,服务器上运行的应用程序也会提供相应的日志系统,其提取日志的方法因应用系统的不同而不同,可参照相关的用户手册进行。

在平台上,日志是以文件的形式存放,不同版本的日志文件的目录是不同的,在下一般是在,在下,需要关注的日志文件有:

文件

描述

建议

由应用产生的文件,可用于诊断错误

可删除

命令的输出结果

可删除

X11的输出结果

可截短

用户邮箱中的邮件

可截短

用户使用命令后的日志

可适当保留最后1000行,或删除

记录用户的登录信息,是二进制文件,用命令来阅读其内容

根据需要保留60天中有用的内容,其余删除

记录用户失败的登录信息,是二进制文件,用命令来阅读其内容

可根据需要保留60天中有用的内容,其余删除

用户使用命令的日志

可根据需要保留60天中有用的内容,其余删除

 的日志

可截短

监控进程日志

可截短

2

子系统日志

可截短

未成功的邮件

可删除

实用程序的输出

可删除

用于记录进程的日志

可适当保留最后1000行,或删除

系统关机过程日志,用命令产生

可适当保留最后1000行,或删除

二、服务器软件故障的处理

服务器的故障中,大部分是软件故障。

软件故障对于服务器稳定运行的影响很大,严重时将引起整个系统崩溃。

一般常见的软件故障主要有操作系统文件损坏或丢失、设备驱动程序错误或损坏、服务进程不能启动、网络地址配置错误或丢失,以及应用系统软件方面的程序出错等等。

1.操作系统故障的处理

对于系统,如果操作系统故障前对操作系统有过不适当的修改而无法复原,或发现系统提示缺少必须的文件、提示某些文件错误等情况,在排除服务器感染病毒的可能以后,应即使用升级安装对操作系统进行恢复。

升级安装之前,应对重要的配置文

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高中教育 > 语文

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1