weblogic日常维护总结与故障诊断.docx

资源描述

weblogic日常维护总结与故障诊断.docx

《weblogic日常维护总结与故障诊断.docx》由会员分享，可在线阅读，更多相关《weblogic日常维护总结与故障诊断.docx（21页珍藏版）》请在冰豆网上搜索。

weblogic日常维护总结与故障诊断.docx

weblogic日常维护总结与故障诊断

中间件故障诊断总结

一、步骤：

1、准确描述现象：

客户说的和自己查看到的：

平台、版本、操作、信息等。

特别是，故障前是否有做过什么操作：

网络调整、设备调整、主机参数调整、配置文件修改……反正将这一切都列入排查的对象。

2、使用工具收集数据，收集配置文件、日志、dump文件等等。

3、使用分析数据，根据问题或收集的数据，使用适当的工具分析数据，当然包括了在网上和在官方支持站点搜索类似的问题的解决办法。

4、尝试解决问题，根据找到的问题点，尝试解决。

如修改错的，复原正确的；运行有问题的，适当调整运行的环境和运行的参数等等。

5、给出最佳解决方案，一般就是继续观察了。

6、总结经验并加以重用，知识积累。

二、通过前台收集基本的信息：

1、重点是故障前做过的操作

2、比对运行平台是否在官方的兼容性列表中，一般就是关注各个版本，特别是一些比较怪异的问题

3、检查环境和参数，如能打开控制台，就在控制台中初步观察，一般进入控制台的格式是地址：

端口/console如：

。

常用的留意点如下：

A、域运行状态（域-监视-健康状况）；一般为running状态，如果不是running，那这些界面就没有了。

B、服务器运行状态（域-环境-服务器），正常的为running。

C、各个server性能（JVM）状态（域-环境-服务器，点击具体的serve后进入，监视-健康状况）;留意JVM堆中当前可用的内存量。

不同的JVM，所显示的内容可能不一样，以下为sun的：

D、各个server线程状态（域-环境-服务器，点击具体的serve后进入，监视-线程）；一般来说，空闲线程要多；健康状况为ok

如下图health状态为：

Warning，这个是有线程阻塞的。

阻塞线程的内容为：

####<2011-8-13上午02时42分35秒GMT+08:

00><[ACTIVE]ExecuteThread:

'15'forqueue:

'weblogic.kernel.Default（self-tuning）'><><><><13><[STUCK]ExecuteThread:

'19'forqueue:

'weblogic.kernel.Default（self-tuning）'hasbeenbusyfor"2,492"secondsworkingontherequest"weblogic.work.SelfTuningWorkManagerImpl$WorkAdapterImpl@12035ed",whichismorethantheconfiguredtime（StuckThreadMaxTime）of"2,400"seconds.Stacktrace:

.SocketOutputStream.socketWrite0（NativeMethod）

.SocketOutputStream.socketWrite（SocketOutputStream.java:

97）

.SocketOutputStream.write（SocketOutputStream.java:

141）

.ns.DataPacket.send（UnknownSource）

E、JDBC（域-环境-服务器，点击具体的serve后进入，监视-JDBC）；活动连接数合理。

F、程序EJB/WebModule（域-部署）；状态为活动，健康状况为ok。

其目标关联正确

G、JMS（域-服务-消息传送-JMS服务器）；健康状态为ok。

4、在控制台生成dump；生成DumpThreadStacks内容；查找queryList等关键字符，即可快速定位问题代码。

5、如果控制台打不开或无法进入，就要先看进程有没有在跑，如果进程有，但控制台或程序无法进入，一般就是有故障了，此时，可以通过相关日志进行后台分析分析。

三、后台日志分析：

一般来说，新建立的环境，配置的问题多一点；已经运行的生成系统错误或bug的可能性大点。

当出现故障时，就可以调取系统日志、中间件的日志，根据相关关键字（BEA-）网上搜索，或到官方网站对相关问题的描述进行查找。

WebLogic在启动及运行过程中会记录各种LOG信息，以帮助系统治理员对整个应用系统进行治理及维护。

1、log默认位置

..\user_projects\domains\your_domain\servers\AdminServer\logs下面的AdminServer.log;access.log;domain_name.log

新版的如：

\Oracle\Middleware\user_projects\domains\base_domain\servers\AdminServer\logs

如果是重定向输出的，就看重定向输出的文件。

2、日志文件说明

WebLogicSERVER运行日志

假如WebLogicSERVER在启动或运行过程中有错误发生，错误信息会显示在屏幕上，并且会记录在一个LOG文件中，该文件默认名为AdminServer.log。

该文件也记录WebLogic的启动及关闭等其他运行信息。

可在Gernal属性页中设置该文件的路径及名字，错误的输出的等级等。

HTTP访问日志

在WebLogic中可以对用HTTP，HTTPS协议访问的服务器上的文件都做记录，该LOG文件默认的名字为Access.log,内容如下，该文件具体记录在某个时间，某个IP地址的客户端访问了服务器上的那个文件。

127.0.0.1--[25/Feb/2002:

11:

35:

58+0800]"GET/weatherHTTP/1.1"3020

127.0.0.1--[25/Feb/2002:

11:

35:

58+0800]"GET/weather/index.HtmlHTTP/1.1"200176

HTTP访问日志的属性可在HTTP属性页中进行设置。

DOMAIN运行日志

记录一个DOMIAN的运行情况，一个DOMAIN中的各个WebLogicSERVER可以把它们的一些运行信息（比如：

很严重的错误）发送给一个DOMAIN的ADMINISTRATORSERVER上，ADMINISTRATORSERVER把这些信息些到DOMAIN日志中。

默认名为：

domain_name.log。

一般就看这个最多。

3、通过控制台查看或修改系统日志路径

登录weblogic后台

左侧菜单：

Environment->Servers

右侧菜单：

AdminServer（admin）->logging

只找到examplesServer.log、access.log

配置如图:

4、其他

如果日志太少，里面没有记载相关信息，可参照日志文件的回滚设置。

在“滚动类型:

”属性页中可以设置这些日志文件的回滚方式，当日志文件到一定得大小或过了设定的时间后，把日志信息保存到一个新的文件中。

WebLogic提供按文件大小和时间两种方式。

如下面的设置种，选择RotationType为BYSIZE。

也就是当日志文件的大小达到500K时，重新写一个新的文件。

假如RotationType为BYTIME，那么是每隔一段时间重新写一个新的文件。

并且对这些文件编号设置日志文件名如：

_%yyyy%_%MM%_%dd%_%hh%_%mm%

5、日志的处理：

查看日志中输出的具体内容，再进行处理。

如：

BEA-

下面是一个线程阻塞的一个信息

####<2011-8-13上午03时51分46秒GMT+08:

00><[ACTIVE]ExecuteThread:

'11'forqueue:

'weblogic.kernel.Default（self-tuning）'><><><><12><[STUCK]ExecuteThread:

'1'forqueue:

'weblogic.kernel.Default（self-tuning）'hasbeenbusyfor"2,503"secondsworkingontherequest"weblogic.work.SelfTuningWorkManagerImpl$WorkAdapterImpl@deab5f",whichismorethantheconfiguredtime（StuckThreadMaxTime）of"2,400"seconds.Stacktrace:

四、产生hreadDump来分析问题

hreadDump是非常有用的诊断Java应用问题的工具，每一个Java虚拟机都有及时生成显示所有线程在某一点状态的thread-dump的能力。

虽然各个Java虚拟机threaddump打印输出格式上略微有一些不同，但是Threaddumps出来的信息包含线程；线程的运行状态、标识和调用的堆栈；调用的堆栈包含完整的类名，所执行的方法，如果可能的话还有源代码的行数。

ThreadDump特点：

∙能在各种操作系统下使用

∙能在各种Java应用服务器下使用

∙可以在生产环境下使用而不影响系统的性能

∙可以将问题直接定位到应用程序的代码行上

ThreadDump能诊断的问题包括：

∙查找内存泄露，常见的是程序里load大量的数据到缓存

∙发现死锁线程

∙收集ThreadDump

进行ThreadDump的方法取决于安装挂起服务器实例的操作系统。

有关在不同的操作系统上进行ThreadDump的信息，

SolarisOS

-’\’（Control-Backslash）

kill-QUIT

Linux

Linux操作系统查看线程的方式不同于其它操作系统。

该操作系统将每个线程视为一个进程。

若要在Linux上进行ThreadDump，查找通过其启动所有其它进程的进程ID。

使用命令：

∙若要获得根PID，使用：

ps-efHl|grep'java'**.**

使用一个作为字符串的grep参数（可在与服务器启动命令匹配的进程堆栈中找到该字符串）。

如果ps命令还没有管道传送到另一个例程，则报告的第一个PID将是根进程。

IBMAIX

在AIX上用IBM的JVM，内存溢出时默认地会产生javacore文件（关于cpu的）和heapdump文件（关于内存的）。

执行kill-3命令可以生成javacore文件和heapdump文件（pid为wasjava进程的id号，可以用ps-ef|grepjava查到），可以多执行几次。

有些Java应用服务器是在控制台上运行，如Weblogic，为了方便获取threaddump信息，在weblogic启动的时候，最好将其标准输出重定向到一个文件，用"nohupshstartWebLogic.sh>start.log&"命令，执行"kill-3"，Stacktrace就会输出到start.log里。

为了反映线程状态的动态变化，需要接连多次做threaddump，每次间隔10-20s。

Windows、XP、NT

•设置DOS窗口的属性：

Layout->ScreenBufferSize->Height9999。

•同时按下CTRL-BREAK

•找到ThreadDump的最开始的位置：

"Fullthreaddump."

每个服务器需要-来创建诊断问题所需的ThreadDump。

确保在每个服务器上执行几次，每次间隔大约5到10秒，以帮助诊断死锁问题。

在NT上，在命令shell中输入CTRL-Break。

获取失败时刻的获取失败时刻的ThreadDump

•启动JVM时，加入参数：

•SunJVM:

-XX:

+ShowMessageBoxOnE

•JRockitJVM:

-Djrockit.waitone

五、

常见的问题

1、OutofMemory

•当JVM没有足够的内存执行任务时，会触发

java.lang.OutOfMemoryError

•当没有更多内存可以分配时

•或空闲的内存有太多碎片，无法利用时

••可能不足的内存类型有可能不足的内存类型有：

：

•Native（物理内存）

•Heap（堆内存）

•特定Java内存代（例如，permanet）

对OutofMemory的响应的响应

•JVM会发送error到标准输出流和错误输出流

•WLS会将应用程序没有处理的Java异常和错误都输出

到服务器日志

•Out-of-Memory和类似的系统错误不应该由应用程序直

接处理接处理

•如果应用程序发生错误，会给客户端返回错误信息（

例如HTTP500）

•如果WLS子系统发生错误，则服务器处于不稳定状态

，需要重启

内存泄漏内存泄漏

•内存泄漏：

•最常见的引发Out-of-Memory错误的原因

•在Java中，内存泄漏并不常发生（相对传统语言）

•内存泄漏的原因是当对象不再被需要时，没有显式声明，进而

没有被垃圾回收处理

•常见的场景有：

•太大的缓存造成内存泄漏

•太多使用HTTP会话，导致内存泄漏

•对数据库操作结束时，没有正常关闭数据集及数据连接

•动态类加载问题

错误日志错误日志

•该日志文件通常包括如下类型的信息：

•操作系统错误消息

•JVM版本

•硬件和操作系统参数

••系统环境变量

•堆和垃圾回收汇总

•线程汇总

Runtimedataarea主要包括五个部分：

Heap（堆）,MethodArea（方法区域）,JavaStack（java的栈）,ProgramCounter（程序计数器）,Nativemethodstack（本地方法栈）。

Heap和MethodArea是被所有线程的共享使用的；而Javastack,Programcounter和Nativemethodstack是以线程为粒度的，每个线程独自拥有。

Heap

Java程序在运行时创建的所有类实或数组都放在同一个堆中。

而一个Java虚拟实例中只存在一个堆空间，因此所有线程都将共享这个堆。

每一个java程序独占一个JVM实例，因而每个java程序都有它自己的堆空间，它们不会彼此干扰。

但是同一java程序的多个线程都共享着同一个堆空间，就得考虑多线程访问对象（堆数据）的同步问题。

（这里可能出现的异常java.lang.OutOfMemoryError:

Javaheapspace）

Methodarea

在Java虚拟机中，被装载的class的信息存储在Methodarea的内存中。

当虚拟机装载某个类型时，它使用类装载器定位相应的class文件，然后读入这个class文件内容并把它传输到虚拟机中。

紧接着虚拟机提取其中的类型信息，并将这些信息存储到方法区。

该类型中的类（静态）变量同样也存储在方法区中。

与Heap一样，methodarea是多线程共享的，因此要考虑多线程访问的同步问题。

比如，假设同时两个线程都企图访问一个名为Lava的类，而这个类还没有内装载入虚拟机，那么，这时应该只有一个线程去装载它，而另一个线程则只能等待。

（这里可能出现的异常java.lang.OutOfMemoryError:

PermGenfull）

Javastack

Javastack以帧为单位保存线程的运行状态。

虚拟机只会直接对Javastack执行两种操作：

以帧为单位的压栈或出栈。

每当线程调用一个方法的时候，就对当前状态作为一个帧保存到javastack中（压栈）；当一个方法调用返回时，从javastack弹出一个帧（出栈）。

栈的大小是有一定的限制，这个可能出现StackOverFlow问题。

下面的程序可以说明这个问题。

publicclassTestStackOverFlow{

publicstaticvoidmain（String[]args）{

Recursiver=newRecursive（）;

r.doit（10000）;

//Exceptioninthread"main"java.lang.StackOverflowError

}

classRecursive{

publicintdoit（intt）{

if（t<=1）{

return1;

}

returnt+doit（t-1）;

}

Programcounter

每个运行中的Java程序，每一个线程都有它自己的PC寄存器，也是该线程启动时创建的。

PC寄存器的内容总是指向下一条将被执行指令的饿“地址”，这里的“地址”可以是一个本地指针，也可以是在方法区中相对应于该方法起始指令的偏移量。

Nativemethodstack

对于一个运行中的Java程序而言，它还能会用到一些跟本地方法相关的数据区。

当某个线程调用一个本地方法时，它就进入了一个全新的并且不再受虚拟机限制的世界。

本地方法可以通过本地方法接口来访问虚拟机的运行时数据区，不止与此，它还可以做任何它想做的事情。

比如，可以调用寄存器，或在操作系统中分配内存等。

总之，本地方法具有和JVM相同的能力和权限。

（这里出现JVM无法控制的内存溢出问题nativeheapOutOfMemory）

旧系统

2、服务器挂起

问题描述

在出现以下情况时怀疑服务器挂起：

•服务器不响应新的请求。

•请求超时。

•请求处理的时间越来越长（其最终结果可能是挂起）。

•通常，服务器挂起不会表现为服务器崩溃，但服务器挂起之后可能会崩溃。

•资源濒临枯竭：

内存、工作线程、数据库连接池…

故障排除

请注意，并非下面所有任务都需要完成。

有些问题仅通过执行几项任务就可以解决。

快速链接：

为什么发生此问题？

服务器挂起的可能原因

基本步骤

已知的WebLogicServer问题

收集ThreadDump

ThreadDump分析

为什么发生此问题？

服务器挂起有多种原因。

一般而言，服务器挂起是因为缺少某种资源。

缺少资源会阻止服务器响应服务请求。

例如，由于故障（死锁）或者大量请求的缘故，可能没有任何可用的执行线程来完成工作，所有执行线程都被占用或忙于处理以前的请求。

引起引起ServerHang的原因的原因

•工作线程太少

•垃圾回收占用时间太多

•JVM代码优化问题

•应用程序死锁

•JDBC死锁

•RemoteJNDIlookups

•JSP编译

•JSP不正确的设置：

PageCheckSeconds

•JVMbug

服务器挂起的可能原因

主题模式名称链接

RMI、RJVM响应－所有绑定线程等待RJVM、RMI响应。

EJB_RMI服务器挂起EJB_RMI服务器挂起

应用程序死锁－线程锁定资源1，然后等待锁定资源2。

另一个线程锁定资源2，然后等待锁定资源1。

应用程序死锁导致服务器挂起待定

线程全部被占用，没有线程可用于新工作。

线程占用导致服务器挂起待定

垃圾回收花费太多时间。

垃圾回收导致服务器挂起待定

servlet时间的JSP错误设置，比如PageCheckSeconds。

JSP导致服务器挂起待定

死锁造成JDBC挂起。

JDBC中的服务器挂起待定

（代码优化）过程中的JVM挂起类似于服务器挂起。

代码优化中服务器挂起待定

在大量负载情况下JSP编译造成服务器挂起。

JSP编译导致服务器挂起待定

SUNJVM错误，比如轻量型线程库。

SunJVM错误导致服务器挂起待定

返回页首

基本步骤

当服务器挂起时，首先使用javaweblogic.Admint3:

//server:

portPING来ping该服务器。

如果服务器能够响应此ping，则可能是应用程序正在挂起而不是服务器自身。

确保服务器确实正在挂起，而不是在做垃圾回收。

若要验证挂起，启用-verbosegc重新启动服务器，然后将stdout和stderr重定向到一个文件中。

当服务器停止响应时，可以判断它是正在收集无用信息还是确实挂起。

WebLogicServer使用“Default”线程队列响应客户端服务请求。

这些是在发生服务器挂起时应当检查的线程。

下面是其中一个线程在ThreadDump中的形式示例。

ExecuteThread14正在等待任务。

该线程调用的最后方法是Object.wait（）。

"ExecuteThread:

'14'forqueue:

'default'"daemonprio=5tid=0x8b0ab30nid=0x1f4waitingonmonitor[0x96af000..0x96afdc4]

java.lang.Object.wait（NativeMethod）

java.lang.Object.wait（Object.java:

420）

weblogic.kernel.ExecuteThread.waitForRequest（ExecuteThread.java:

94）

weblogic.kernel.ExecuteThread.run（ExecuteThread.java:

118）

确定“Default”ExecuteThread队列是否超载。

利用控制台确定“Default”队列中的所有ExecuteThreads是否空闲。

如果没有一个空闲，则应用程序可能需要一个更大的ExecuteThread数来配置。

可以通过控制台更改该值，并将其保存在config.xml文件中。

如果执行队列有空闲线程，则可能没有分配足够的SocketReader线程。

缺省情况下，WebLogicServer实例在启动时创建三个SocketReader线程。

如果群集系统在高峰期使用的SocketReader线程超过三个，则增加SocketReader线程的数量。

通常，Socket

展开阅读全文