Oracle巡检手册.docx
《Oracle巡检手册.docx》由会员分享,可在线阅读,更多相关《Oracle巡检手册.docx(32页珍藏版)》请在冰豆网上搜索。
Oracle巡检手册
巡检内容
一、检查数据库基本状况
主要对数据库的基本状况进行检查,其中包含:
检查Oracle实例状态,检查Oracle服务进程,检查Oracle监听进程,总共三个部分。
1.1检查Oracle实例
其中“STATUS”表示Oracle当前的实例状态,必须为“OPEN";“DATABASE_STATUS”表示Oracle当前数据库的状态,必须为“ACTIVE”.
其中,“LOG_MODE”表示Oracle当前的归档方式。
“ARCHIVELOG”表示数据库运行在归档模式下,“NOARCHIVELOG"表示数据库运行在非归档模式下。
为了数据库的安全性,强烈建议数据库运行在归档模式下。
1。
2检查Oracle服务进程
在运行Oracle的进程命令输出后,输出显示至少应包含一下一些进程:
Oracle写数据文件的进程,输出显示为:
“ora_dbw0_ORCL”;
Oracle写日志文件的进程,输出显示为:
“ora_lgwr_ORCL”;
Oracle监听实例状态的进程,输出显示为:
“ora_smon_ORCL";
Oracle监听客户端连接进程状态的进程,输出显示为:
“ora_pmon_ORCL”;
Oracle进行归档的进程,输出显示为:
“ora_arc0_ORCL”;
Oracle进行检查点的进程,输出显示为:
“ora_ckpt_ORCL”;
Oracle进行恢复的进程,输出显示为:
“ora_reco_ORCL”;
1。
3检查Oracle监听状态
“ServicesSummary”项标识Oracle的监听进程正在监听哪些数据库实例,输出显示中至少应该有“ORCL”这一项。
检查监听进程是否存在:
二、检查系统和Oracle日志文件
检查相关的日志文件,包含:
检查操作系统的日志文件,检查Oracle日志文件,检查Oracle核心转储目录,检查root用户和oracle用户的email,检查数据库的字符集,总共五个部分。
2.1检查操作系统日志文件
查看是否有与Oracle用户相关的出错信息。
2。
2检查Oracle日志文件
Oracle在运行过程中,会在警告日志文件(alert_SID。
log)中记录数据库的一些运行情况:
数据库的启动、关闭,启动时的非缺省参数;数据库的重做日志切换情况,记录每次切换的时间,及如果因为检查点(checkpoint)操作没有执行完成造成不能切换,会记录不能切换的原因;对数据库进行的某些操作,如创建或删除表空间、增加数据文件;数据库发生的错误,如表空间不够、出现坏块、数据库内部错误(ORA-600)等。
定期检查日志文件,根据日志中发现的问题及时进行处理:
问题
处理
启动参数不对
检查初始化参数文件
因为检查点操作或归档操作没有完成造成重做日志不能切换
如果经常发生这样的情况,可以考虑增加重做日志文件组;想办法提高检查点或归档操作的效率;
有人XX删除了表空间
检查数据库的安全问题,是否密码太简单;如有必要,撤消某些用户的系统权限
出现坏块
检查是否是硬件问题(如磁盘本生有坏块),如果不是,检查是那个数据库对象出现了坏块,对这个对象进行重建
表空间不够
增加数据文件到相应的表空间
出现ORA-600
根据日志文件的内容查看相应的TRC文件,如果是Oracle的bug,要及时打上相应的补丁
Listener日志:
$ORACLE_HOME/network/log/sqlnet.log
2。
3检查Oracle核心转储目录
如果上面命令的结果每天都在增长,则说明Oracle进程经常发生核心转储。
这说明某些用户进程或者数据库后台进程由于无法处理的原因而异常退出.频繁的核心转储特别是数据库后台进程的核心转储会导致数据库异常终止。
2。
4检查root用户和Oracle用户的email
查看有误与Oracle用户相关的出错信息.
2.5检查当前数据库的字符集
设定适合的字符集可以解决乱码问题。
三、检查Oracle对象情况
主要检查相关Oracle对象的情况,包含:
检查Oracle控制文件情况,检查Oracle在线日志情况,检查Oracle表空间的情况,检查Oracle所有数据文件情况,检查Oracle所有表、索引、存储过程、触发器、包等对象的情况,检查Oracle所有回滚段的情况,总共六个部分。
3。
1检查Oracle控制文件状态
输出结果应该有2条以上(包含2条)的记录,“STATUS”应该为空。
状态为空表示控制文件状态正常.
3。
2检查Oracle在线日志情况
输出结果应该有3条以上(包含3条)记录,“STATUS”应该为非“INVALID”,非“DELETED"。
注:
“STATUS"显示为空表示正常.
3。
3检查Oracle表空间情况
输出结果中STATUS应该都为ONLINE。
3.4检查Oracle所有数据文件情况
输出结果中“STATUS”应该都为“ONLINE”。
或者:
输出结果中“STATUS"应该都为“AVAILABLE”。
3。
5检查对象情况
3.5.1检查对象类别和大小
合理分配资源,将冗余以及临时表定期进行清理,释放资源空间。
3.5。
2检查无效对象
如果有记录返回,则说明存在无效对象。
若这些对象与应用相关,那么需要重新编译生成这个对象.
3。
6检查回滚段情况
3。
6。
1检查回滚段状态
输出结果中所有回滚段的“STATUS”应该为“ONLINE”.
3.6。
2检查是否有回滚段争用
发生回滚段争用时,需要审视争用情况,即哪些用户正在使用回滚段资源
如果有用户正在使用,根据业务实际情况采取措施.
四、检查Oracle相关资源的使用情况
主要检查Oracle相关资源的使用情况,包含:
检查Oracle初始化文件中相关的参数值,检查数据库连接情况,检查系统磁盘空间,检查Oracle各个表空间使用情况,检查一些扩展异常的对象,检查system表空间内的内容,检查对象的下一扩展与表空间的最大扩展值,总共七个部分。
4。
1检查Oracle初始化文件中相关参数值
若LIMIT_VALU-MAX_UTILIZATION〈=5,则表明与RESOURCE_NAME相关的Oracle初始化参数需要调整。
可以通过修改Oracle初始化参数文件$ORACLE_BASE/dbs/spfileORCL.ora来修改.
4。
2检查数据库连接情况
查看当前会话连接数是否属于正常范围.
其中:
SID,即会话(session)的ID号;
SERIAL#,即会话的序列号,和SID一起用来唯一标识一个会话;
USERNAME,即建立该会话的用户名;
PROGRAM,即这个会话是用什么工具连接到数据库的;
STATUS,即当前这个会话的状态,ACTIVE表示会话正在执行某些任务,INACTIVE表示当前会话没有执行任何操作;
如果建立了过多的连接,会消耗数据库的资源,同时,对一些“挂死”的连接可能需要手工进行清理.如果要手工断开某个会话,则执行:
(一般不建议使用这种方式去杀掉数据库的连接,这样有时候session不会断开。
容易引起死连接.建议通过sid查到操作系统的spid,使用ps–ef|grepspidno的方式确认spid不是ORACLE的后台进程。
使用操作系统的kill—9命令杀掉连接)。
【注】USERNAME列为空)的会话,是Oracle的后台进程,不要对这些会话进行任何操作。
4。
3检查系统磁盘空间
如果文件系统的剩余空间过小或增长较快,需对其进行确认并删除不用的文件以释放空间。
4。
4检查表空间使用情况
如果空闲表空间比率小于10%以上(包含10%),则注意要增加数据文件来扩展表空间而不要是用数据文件的自动扩展功能。
请不要对表空间增加过多的数据文件,增加数据文件的原则是每个数据文件大小为2G或者4G,自动扩展的最大限制在8G。
4.5检查一些扩展异常的对象
如果有记录返回,则这些对象的扩展已经快达到它定义时的最大扩展值。
对于这些对象要修改它的存储结构参数。
4。
6检查system表空间内的内容
如果记录返回,则表明system表空间内存在一些非system和sys用户的对象。
应该进一步检查这些对象是否与我们应用相关.如果相关请把这些对象移到非System表空间,同时应该检查这些对象属主的缺省表空间值。
4.7检查对象的下一扩展与表空间的最大扩展值
如果有记录返回,则表明这些对象的下一个扩展大于该对象所属表空间的最大扩展值,需调整相应表空间的存储参数。
五、检查Oracle数据库备份结果
主要检查Oracle数据库备份结果,包含:
检查数据库备份日志信息,检查backup卷中文件产生的时间,检查oracle用户的email,总共三个部分.
5。
1检查数据库备份日志信息
假设:
备份的临时目录为/backup/hotbakup,我们需要检查2015年05月06日的备份结果,则用下面的命令来检查:
如果文件中存在“ERROR:
”,则表明备份没有成功,存在问题需要检查。
5。
2检查backup卷中文件产生的时间
backup卷是备份的临时目录,查看输出结果中文件的日期,观察是否是在所设定的时间范围内完成的备份。
如果时间不对则表明热备份脚本没执行成功。
5.3检查oracle用户的email
热备份脚本是通过Oracle用户的cron去执行的。
cron执行完后操作系统就会发一条Email通知Oracle用户任务已经完成.查看Oracleemail中在备份计划的时间内有无ORA-,Error,Failed等出错信息,如果有则表明备份不正常。
六、检查Oracle数据库性能
主要检查Oracle数据库性能情况,包含:
检查数据库的等待事件,检查死锁及处理,检查cpu、I/O、内存性能,查看是否有僵死进程,检查行链接/迁移,定期做统计分析,检查缓冲区命中率,检查共享池命中率,检查排序区,检查日志缓冲区,总共十个部分.
6。
1检查数据库的等待事件
如果数据库长时间持续出现大量像latchfree,enqueue,bufferbusywaits,dbfilesequentialread,dbfilescatteredread等等待事件时,需要对其进行分析,可能存在问题的语句。
6.2DiskRead最高的SQL语句的获取
6.3查找前十条性能差的SQL语句
6。
4等待时间最多的5个系统等待事件的获取
6。
5检查运行很久的SQL
6.6检查消耗CPU最高的进程
6。
7检查碎片程度高的表
6。
8检查表空间的I/O比例
6.9检查文件系统的I/O比例
6.10检查死锁及处理
查看死锁
若有结果,则oracle级kill掉该session
操作系统kill掉session
6。
11检查数据库CPU、I/O、内存性能
记录数据库的cpu使用、IO、内存等使用情况,使用vmstat,iostat,sar,top等命令进行信息收集并检查这些信息,判断资源使用情况。
CPU使用情况
内存使用情况
系统I/O情况
系统负载情况
6.12查看是否有僵死进程
有些僵死进程有阻塞其他业务的正常运行,定期杀掉僵尸进程。
6。
13检查行链接/迁移
注:
含有longraw列的表有行链接是正常的,找到迁移行保存到chained_rows表中,如没有该表执行../rdbms/admin/utlchain。
sql
Sql〉analyzetabletablenamelistchainedrows;
可通过表chained_rows中table_name,head_rowid看出哪些行是迁移行
如:
Sql>createtableaaasselecta。
*fromsb_zsxxa,chained_rowsbwherea。
rowid=b。
head_rowidandb.table_name='SB_ZSXX’;
sql〉deletefromsb_zsxxwhererowidin(selecthead_rowidfromchained_rowswheretable_name='SB_ZSXX’);
sql>insertintosb_zsxxselect*fromchained_rowwheretable_name=’SB_ZSXX';
6.14定期做统计分析
对于采用OracleCost—Based—Optimizer的系统,需要定期对数据对象的统计信息进行采集更新,使优化器可以根据准备的信息作出正确的explainplan。
在以下情况更需要进行统计信息的更新:
1、应用发生变化
2、大规模数据迁移、历史数据迁出、其他数据的导入等
3、数据量发生变化
查看表或索引的统计信息是否需更新,如:
若num_rows与count(*)的行数相差很多,则该表需要更新统计信息.
execdbms_stats.gather_table_stats(ownname=〉’SYS',tabname=>'UTIL_RECOMP_SORTED’,granularity=>'AUTO',cascade=>TRUE);
6.15检查缓冲区命中率
如果命中率低于90%则需加大数据库参数db_cache_size.
6。
16检查共享池命中率
如低于95%,则需要调整应用程序使用绑定变量,或者调整数据库参数sharedpool的大小。
6。
17检查排序区
如果disk/(memoty+row)的比例过高,则需要调整sort_area_size(workarea_size_policy=false)或pga_aggregate_target(workarea_size_policy=true)。
6。
18检查日志缓冲区
如果redobufferallocationretries/redoentries超过1%,则需要增大log_buffer。
七、检查数据库安全性
主要检查Oracle数据库的安全性,包含:
检查系统安全信息,定期修改密码,总共两个部分.
7.1检查系统安全日志信息
系统安全日志文件的目录在/var/log下,主要检查登录成功或失败的用户日志信息。
检查登录成功的日志
检查登录失败的日志
在出现的日志信息中没有错误(Invalid、refused)提示,如果没有(Invalid、refused)视为系统正常,出现错误提示,应作出系统告警通知。
7。
2检查用户修改密码
在数据库系统上往往存在很多的用户,如:
第三方数据库监控系统,初始安装数据库时的演示用户,管理员用户等等,这些用户的密码往往是写定的,被很多人知道,会被别有用心的人利用来攻击系统甚至进行修改数据.需要修改密码的用户包括:
数据库管理员用户SYS,SYSTEM;其他用户。
登陆系统后,提示符下输入cat/etc/passwd,在列出来的用户中查看是否存在已经不再使用的或是陌生的帐号。
若存在,则记录为异常.
修改密码方法
八、其他检查
主要检查当前crontab任务是否正常,检查OracleJob是否有失败等共六个部分.
8。
1检查当前crontab任务是否正常
8.2OracleJob是否有失败
如有问题建议重建job,如:
execsys。
dbms_job.remove
(1);
commit;
execsys。
dbms_job。
isubmit(1,’REFRESH_ALL_SNAPSHOT;’,SYSDATE+1/1440,’SYSDATE+4/1440');
commit;
8。
3监控数据量的增长情况
根据本周每天的检查情况找到空间扩展很快的数据库对象,并采取相应的措施:
——-删除历史数据
移动规定数据库中至少保留6个月的历史数据,所以以前的历史数据可以考虑备份然后进行清除以便释放其所占的资源空间.
-—-扩表空间
注意:
在数据库结构发生变化时,如增加了表空间,增加了数据文件或重做日志文件这些操作,都会造成Oracle数据库控制文件的变化,应及时进行控制文件的备份,备份方法是:
执行SQL语句:
或
这样,会在USER_DUMP_DEST(初始化参数文件中指定)目录下生成创建控制文件的SQL命令。
8。
4检查失效索引
注:
分区表上的索引status为N/A是正常的,如有失效索引则对该索引做rebuild
8.5检查不起作用的约束
如有失效约束则启用