ORACLE 操作规范.docx

资源描述

ORACLE 操作规范.docx

《ORACLE 操作规范.docx》由会员分享，可在线阅读，更多相关《ORACLE 操作规范.docx（34页珍藏版）》请在冰豆网上搜索。

ORACLE 操作规范.docx

ORACLE操作规范

日常操作规范

作者

李娇华

日期

07.12.16

操作规范1

数据库重新启动规范1

双机切换规范3

双机配置规范4

新建逻辑卷数据库使用规范8

新装数据库操作规范10

割接申请15

业务上线前数据库检查规范16

割接日志21

事件跟踪22

数据库备份恢复23

附录26

操作规范

数据库重新启动规范

关闭过程

1）查看主机名称

$hostname

2）查看实例名称

$sqlplus

conn/assysdba

selectinstance_namefromv$instance;

3）关闭监听程序

停数据库监听，保证没有新业务发生

lsnrctlstop

检查监听状态

lsnrctlstatus

4）杀掉业务主机上的所有业务连接

$ps-ef|grepLOCAL=no|cut-c10-15|xargskill-9

$ps-ef|grepLOCAL=NO|cut-c10-15|xargskill-9

5）检查活动事务

SELECTs.sid,s.serial#,s.username,s.program,

t.used_ublk,t.used_urec

FROMv$sessions,v$transactiont

WHEREs.taddr=t.addr

ORDERBY5desc,6desc,1,2,3,4;

6）备份spfile

createpfile='/tmp/init6.ora'fromspfile;

7）关闭数据库

在没有活动事务的情况下关闭数据库

shutdownimmediate;

某些特殊情况下，数据库可能很长时间，如有异常采用下面方式关闭数据库,但是在这种情况下，最好再正常启动一次数据库和关闭数据库。

Øshutdownabort

Ø杀掉pmon对应的进程

8）检查警告日志，确定数据库正常关闭

viewalert.log

启动过程

1）启动数据库

startup

启动数据库过程中会遇到很多问题导致数据库不能正常启动，在数据库不能正常启动过程中，首先检查警告日志，确定数据库到底在那个状态下出问题。

2）启动监听

lsnrctlstart

3）检查警告日志

viewalert.log

4）检查参数值

数据库启动后，检查核心参数是否进行调整

双机切换规范

　HACMP的工作原理是利用LAN来监控主机及网络、网卡的状态。

在一个HACMP环境中有TCP/IP网络和非TCP/IP网络。

TCP/IP网络即应用客户端访问的公共网，该网可以是大多数AIX所支持的网络，如Ethernet，T.R.，FDDI，ATM，SOCC，SLIP，等等。

非TCP/IP网络用来为HACMP对HA环境（Cluster）中的各节点进行监控而提供的一个替代TCP/IP的通讯路径，它可以是用RS232串口线将各节点连接起来，也可以是将各节点的SCSI卡或SSA卡设置成TargetMode方式。

1、作为双机系统的两台服务器（主机A和B）同时运行Hacmp软件；

2、服务器除正常运行自机的应用外，同时又作为对方的备份主机；

3、两台主机系统（A和B）在整个运行过程中，通过"心跳线"相互监测对方的运行情况（包括系统的软硬件运行、网络通讯和应用运行情况等）；

4、一旦发现对方主机的运行不正常（出故障）时，故障机上的应用就会立即停止运行，本机（故障机的备份机）就会立即在自己的机器上启动故障机上的应用，把故障机的应用及其资源（包括用到的IP地址和磁盘空间等）接管过来，使故障机上的应用在本机继续运行；

5、应用和资源的接管过程由Ha软件自动完成，无需人工干预；

6、当两台主机正常工作时，也可以根据需要将其中一台机上的应用人为切换到另一台机（备份机）上运行。

双机配置规范

1）划分清楚两台服务器主机各自要运行的应用（如A机运行应用，B机作为standby）；

2）给每个应用（组）分配Service_ip、Standby_ip、boot_ip和心跳线tty，如：

　　主机A（运行应用）：

Service_ip:

172.16.1.1

Standby_ip:

172.16.2.1

Boot_ip:

172.16.1.3

主机B（standby）：

Service_ip:

172.16.1.2

Standby_ip:

172.16.2.2

Boot_ip:

172.16.1.4

3）按照各主机的应用的要求，建立好各自的磁盘组，并分配好磁盘空间；

4）根据Ha软件的要求，对服务器操作系统的参数作必要的修改。

IBMHACMP双机服务器系统的解决方案

HACMP的安装配置步骤如下：

1）在两台服务器上分别安装HACMP软件

#smitinstallp

2）分别检查两台主机上安装的软件是否成功

#/usr/sbin/cluster/diag/clverify

software

cluster

clverify>software

ValidOptionsare:

lpp

clverify.software>lpp

若没有error出现则安装成功。

3）分别配置两台服务器的bootIP地址和StandbyIP地址，保证boot网和Standby网能ping通（用smit tcpip命令），用netstat命令检查配置是否正确

#netstat-i

4）利用smittty在两台主机上增加一个TTY接口，配置心跳线（RS232）：

用lsdev-Cctty查看tty是否配置好。

#lsdev-Cctty

在两台上分别输入如下命令：

S85_1#cat/etc/hosts>/dev/tty0

S85_2#cat

如果在S85_2机能接收到信息，则表明心跳线已经配置好。

HACMP常见的故障解决方法

HACMP将诊测并响应于三种类型的故障：

1）网卡故障

HACMP的群集结构中，除了TCP/IP网络以外，还有一个非TCP/IP网络，它实际上是一根"心跳"线，专门用来诊测是节点死机还是仅仅网络发生故障。

如下图所示，一旦节点加入了Cluster（即该节点上的HACMP已正常启动），该节点的各个网卡、非TCP/IP网络就会不断地接收并送Keep-Alive信号，K-A的参数是可调的，HA在连续发送一定数量个包都丢失后就可确认对方网卡，或网络，或节点发生故障。

因此，有了K-A后，HACMP可以很轻易地发现网卡故障，因为一旦某块网卡发生故障发往该块网卡的K-A就会丢失。

此时node1上的clustermanager（HACMP的"大脑"）会产生一个swap-adapter的事件，并执行该事件的script（HACMP中提供了大部分通用环境下的事件scripts,它们是用标准AIX命令和HACMP工具来写的）。

每个节点上都有至少两块网卡，一块是serviceadapter,提供对外服务，另一块是standbyadapter，它的存在只有clustermanager知道，应用和client并不知道。

一旦发生swap-adapter事件后，clustermanager将原来serviceadapter的IP地址转移到standbyadapter上，而standby地址转移到故障网卡上，同时网络上其他节点进行ARP的刷新。

网卡互换（swap-adapter）在几秒内就可完成，以太网为3秒，并且这种转换对应用和client来说是透明的，只发生延迟但连接并不中断。

2）网络故障

如果发往node1上的service和standby网卡上的K-A包全都丢失，而非TCP/IP网络上的K-A仍然存在，那么HACMP判断node1仍然正常而网络发生故障。

此时HACMP执行一个。

3）节点故障

如果不仅TCP/IP网络上的K-A全部丢失，而且非TCP/IP网络上的K-A也丢失，那么HACMP断定该节点发生故障，并产生node-down事件。

此时将有资源接管，即放在共享磁盘陈列上的资源将由备份节点接管，接管包括一系列操作：

Acquiredisks，VaryonVG,Mountfilesystems，ExportNFSfilesystems,AssumeIPnetworkAddress,Restarthighlyavailableapplications,其中IP地址接管和重新启动应用由HACMP来实现，而其他是由AIX来完成。

当整个节点发生故障时，HACMP将故障节点的serviceIPaddress转移到备份节点上，使网络上的client仍然使用这个IP地址，这个过程称为IP地址接管（IPAT），当一个节点down掉后，如果设置了IP地址接管，网络上的clients会自动连接到接管节点上；同样，如果设置了应用接管，该应用会在接管节点上自动重启，从而使系统能继续对外服务。

对于要实现接管的应用，只需在HACMP中把它们设置成applicationserver,并告诉HACMP启动这个应用的startscript的全路径名和停止该应用的stopscript的全路径名。

由此可见，应用接管的配置在HACMP中十分简单，重要的是startscript和stopscript的写作，这需要用户对自己应用的了解。

4）其他故障

HACMP只去检测网卡、网络和节点是否发生故障，并作出相应的转移、接管行为。

对于其他故障，那么HACMP缺省不作任何动作。

a、硬盘故障

一般我们都将硬盘设置成RAID-5方式或mirror方式，从而提供硬盘的高可用性。

RAID-5将奇偶较验位分散在硬盘组中，因此当一组内的一个硬盘坏掉，组内的其他硬盘可以通过奇偶较验位将该硬盘上的数据恢复出来。

RAID-5方式一般是由硬件实现的，如下7133的SSA适配器,而且如果同一组内的两个硬盘坏掉，该组硬盘的数据很可能就会全部丢失。

mirror方式是将同一个数据写到至少两个物理外置上，因此它的效率没有RAID-5好，而且用盘量大，但安全性比RAID-5高，而且它易于实现，通过AIX中的（LogicVolumeManagement）可以很方便地设置。

b、硬盘控制卡

存储设备连接到主机上都必须通过一块控制卡，SCSI设备是SCSIAdapter,SSA设备是SSAAdapter,如果这块卡坏掉，与之连接的外设就无法利用。

有几种办法可以解决这个问题。

一种办法是用多个adapter。

每个主机上都有两块或两块以上adapter,分别连接mirror的数据，因此无论是硬盘坏掉，还是Adapter坏掉，所有好数据还是可以被主机利用，不会出现单点故障。

这种方法实现起来并不难，但必须配置多块adapter,而且必须采用数据mirror方式。

这种方法也不用通过HACMP来实现。

另一种方法仍只用一块adapter,利用HACMP中的ErrorNotificationFacility（错误通告机制）来解决。

ErrorNotificationFacility是HACMP提供的对其他设备的监控工具，任何报告给AIX的错误（error）都能被捕获被采取相应措施。

HACMP提供了smit界面，使配置简单化。

我们已知道，用LVM可实现硬盘镜像，当一个盘坏掉，仍有一份数据在镜像盘里，数据仍可进行读写，但此时数据不再有可用性，若镜像盘也坏掉则数据全部丢失。

所以在此例中，PV丢失（LVM_PVMISS）的信息会大幅显示在控制台面上，从而提醒用户去仔细查看errorlog找出故障并修复它。

同样，此例中HACMP提供了界面，结合AIX的功能，从而监控故障的发生。

c.、应用故障

如果用户的应用有kernelcall调用，或以root身份来启动等，一旦应用发生故障，很容易导致操作系统down掉，发生死机，这时实际上等于节点故障，HACMP会采取相应接管措施。

如果只是应用自身死掉，AIX仍正常运行，HACMP最多利用ErrorNotificationFacility来提供监控功能，对应用本身不采取任何动作。

但如果应用中调用了AIX的SRC（SystemResourceController）机制所提供的API接口，就可以使应用在down掉后自动重新启动。

除了SRC提供API接口外，HACMP中的clinfo也提供这样的API。

clinfo是clusterInformationdaemon,它负责维护整个cluster的状态的信息，clinfoAPI允许应用程序利用这些状态信息来采取相应行动。

d.、HACMP故障

如果cluster中节点的HACMP进程down掉，HACMP将其升级为节点故障，从而发生资源接管。

如上所述，HACMP只全权负责诊断网卡故障、网络故障和节点故障这三类故障，并负责实现IP地址转换或接管，以及整个系统资源（硬件、文件、系统、应用程序，等等）的接管。

对于这三类故障外的其他故障，可以结合AIX基本功能和HACMP提供的一些机制，如ErrorNotificationFacility,clinfoAPI等，同样可以实现对故障的监控并采取相应措施。

新建逻辑卷数据库使用规范

日常工作中经常要给数据库添加数据文件，在添加数据库文件前要详细检查裸设备的使用情况

检查设备使用情况

裸设备是否已经再使用,例如裸设备名称为/dev/ris1vg5_2_048

fuser/dev/ris1vg5_2_048

如果返回类似下面结果

/dev/ris1vg5_2_0483867114394472439570183961318

说明该设备已经被使用，绝对不能作为新的数据文件使用

修改lv属主、权限

在添加数据文件前，一定要检查lv的属主、权限，参照如下命令修改。

#ls-l/dev/vg[adil]*/r*

#chownoracle:

dba/dev/vg[adil]*/r*

#chmod640/dev/vg[adil]*/r*

#ls-l/dev/vg[adil]*/r*

检查lv的大小

添加数据文件前一定要确定裸设备的大小，一般添加数据文件比裸设备要最少小1M

#lvdisplay/dev/is1vg5_2_048

检查vg状态

#vgdisplay–vvgarch

#vgdisplay–vvgdata

#vgdisplay–vvglog

激活卷组

#vgchange–ayvgdata

#vgchange–ayvglog

#vgchange–ayvgarch

停止卷组

#vgchange–anvgdata

#vgchange–anvglog

#vgchange–anvgarch

使用新逻辑卷作为数据文件使用

altertablespacexxxxadddatafile'/dev/xxxx'size10000M

autoextendoff;

注意在添加裸设备的时候一定要加上autoextendoff语句，避免在数据量变化的时候由于裸设备不能自动扩展引起操作系统或数据库的问题。

新装数据库操作规范

检查操作系统的版本,补丁,JDK版本是否符合要求.

1）在安装过程中有相当多的操作系统版本，在安装过程中首先在metalink 上查找要安装的ORACLE版本在使用的操作系统上是否经过认证。

2）查看ORACLE官方文档（Note:

169706.1）确认对应的操作系统软件是否安装完整。

3）查看ORACLE官方文档（Note:

169706.1）确认对应的操作系统补丁是否安装。

创建用以安装ORACLE产品的用户及组

用户组

组id

用户名

用户id

HOME目录

目录大小

oinstall

1001

oracle

1001

/oracle

20G

dba

1002

groupadd-g1001oinstall

groupadd-g1002dba

useradd-u1001-g1001-Goinstall,dba-d/oracle-moracle

passwdoracle

chown-Roracle:

dba/oracle

设置环境变量

确定ORACLE_SID,ORACLE_BASE,ORACLE_HOME,PATH环境变量。

针对unix系统编辑$HOME/.profile文件。

针对linux系统编辑$HOME/.bash_profile文件。

1）安装oracle9i

exportORACLE_SID=xxxx

exportORACLE_BASE=/oracle/app/oracle

exportORACLE_HOME=$ORACLE_BASE/product/9.2.0/db_1

exportPATH=$PATH:

$ORACLE_HOME/bin

2）安装oracle10g

exportORACLE_SID=xxxx

exportORACLE_BASE=/oracle/app/oracle

exportORACLE_HOME=$ORACLE_BASE/product/10.2.0/db_1

exportPATH=$PATH:

$ORACLE_HOME/bin

拷贝介质

在安装过程中，建议将对应安装介质拷贝到硬盘上，在拷贝前，确认对应安装介质有几张光盘。

每张光盘创建一个目录。

例如在HPUNIX上安装ORACLE9I对应有4张ORACLE光盘，在同一级目录下创建四个目录（DISK1,DISK2,DISK3,DISK4）,注意安装目录大写。

然后将对应的光盘拷贝到对应的目录下。

使用硬盘的安装方式的好处是安装速度快，避免服务器光驱的原因影响安装进度。

安装ORACLE数据库软件系统

在安装过程中，不要创建数据库。

先保障软件的正常安装。

安装数据库补丁

在安装完软件后，建议安装ORACLE提供的最新补丁集合。

安装ORACLE补丁集前确认对ORACLE软件进行备份。

例如9i版本后的最后的补丁集合为9208，10g版本后的最后的补丁集合为10.2.0.3。

安装数据库小补丁

针对每一个ORACLE版本后都有一些关键补丁。

这些关键补丁主要是用来处理ORACLE软件的一些特定bug问题。

安装ORACLE小补丁前确认对ORACLE软件进行备份。

使用最新的opatch软件进行小补丁的安装。

创建数据库

在软件和补丁安装完成后创建数据库，具体创建数据库确认下面一些关键项。

1）数据库字符集

正常一般国内使用的数据库字符集为ZHS16GBK,如果是外资企业，根据要求选择对应的字符集合。

针对一些特殊的跨国企业，在同一个数据库中要使用多种字符，建议直接使用UTF8。

2）数据块大小

一般数据块大小建议使用8k,在创建数据库前一定要确认好数据块的大小。

否则数据库创建完成后无法修改数据块的大小。

3）控制文件

针对控制文件，在前期规划的时候确定数据库的容量，确定最大数据文件个数。

由于重建控制文件是有一定风险性的。

建议在前期规划的时候一次性规划好。

经验一个数据库的每个数据文件规划为10G，假设数据库容量为30T。

最大数据文件个数在3000左右。

一般习惯将数据文件个数设置为4096。

同时确定数据库参数db_files=4096,确定数据库能最大支持到4096个文件（包括在线日志文件，临时文件）。

4）表空间管理方式

针对数据表空间确认使用ASSM管理方式。

另外确认

针对数据文件，uniformsize4M

createtablespacexxxxdatafile'/dev/xxxx'size10000M

autoextendoff

extentmanagementlocal

uniformsize4M

segmentspacemanagementauto;

针对索引文件,uniformsize8M

createtablespacexxxxdatafile'/dev/xxxx'size10000M

autoextendoff

extentmanagementlocal

uniformsize8M

segmentspacemanagementauto;

针对临时文件,uniformsize16M

createtablespacexxxxdatafile'/dev/xxxx'size10000M

autoextendoff

extentmanagementlocal

uniformsize16M

segmentspacemanagementauto;

5）在线日志文件

每个日志组最少有两个日志成员，每个成员大小512M。

6）数据库关键参数

参数名称

参数值

db_cache_size

根据实际内存规划

db_keep_cache_size

根据实际内存规划

db_file_multiblock_read_count

db_writer_processes

cursor_sharing

similar

shared_pool_size

根据实际内存规划

shared_pool_reserved_size

shared_pool_size*10%

open_cursors

3000

open_links

session_cached_cursors

300

job_queue_processes

java_pool_size

200M

large_pool_size

200M

log_buffer

16000000

log_archive_max_processes

processes

根据用户并发数规划

pga_aggregate_target

根据实际内存规划

undo_retention

3600

optimizer_dynamic_sampling

optimizer_index_cost_adj

optimizer_index_caching

割接申请

割接流程表，割接确认单请查看附录一。

业务上线前数据库检查规范

主机检查规范

1）检查CPU个数

lsdev-Ccprocessor

2）检查内存容量

grepMemTotal/proc/meminfo

dmesg

3）检

展开阅读全文