SnapAssure常见故障维护手册.docx
《SnapAssure常见故障维护手册.docx》由会员分享,可在线阅读,更多相关《SnapAssure常见故障维护手册.docx(27页珍藏版)》请在冰豆网上搜索。
SnapAssure常见故障维护手册
SnapAssure维护手册
迪思杰(北京)数码技术有限公司
2007年06月
目录
一、手工操作3
1、通过控制台手工执行备份3
2、通过控制台执行物理恢复操作4
3、物理恢复后数据库的打开过程7
4、通过控制台执行表恢复8
二、检查备份信息9
1、检查数据库备份版本的正确性9
2、检查备份版本中的文件10
3、检查数据库日志文件11
4、检查备份期间产生的日志11
5、检查备份池空间使用情况13
6、检查当前备份系统使用哪个备份池13
三、常见故障维护14
1、无法进入图形界面14
2、备份进程是否正常启动14
3、无法注册主机信息14
4、在备份的时候会出现中断15
5、手工点击备份后,没有开始备份15
6、无法创建存储卷15
7、出现类似“ProcessingColdBackup”信息15
8、出现类似“Agent:
101”信息16
9、出现类似“Agent:
205”错误16
10、出现类似“agent:
200”错误16
11、出现类似“errorconnectto192.168.1.160:
8501”错误16
12、出现类似“Cannotallocextent”错误16
13、出现类似“Sorry,cannotfindanydatabasefiles”错误16
14、生产数据库出现故障,如何恢复17
15、多版本策略集备份过程中,网络中断17
16、数据文件备份正常结束,但数据字典没有备份17
17、非归档模式,数据库日志无法备份17
18、无法通过控制台选择所需要备份的标空间18
19、逻辑恢复表时无法选择用户表名18
20、如何确认备份所需要使用的版本18
21、生产端数据库重新启动,如何处理18
22、修改备份配置19
23、备份系统主机重新启动20
24、在备份过程中备份服务器故障20
25、启动备份进程agent提示类似“lib”的错误21
26、联系方式21
说明
本维护手册所有涉及SnapAssure的操作均在操作系统或者SnapAssure图形控制台上操作,关于SnapAssure字符界面的相关操作清参考《SnapAssure之字符界面使用手册》。
本手册中,所有的操作实例均以oracle策略集为例。
一、手工操作
手工操作指不使用备份计划执行,而是使用控制台执行的操作。
通常包括手工执行策略集备份、手工执行策略集恢复、手工执日志恢复、手工执行用户表恢复等操作,下面已数据库的策略集为例分别加以说明:
1、通过控制台手工执行备份
如下图所示,选择操作->备份,选择策略集<服务名>_data,选择策略1.<服务名>_data,执行备份。
手工执行备份操作有以下特点:
1、可以在执行备份之前调整备份参数,具体操作是双击备份项列表中的需要的行,在弹出的页面中,选择高级,修改高级按钮中的参数、备份类型。
手工执行备份操作所修改的参数不修改系统配置中相对应的参数,属临时性修改。
2、对于数据库的策略集,可以指定所选择的表空间名称,请点击表空间右侧的按钮加以选择。
也可以手工输入表空间名称,要以逗号隔开所输入的表空间名称。
3、手工操作只对数据库和文件系统等配置了多版本的策略集,对于数据库日志等单版本策略集则无需手工执行操作。
2、通过控制台执行物理恢复操作
2.1、多版本策略集的class类型恢复
如上图所示,单击操作->物理恢复,选择策略集、版本、恢复类型。
进行数据库物理恢复。
选择要恢复的策略集,选择要恢复的版本以及恢复类型。
全库物理恢复有以下特点:
1、恢复类型选择Class。
2、目标路径不填写,则将会恢复到原路径下。
3、填写目标路径(通常为文件系统)则数据库中的文件将会恢复到填写的目标路径下。
4、支持将备份的裸设备文件恢复到文件系统上。
5、恢复开始后可以退出控制台,不影响该版本内其他文件的恢复。
2.2、多版本策略集的File类型的恢复
如果仅需要恢复单个文件,则选择file。
操作如上图所示选择恢复主机,然后点击中间的“开始恢复”按钮进行恢复。
指定文件恢复有以下特点:
1、恢复类型采用file。
;
2、数据文件可以按照指定的条件进行部分恢复。
通配符使用*代替。
3、在恢复过程中,不可以将控制台退出,否则恢复不完整。
4、可以使用多个控制台窗口对一个版本内的不同数据库文件进行恢复。
5、支持将备份的裸设备文件恢复到文件系统上。
无论是采用class或是file类型进行恢复时,在使用备份池切换模式时,物理恢复过程中,不能将备份池切换,否则无法一次性正常恢复指定的数据库文件。
2.3、数据库日志的恢复
指定数据库日志的恢复
如下图所示:
单击操作->物理恢复,选择策略集、版本、恢复类型。
选择所要恢复的数据库日志文件,进行数据库日志恢复
使用日志管理工具进行恢复
如下图所示:
单击操作->数据库日志->恢复日志,选择,恢复主机、原数据库、日志路径、策略集、版本,将指定版本后的日志文件恢复到指定的日志路径下。
数据库日志恢复具有以下特点:
1、如果是恢复到生产系统上,建议不要恢复到数据库归档目录下,防止恢复后的日志被SnapAssure备份系统处理
2、如果是非归档日志备份则不需要考虑这一点。
3、在恢复数据库日志过程中,不能推出控制台。
3、物理恢复后数据库的打开过程
打开恢复后的数据库前提:
打开物理恢复后的数据库的生产(测试)主机操作系统和数据库版本必须跟生产系统操作系统和数据库版本完全相同。
打开物理恢复后的数据库过程如下:
1、修改数据库启动参数文件中的控制文件、使其指向恢复后的控制文件路径(对于恢复到原来的路径下的情况则无需更改参数文件)
2、以mount方式打开数据库
sql>startupmount
3、修改数据文件路径(对于恢复到原来的路径下的情况则无需更改)
sql>alterdatabaserenamefile'/dev/system.dbf’to'/test/dev/system.dbf';
直到所有的数据文件和日志文件修改完成为止
4、recover数据库,(可以先按照提示再使用SnapAssure恢复日志文件)。
sql>recoverdatabase;####按照版本恢复数据库
recoverdatabaseuntiltime‘’usingbackupcontrolfile;####按照时间点恢复数据库
recoverdatabaseuntilcancelusingbackupcontrolfile####按照日志恢复数据库
按照提示恢复所需日志到指定的位置,直到恢复完成为止。
另外,采用第三种方式recover数据库时可以将数据库恢复到最新时间(即数据库产生的最后一个日志)。
5、打开数据库。
sql>alterdatabaseopen(resetlogs);####使用time和cancel方式recover数据库时,需要加resetlgos参数。
进行打开物理恢复后的oracle数据库操作,要求具有一定的DBA管理经验者进行操作。
修改数据库文件路径脚本:
以下脚本修改数据库文件路径,只针对恢复到不同目录下的情况,修改数据文件、日志文件路径的批处理语句,以下语句仅供参考,请根据实际情况自行调整。
$cdORACLE_HOME/dbs
$qlplusinternal
SQL>setechooffheadingofflinesize150feedbackoffpagesize1000
SQL>spoolrename_file.sql
SQL>select'alterdatabaserenamefile'''||name||'''to'||'''/templv'||name||''';'fromv$datafile;####修改datafile路径
SQL>select'alterdatabaserenamefile'''||member||'''to'||'''/templv'||member||''';'fromv$logfile;####修改logfile路径
SQL>spooloff
SQL>exit
将生成的rename_file.sql文件中的含有SQL行删除即可。
4、通过控制台执行表恢复
如上图所示,单击操作->逻辑恢复,选择策略集、版本、恢复主机,填写恢复后的文件名称,然后选择恢复对象中的类型与属主。
将选择的表中的数据先恢复到生产端文件系统上,文件格式是xf1。
再使用SnapGuard产品的ximp工具将恢复后的文件恢复到指定的数据库:
具体操作过程:
在恢复主机上,命令:
$DBPS_BASE/bin/ximp将恢复后的表数据倒入到恢复主机的数据库中。
具体的使用命令请参考《SnapGuard使用手册》
通过控制台进行表恢复有以下特点:
1、恢复主机必须在系统配置中的主机信息注册过的并且该主机的相关端口的agent进程正常启动。
2、通过控制台进行表恢复时所取的表名是通过jdbc协议来抓取生产系统上的表名,如果恢复的表名不存在,则只能通过字符命令模式进行恢复。
恢复过程请参考《SnapGuard使用手册》
3、恢复文件所在的目录对应的主机上的agent必须有读写权限。
二、检查备份信息
1、检查数据库备份版本的正确性
一、查询存储卷使用情况
系统配置—〉存储卷,查看存储卷的使用情况,要求数据卷和索引卷使用率不到90%
二、查看备份版本信息
在每次定时计划或手工执行备份结束后,都将形成备份版本。
日常维护的主要任务之一就是检查前一天(次)执行的备份是否完成,是否形成了完整的备份版本。
如果没有形成完整的版本,则说明执行有误,请检查备份日志。
数据库的多版本备份成功标志:
1、单击版本管理->备份版本,多版本策略集标志状态为结束、激活、失败。
其中结束表示上一次备份正常结束;激活表示正在备份过程中;失败表示最近一次备份失败。
因此多版本策略集备份结束后的状态时结束。
2、点击多版本策略集,在(最近)指定的时间开始备份后,有完整的结束备份时间,如上图所示。
3、总数据量跟上一次备份相同,如果不同请跟相关点DBA核实情况。
4、工具-〉日志-〉错误日志中有此次备份相关的错误信息。
如果没有出现以上正确信息时,请参考常见故障部分来进行处理。
三、检查备份版本信息
单击“版本管理”—〉备份版本—〉data,可以看到该备份池下每个版本的备份信息,包含共计多少个版本,每个版本的开始结束时间和开始时间,总数据量,数据改变量,实际存储量,压缩比例。
四、查看错误日志
单击“工具”—〉日志—〉错误日志,选择“ERROR“,选上”自动刷新“,将会显示最近几次备份发生错误的信息。
2、检查备份版本中的文件
对于备份形成的版本,进入下一级目录,如上图所示,检查备份的数据库是否完整,包括三个方面:
1)备份文件的个数是否正确,右面窗口的左下脚会显示当前目录备份文件总数。
2)备份文件类型是否正确(通常只有四种类型:
OracleDBF,OracleControl,OracleLog,oracletempfile)
3)备份文件大小是否正确,可以跟数据库进行比对。
以上三部分在数据库中的查询语句:
1)selectcount(*)fromdba_data_files;
2)select*from$controlfile;
select*fromv$logfile;
select*fromdba_data_files;
3)selectfile_name,bytes/1024fromdba_data_files;
对于变换的数据库(增加、删除表空间或者数据文件的系统),需要DBA来协助查询。
对于缺少了数据库文件等情况,请查看版本管理-〉日志-〉错误日志,请参考常见故障部分来进行处理。
对于文件系统的多版本策略集请通过ls等工具进行检查、对比。
3、检查数据库日志文件
主要检查日志文件的序号是否连续。
如果不连续,通常说明两种情况:
1、发生了日志没有备份的情况,对于非归档,请查看相关的数据库后台日志和SnapAssure操作日志(版本管理-〉日志-〉操作日志)来进行比对,看是否是日志切换过快造成的,对于归档,则察看相应的归档目录来进行比对;
2、日志过期;
检查比对的依据是查询数据库中相关的数据字典:
sql>select*fromv$archived_log;#归档情况
sql>select*fromv$log_history;#非归档
4、检查备份期间产生的日志
操作信息:
点击版本管理中的版本管理-〉日志-〉操作信息,双击DBPSD.log文件,可以看到整个备份期间产生的所有日志。
错误信息:
点击版本管理中的版本管理-〉日志-〉错误日志,双击vcfs_ERROR.log
检查最近一次备份(通常以时间为基准点)以来是否发生异常,如果发生异常,通常会出现类似:
Agent–1000….的错误,或者ORA-56781的错误。
请参考常见故障部分来进行处理。
5、检查备份池空间使用情况
检查空间使用情况,特别是在交易量较大的时候。
当空间使用超过90%后,如果评估剩余空间可能不够的时候,可以临时增加data类型的存储卷,或者提前进行系统切换。
6、检查当前备份系统使用哪个备份池
检查当前备份系统使用的备份池的方法如下:
1、telnet到备份服务器上,检查$DBPS_BASE/config.dsg文件,检查要检查的备份系统使用的server_port,然后使用ps–ef|grepserver_port结果中的-home后面值即表示当前VCFS_HOME
2、telnet到备份服务器上,检查$DBPS_BASE/config.dsg文件,如果对应VCFS_HOME目录下的config.x值为vcfs1则表示当前备份系统使用的备份池是备份池1,vcfs2则表示当前备份系统使用的备份池是备份池2。
3、也可以通过windows控制台来检查,如果存储卷存放路径含有storage1则表示当前备份系统使用的备份池是备份池1,如果存储卷存放路径含有storage2则表示当前备份系统使用的备份池是备份池2
4、关于使用的备份池,也要根据配置的具体情况而定,在确认备份池时请咨询相关的配置、修改人员。
三、常见故障维护
1、无法进入图形界面
当输入IP地址、端口、用户、密码后,点击确定按钮后出现下列提示时
产生问题的原因及解决方法:
1、检查输入的IP地址、端口号、用户、密码是否正确。
2、检查网络通讯正常,尤其是使用防火墙的网络要保证TCP/IP的该端口能够正常通讯。
3、请检查server端是否启动。
2、备份进程是否正常启动
产生问题的原因及解决方法:
1、telnet登录到相关主机(运行server和agent进程)上,检测相关的dbpsd、agent使用的端口,检测$DBPS_BASE/config.dsg文件,进行确认
2、具体使用命令:
输入ps–ef|grepdbpsd并键入回车键。
3、无法注册主机信息
产生问题的原因及解决方法:
1、检查agent(生产端、存储服务器端)是否正常运行。
,检测相关的agent使用的端口,检测$DBPS_BASE/config.dsg文件,进行确认,在命令行输入ps–ef|grepvagentd并键入回车,检查是否有正常启动的进程。
2、确认所输入的IP地址正确。
3、确认网络通讯正常。
4、在备份的时候会出现中断
产生问题的原因及解决方法:
1、请检查网络是否正常。
2、请检查agent是否正常运行。
3、检查备份池空间是否足够。
4、检查存储卷是否包含data和index类型。
5、手工点击备份后,没有开始备份
产生问题的原因及解决方法:
1、请检查网络和代理是否正常启动。
2、检查该该策略集配置是否正常
3、检查是否可以正常连接数据库。
4、生产系统上启动agent的O/S用户是否对所要备份的数据库文件具有读权限。
6、无法创建存储卷
产生问题的原因及解决方法:
1、存储服务器上检查是否有足否的磁盘空间。
2、检查存储服务器上启动agent的操作系统用户是否对存储卷所在的文件系统是否有读写权限。
3、存储卷所在的文件创建时由于受到该文件系统创建的参数影响所致(比如:
不能超过2GB),无法创建大的存储卷。
7、出现类似“ProcessingColdBackup”信息
产生问题的原因及解决方法:
1、生产数据库处于未打开状态,检查源数据库是否处于open状态;
2、系统配置中的数据库日志没有注册正确或者没有注册;
3、数据库重新启动后,没有重新启动生产端agent。
8、出现类似“Agent:
101”信息
产生问题的原因及解决方法
1、在备份参数选择中备份线程(rlen)的参数选择过大,导致操作系统内存不够
2、其二为使用缺省内存(50M),操作系统本身内存太小无法分配。
请在高级选项里使用备份线程(rlen)参数降低内存数目。
使用可以测试系统平台允许的内存数目,可以根据测试后的大小来确定使用大小。
9、出现类似“Agent:
205”错误
产生问题的原因及解决方法:
1、在备份日志中找到相关错误信息的上下文,找到报此类错误的数据库文件
2、在生产系统上,使用dbv工具进行检查相对应的数据库文件是否有坏块。
10、出现类似“agent:
200”错误
产生问题的原因及解决方法:
1、确认对操作的目的端相关文件系统或裸设备是否有写的权限
11、出现类似“errorconnectto192.168.1.160:
8501”错误
产生问题的原因及解决方法:
1、确认网络通讯是否正常
2、确认相关的agent是否正常启动
12、出现类似“Cannotallocextent”错误
产生问题的原因及解决方法:
1、确认存储卷是否有足够的分配空间
2、确认存储卷类型是否正确
13、出现类似“Sorry,cannotfindanydatabasefiles”错误
产生问题的原因及解决方法:
1、确认生产数据库、listener是否正常启动。
2、登录数据库的用户和密码是否正确。
3、确认NLS相关信息是否正确
14、生产数据库出现故障,如何恢复
解决方法:
1、对于部分表数据丢失,通过逻辑恢复即可;操作过程请参考操作部分的通过控制台执行表恢复。
2、通过SnapShare打开备份后的数据库,然后通过exp等工具进行表数据恢复;
3、数据库物理损坏,首先通过控制台对数据库进行数据文件的物理恢复,然后利用oracle数据库自身的恢复,根据提示所需的日志利用SnapAssure控制台恢复相关日志。
操作过程请参考操作部分的通过控制台执行物理恢复以及恢复后的数据库的打开。
15、多版本策略集备份过程中,网络中断
解决方法:
1、网络中断时间很短,小于(备份计划中的)间隔时间,SnapAssure会自动重新发起备份。
2、网络终端时间很长,在网络恢复后,请及时调整对应备份计划的时间,归档模式备份的数据库可以增量备份,非归档备份模式的数据库建议做一次全备份。
16、数据文件备份正常结束,但数据字典没有备份
产生问题的原因及解决方法:
1、数据库为冷备份时,则出现这种情况,请重新启动生产系统上的备份进程。
2、备份数据字典时首先会在生产端的/tmp目录下生成数据字典文件,然后再将生成的数据字典文件备份到版本中。
如果/tmp目录下没有可写的权限或没有足够的空间也会出现这个问题。
17、非归档模式,数据库日志无法备份
产生问题的原因及解决方法:
1、确认数据库日志及相关的主机、存储卷、策略集配置正确;
2、使用dbfsize检查数据库在线日志是否正确。
18、无法通过控制台选择所需要备份的标空间
产生问题的原因及解决方法:
1、请查看数据库的listener是否启动;
2、使用的端口号是否是1521,如果不是,请手工填写所要备份的表空间名称,对数数据库整库备份,则无需输入表空间名称。
19、逻辑恢复表时无法选择用户表名
产生问题的原因及解决方法:
1、请查看数据库的listener是否启动。
2、使用的端口号是否是1521,如果不是,请按照实际的端口号修改。
3、生产系统相关的表已经删除,通过字符界面恢复,恢复过程请参考《SnapAssure之字符界面使用手册》。
20、如何确认备份所需要使用的版本
数据库使用的版本:
对于oracle8i数据库而言:
sqlplusinternal(取EnterpriseEditionRelease值)
对于oracle9i数据库而言:
sqlplus'/assysdba'(取EnterpriseEditionRelease值)
操作系统使用的版本
#uname–a
21、生产端数据库重新启动,如何处理
生产系统数据库重新启动时。
需要将数据远端备份进程关闭,在调整完毕后,将数据远端备份进程重新启动。
如果在crontab中加入了自动启动备份进程的脚本,请注释掉自动启动脚本的命令行。
当数据库停止时间较长时,备份系统需要根据不同情况做如下调整:
1、在数据库全备份完后,切换之前,操作如下:
1)在数据库停止后,停止生产端备份进程vagentd。
在crontab中注释自动定时启动vagentd脚本。
2)当数据库调整启动后,启动备份vagentd。
在crontab中将自动定时启动vagentd脚本的注释去掉。
3)如果数据库启动时已经过了当天备份计划的时间则应调整临时调整备份计划对数据库进行一次数据库增量备份,如果日志抓取不全的情况(主要指非归档)存在则应对数据库做一次全备份。
4)对于切换模式工作的情况,如果数据库停止时间很长则需要注释备份服务器端的定时切换脚本。
2、在切换当天进行生产端数据库的调整时。
操作如下:
1)需要在备份服务器端将相关数据源备份系统的备份进程停止,在crontab中注释掉相关数据源备份系统所使用的启动、切换脚本。
2)停止生产端的备份进程,同时在生产端crontab中注释掉定时启动vagentd脚本。
3)生产端数据库调整完成之后,启动备份服务器上相关数据源备份系统所使用的进程,并且在crontab中掉相关数据源备份系统所使用的启动、切换脚本注释去掉。
4)在生产端起动备份进程。
修改crontab将自动定时启动vagentd脚本的注释去掉。
5)如果备份进程启动时间晚于切换时间,则手动执行切换,然后调整备份计划,执行数据库全备份。
如果备份进程启动时间早于切换时间,则无需作如何调整。
操作过程所使用的脚本及操作命令请参考配置过程。
此种情况适合生产端CLASS、主机重启等含有数据库操作的调整。
22、修改备份配置
通常以下操作可能会修改备份配置:
增加备