虚拟机日常维护手册V10Word格式文档下载.docx
《虚拟机日常维护手册V10Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《虚拟机日常维护手册V10Word格式文档下载.docx(16页珍藏版)》请在冰豆网上搜索。
4.3虚拟机软件系统故障
(1)日常做好虚拟机的定时备份和快照,系统崩溃后,应能够及时恢复虚拟机。
(2)发生虚拟机系统故障后,相关人员应及时通知业务人员检查出现故障的原因并尽快排除。
(3)如遇虚拟机系统需要启用备份系统进行恢复时,应在恢复后和业务管理员仔细检查业务是否恢复并做好恢复记录。
4.4虚拟化管理服务器故障预防
虚拟化服务器采用群集配置。
如平台选用VMware的企业版,配套管理选用VMwarevCenter标准版对虚拟数据中心管理单元进行集中管理,系统平台常年24小时运行,每天将产生大量的任务日志和记录信息。
同时vCenter器担任了整个平台主机管理和集中配置的角色,使用率极高。
为了安全,应定期备份VIM数据库,定期检查告警日志。
同时考虑利用虚拟化平台定时P2V服务器为备用虚拟机。
当实体化vCenter服务器出现不可恢复的硬件故障时,马上在虚拟化平台上启动备用虚拟机,从而减小平台失去管理的故障风险。
4.5虚拟化平台日常告警故障排除
当虚拟化平台出现告警信息,通过以下步骤排除:
(1)确定故障原因。
查看已触发的警报内容,确定故障前操作是否是引发该故障的原因,对合规操作引起的告警,进行消除。
(2)对提示硬件产生的告警,应查看硬件状态信息,对确认是硬件的问题按硬件维护预案处理。
(3)对提示因资源不足或性能引发的告警,因查看近期性能图表,找出原因,消除故障提示。
(4)对于无法判断的故障,可导出系统日志发给厂家分析处理
5虚拟化平台故障预防
5.1平台管理初始状态备份
安装配置好vcenter服务器软件系统,经测试能够正常投入生产使用后,将数据库进行一次完成的备份,并记录配置信息。
备份文件本机一份,移动存储一份。
5.2虚拟机实时状态备份
平台上的虚拟机包括vmware提供的其他功能性服务器,应在测试通过后进行一次快照备份,并记录重要的配置信息。
快照一周备份一次,一个月后循环更新一次。
关键虚拟机投入使用后,用赛门铁克NBU软件定期(30天一次)备份。
6虚拟化平台故障恢复
虚拟化平台系统出现故障,先对问题进行定位,按前述预案处理,若故障依然存在,通过以下步骤恢复:
(1)用快照进行虚拟机恢复。
如果虚拟机中包括数据库和实时状态信息,要在恢复后进行必要的数据库文件恢复,并还原系统实时状态。
(2)用NBU从备份系统中进行系统还原,还原后进行必要的状态信息检查
(3)虚拟化操作系统恢复,通过重新安装虚拟化操作系统—vsphere还原底层平台,并重新部署到群集系统中。
摘要:
有时,VMware管理员如走过场一样执行日常维护任务。
他们做X、检查Y然后把把Z的脉搏。
但是很重要的一点是要弄明白这么做的目的。
维护工作不仅仅是要维持系统在线,它同样保证您可以从现有投资中获得最大收益。
虽然ESX、vSphere、vCenter和Workstation都是成熟和稳定的虚拟化技术,但是它们依然需要进行日常维护。
花费一些时间去了解您的架构,然后制定VMware维护计划以满足您的SLA(servicelevelagreement)级别并尽量减少工作压力。
下面的纲要中包含了一些最佳实践,但是每个虚拟化架构各有不同,您需要选择最适合的方式。
VMware维护工作根据频率可以大致分解为:
每天、每周和每月。
VMware日常维护工作
我每天要进行的维护工作如下:
◇查看报警邮件。
邮箱监控是一种持续的、被动的、而且一旦正确设置后不需花费很多精力的监控方式。
当您逐渐熟悉系统架构后,还可以区分出警报的不同类型,识别哪些是紧急的需要立即处理,哪些是需要逐步去改变的。
假设某个特定的数据库在每天的固定时间发送CPU占用率过高的警报,那么最好调节一下报警设置的条件和频率。
不要忘了《狼来了》的故事,避免因为过多无关紧要的警报而忽略了那些关键问题。
◇巡视服务器所在的房间。
虽然我也设置了警报,但通过对主机所在的房间进行一次快速的巡视我可以马上判断出发生了什么,这非常有用,尤其是忽略了某个警报的时候可以补救。
所有的风扇都在运行吗?
是否出现内存差错?
SAN系统中的磁盘驱动器正常吗?
通过观察硬件上的指示灯我可以获得基本的状态信息。
我还会快速检查一下不间断电源的供电电压,以及现在的运行时间。
知道了这些,一旦发生灾难,我可以知道有多少时间可用来关闭设备。
除了这些快速观察外,我还经常使用HP公司在宿主机上集成的Lights-Out端口来检测硬件状态和温度,尤其在没有物理登陆宿主机或SAN的时候,这么做非常有必要。
◇环视一圈vCenter/VirtualCenter。
我会执行所有还未完成的任务,瞥一眼ESX主机的性能然后感受一下各个组件是否正常。
当您对系统每天的性能表现足够熟悉的时候,就很容易看出问题。
相信我,无论系统看起来多么协调,在某些时候都会出现问题。
这个过程如同您很熟悉自己在静止时的心跳,同时还需要通过跑步机或骑自行车来定期检验一下。
VMware每周维护工作
每周我会执行如下动作:
◇备份vCenter/VirtualCenter数据库。
我的现有系统变化不太频繁,因此一周执行一次数据库清理和管理服务器的全备份就可以了。
如果您的系统处于不断地动态变化中,可以频率高一些。
依然要强调那个老问题:
如果您希望将来可以重建,拥有数据库的备份很重要。
VMware每月维护工作
每月我们进行如下的管理行为:
◇清理存储。
如果存在过期的快照,最好尽快清理掉。
如果无法确定是否存在,可以通过VMwareSiteSurvey查看。
◇检查服务协议。
您是否已经升级了售后服务?
到了做新的预算来购买所需支持服务的时候了吗?
◇预想将来要做的升级。
目前为止,所有的工作都在围绕保持系统正常工作上。
让我们向后一步,闭上眼睛不妨从相反的角度来考虑:
您希望系统如何工作?
怎样可以改善业务?
然后找出一条正确的路来实现。
这听起来像在做白日梦,不过或许这会成为您一天中最高效的一段时间。
31、为主机应用HostProfiles提示compliance错误
故障状态:
为主机应用HostProfiles失败,提示如下错误:
01.Specificationstateabsentfromhost:
device'
<
datastore>
'
stateneedstobesetto'
on'
02.Hoststatedoesn'
tmatchspecification:
needstobereset
03.Specificationstateabsentfromhost:
PathSelectionPolicyneedstobesetto'
VMW_PSP_FIXED'
04.Hoststatedoesn'
PathSelectionPolicyneedstobesettodefaultforclaimingSATP
故障分析:
这是由于PSA组件导致的;
解决方案:
1、右击HostProfiles后点击Enable/DisableProfiles配置选项;
2、展开“StorageConfiguration”选项,展开“PluggableStorageArchitecture”这个uxanxiang;
3、去掉“PSADeviceConfiguration”;
4、展开“NativeMuti-Pathing(NMP)”这个选项后,接着展开“PSPandSATPconfigurationforNMPdevi”选项;
5、去掉“PSPconfigurationfor”这个选项后点击OK即可。
33、分析、解决IOPS导致的虚拟机/存储性能下降和虚拟机磁盘延时较大的问题
1、虚拟机性能较低;
2、在执行备份时磁盘延时很厉害;
3、虚拟磁盘vmdk延时较大;
这种问题基本都是由于虚拟机没有足够的IOPerSecond(IOPS),或者IOPS低于30;
在解决问题前,首先要解决以下两个问题:
问题1:
什么是IOPS?
IOPS全称为Input/OutputPerSecond,它是衡量一个磁盘(虚拟磁盘和物理磁盘)、存储的基本也是十分重要的标准。
不同的磁盘、存储有着不同的IOPS。
IOPS的高低直接会影响着系统的性能。
当前,VMware虚拟化环境中最大的瓶颈也就在于这个IOPS。
针对数据密集型业务的数据库业务和流媒体业务,由于它们的IOPS很大,所以在虚拟化环境中部署它们一定要充分考量它们的负载,也就是IOPS大小,结合实际的存储性能来查看是否符合业务标准。
问题2:
如何计算IOPS?
如何计算每台虚拟机的IOPS?
要想计算每个虚拟机的总的IOPS数量,首先就要确认磁盘类型以及它们的IOPS是多少。
处于RAID阵列里面的每个盘的IO有利于增长整体存储的可用IOPS。
而位于这个存储上面的单台虚拟机的IOPS,则可以通过将这个存储的总IOPS除掉虚拟机数量即可基本得到单台虚拟机的IOPS。
现实案例:
假定有6颗10000RPM的磁盘,那么它们的总的可用IOPS大约为150x6=900。
如果LUN上面运行的虚拟机数量为50个,则单台虚拟机的IOPS为900/50=18IOPS。
如果以这个为标准,则意味着虚拟机的性能相对底下。
如果想要满足虚拟机的基本IOPS需求,那么应该为900/30=30,也就是说同一个Volume里IOPS为30(最低要求)虚拟机需要数量控制在30台以下。
备注:
备份存储会消耗更多的IOPS,同时也会给Volume带来更多额外的符合。
如果是这样,则需要用额外手段解决备份时的额外资源消耗(可以通过I/Ometer软件来测试IOPS)
34、丢失或锁定文档导致虚拟机无法PowerOn
1、虚拟机无法开启;
2、尝试开启虚拟机时,看到类似如下错误信息:
•UnabletoopenSwapFile;
•Unabletoaccessafilesinceitislocked;
•UnabletoaccessVirtualmachineconfiguration;
3、在/var/log/vmkernel文件里可以看到类似如下信息:
WARNING:
World:
VMxxxx:
xxx:
Failedtoopenswapfile<
path>
ockwasnotfree
Failedtoinitializeswapfile<
4、当尝试开启虚拟机的console控制台时,可能会收到如下错误信息:
Errorconnectingto<
virtualmachine>
.vmxbecausetheVMXisnotstarted
5、在开启虚拟机时,卡在95%位置无响应;
6、从模板部署一台新的VM之后无法开启虚拟机;
7、虚拟机在vCenterServer和ESXi/ESX主机之间报告控制台电源状态冲突;
导致这个问题的因素可能很多,但是众多问题中,都穿插或包含着文件损坏或文件被锁定等问题的可能。
虚拟机常用的文件包括:
•*.vswp
•*-flat.vmdk
•*-delta.vmdk
•*.vmx
•*.log
首先需要确认哪些文件处于锁定状态:
1、利用vSphereClient登录ESXi/ESX主机、vCenterServer主机;
2、在Datastore里找到想要开启但是无法开启的虚拟机所在位置;
3、尝试开启虚拟机,如果无法开启且console显示错误,先查阅vmware.log日志文件的相关信息来确认问题;
4、利用SSH或COS选用root权限登录到ESXi/ESX主机之后执行下面的命令查看虚拟机的完整路径:
#vmware-cmd-l
系统将输出类似如下信息来显示注册到ESXi/ESX主机的虚拟机:
/vmfs/volumes/<
UUID>
/<
虚拟机目录>
虚拟机名>
.vmx
5、执行下列命令切入到这个虚拟机所在的目录:
#cd/vmfs/voluems/<
6、然后查阅vmware.log日志,在文件的尾部查看什么原因导致这个问题后再针对性的分析。
准确定位并删除掉锁定文件
由于虚拟机可以在主机之间移动,如果虚拟机注册到的主机保持对文件的锁定状态,那么,这个锁定文件可以有效保障ESXi/ESX主机对虚拟机文件的控制权和有效保护虚拟系统。
主机由ServiceConsole接口的MAC来确定。
lock由VMkernel或ServiceConsole负责维护;
ESXi服务器没有ServiceConsole所以,lock由VMkernel单独负责维护;
首先要确定VMkernel可能锁定的文件:
1、执行下面的命令来报告锁定目录所在的MAC地址:
#vmkfstools-D/vmfs/volumes/<
锁定状态文件>
2、由于负责锁定.vmdk文件的主机会将MAC地址写入到vmkernel日志里面,那么可以用下面的命令查阅:
#tail/var/log/vmkernel
35、StoragevMotion失败:
lookingforlinesstaringwith"
CBTMotion"
1、执行StoragevMotion失败;
2、系统提示如下错误信息:
01.Ageneralsystemerroroccurred:
StorageVMotionfailedtocopyoneormoreoftheVM'
sdisks.PleaseconsulttheVM'
slogformoredetails,lookingforlinesstartingwith"
CBTMotion-"
.
复制代码3、/var/log/vmware/hostd.log文件里有类似如下信息:
01.Failedwitherror340983807:
sdisks.
PleaseconsulttheVM'
复制代码故障分析
可能由于虚拟机的硬件版本号过老导致;
关掉虚拟机后右击uxniji选择UpgradeVirtualMachineHardware即可。
36、添加LUN时提示HostDatastoreSystem.QueryVmfsDatastoreCreateOptions
系统能够扫描到DevicesLUN,但是在添加过程中却提示如下错误信息:
HostDatastoreSystem.QueryVmfsDatastoreCreateOptions
,如图所示:
这样的问题一般都是由于LUN的尺寸过大导致,一般来说,VMwareESXi/ESXServer标准支持最大的LUN尺寸为2TB-512Byte,但是由于国内很多技术人员对这个-512Byte并不太在意,所以习惯型的讲成2TB,这就导致很多用户在使用时,直接分配了2TB的空间,这就可能导致了上述问题;
针对这样的问题,建议如下:
1、如果已经分好了2TB的LUN,建议调整为1.88TB左右后再尝试添加;
2、新LUN规划用户则请严格参照官方文档的参数设计,建议是1.88TB左右为一个LUN生成Datastore
37、vCenterConverter推送Agent出错:
ConverterAgentinstaller/uninstallerFailed
1、利用vCenterConverter推送Agent到WindowsServer2003服务器上时,失败;
2、系统提示类是如下错误信息:
01.ConverterAgentinstaller/uninstallerfailedon'
xxxxxxxxx'
3、VMwarevCenterConverter的日志文件converter-server.log里面有类似如下错误提示:
01.[#6][2011-01-2110:
50:
55.97604080info'
App'
][agentManager,83][AgentManager]InstallAgenton192.168.10.10
02.[#6][2011-01-2110:
51:
16.97604080error'
][agentManager,95][AgentManager]InstallAgentfailed:
converter.fault.AgentDeploymentFault
03.[#7][2011-01-2111:
18:
37.28903976info'
]ReusingexistingVIMconnectionto192.168.30.150
04.[#7][2011-01-2111:
37.47603976error'
]FounddanglingSSLerror:
[0]error:
00000001:
lib(0):
func(0):
reason
(1)
05.[#7][2011-01-2111:
19:
00.94502756info'
06.[#7][2011-01-2111:
21.96102756error'
7.[#7][2011-01-2111:
32.44503976info'
][diagnosticManager,357]GeneratingConverter.Serverlogbundle.
以下几种情况可能导致这样的问题:
1、445端口没能打开;
2、曾经手动安装过Agent后卸载;
3、Windows服务管理其中的server服务没有启动导致的IPC$连接失败;
4、防火墙阻绝;
解决方案
1、确认445端口或NetBIOS协议能正常使用;
2、建议在Converter时关闭防火墙;
3、如果依然有问题,尝试用ConverterStandardalone版本迁移或采用ConverterCD进行冷克隆。
38、解决在vSphere5.0里开启HA时,提示:
DatastoreHeartbeating不足的问题
为ESXi5.0+vCenter5.0配置HA时,提示如下信息:
这是由于vSphere5.0里的HA部分已经重写,并且新增了DatastoreHeartbeating用于网络Partition心跳检测支持;
有2个选择,一个是加多存储用于心跳检测,这也是正确的选择,就不多讲,另一个就是忽略掉这个问题,方法如下:
1、vSphereClient登录到vCenterServer5.0后,右击HACluster,点击Edit,然后找到高级选项设定:
2、再如上图所示的内容中,添加下参数:
das.ignoreinsufficienthbdatastore
缺省情况下,这个参数的值是false的。
39、通过vSphereClient登陆ESXi主机提示“正在更新”的问题
通过vSphereClient登陆VCenterServer4.1正常,登陆ESXi主机提示如下图:
需要通过‘vS’来更新Client说明客户端存在问题,由于登陆VCenterServer4.1不存在任何问题,所以基本确定版本的问题。
查看ESXi版本和vSphereClient,发现Client的版本低于ESXi版本。
由于Client所在网络无法上Internet,所以无法更新Client客户端,可以通过安装高版本的Client来解决此问题。
40、红旗