VMware Vsphere高可用性.docx

资源描述

VMware Vsphere高可用性.docx

《VMware Vsphere高可用性.docx》由会员分享，可在线阅读，更多相关《VMware Vsphere高可用性.docx（20页珍藏版）》请在冰豆网上搜索。

VMware Vsphere高可用性.docx

VMwareVsphere高可用性

VMwareVsphere高可用性（HA群集）

2015年07月28日14:

09:

阅读数：

15466

1 应用层高可用性：

如实现mysql、oracle数据库应用程序的储群集，主要是判断mysql、oracle应用程序是否停止运行。

2 操作系统高可用性：

如windows的故障转移群集（windows failover clustering WFC）。

3 虚拟化层的高可用性：

如vsphere high availability（HA）和vsphere fault tolerance（FT）。

4 物理层的高可用性：

如：

多网络适配器、SAN等。

vSphere HA 和 Fault Tolerance（FT）功能分别通过提供中断快速恢复和连续可用性来最小化或消除非计划停机时间。

使用 vSphere，企业可以轻松提高为所有应用程序提供的基准级别，并且以更低成本和更简单的操作来实现更高级别的可用性。

使用vSphere，你可以：

a 独立于硬件、操作系统和应用程序提供更高可用性。

b 减少常见维护操作的计划停机时间。

c 在出现故障时提供自动恢复。

一、vSphere HA 提供快速中断恢复

vSphere HA 利用配置为群集的多台 ESXi 主机，为虚拟机中运行的应用程序提供快速中断恢复和具有成本效益的高可用性。

vSphere HA 通过以下方式保护应用程序可用性：

1 通过在群集内的其他主机上重新启动虚拟机，防止服务器故障。

2 通过持续监控虚拟机（通过vmware tools实现主机向虚拟机发送检测信号）并在检测到故障时对其进行重新设置，防止应用程序故障。

与其他群集解决方案不同，vSphere HA 提供基础架构并使用该基础架构保护所有工作负载：

a 无需在应用程序或虚拟机内安装特殊软件。

所有工作负载均受 vSphere HA 保护。

配置 vSphere HA 之后，不需要执行操作即可保护新虚拟机。

它们会自动受到保护。

（需在开机状态下才受保护）

b 可以将 vSphere HA 与 vSphere Distributed Resource Scheduler （DRS即负载均衡）结合使用以防止出现故障，以及在群集内的主机之间提供负载平衡。

与传统的故障切换解决方案相比，vSphere HA 具有多个优势：

最小化设置

设置 vSphere HA 群集之后，群集内的所有虚拟机无需额外配置即可获得故障切换支持。

减少了硬件成本和设置

虚拟机可充当应用程序的移动容器，可在主机之间移动。

管理员会避免在多台计算机上进行重复配置。

使用 vSphere HA 时，必须拥有足够的资源来对要通过 vSphere HA 保护的主机数进行故障切换。

但是，vCenter Server 系统会自动管理资源并配置群集。

提高了应用程序的可用性

虚拟机内运行的任何应用程序的可用性变得更高。

虚拟机可以从硬件故障中恢复，通过监控和响应 VMwareTools 检测信号并重新启动未响应的虚拟机，可防止客户机操作系统崩溃。

DRS和vMotion 集成

如果主机发生了故障，并且在其他主机上重新启动了虚拟机，则 DRS 会提出迁移建议或迁移虚拟机以平衡资源分配。

vSphere HA 群集允许 ESXi 主机集合作为一个组协同工作，这些主机为虚拟机提供的可用性级别比 ESXi 主机单独提供的级别要高。

群集中的主机均会受到监控，如果发生故障，故障主机上的虚拟机将在备用主机上重新启动。

创建 vSphere HA 群集时，你可以选择使用单个主机作为首选主机（master）以与 vCenter Server 通信并监控其他主机、从属主机（slave）及其虚拟机的状况。

如果为群集启用了 vSphere HA，则所有活动主机（未处于待机或维护模式的主机或未断开连接的主机）都将参与选举以选择群集的首选主机。

挂载最多数量的数据存储的主机在选举中具有优势。

每个群集只存在一台首选主机，其他所有主机都是从属主机。

如果首选主机出现故障、关机或从群集中移除，则会进行新的选举。

群集中的首选主机具有很多职责：

1 ）监控从属主机的状况。

如果从属主机发生故障或无法访问，首选主机将确定需要重新启动的虚拟机。

（监视的ESXi从主机宕机后，首选主机将决定将其身上运行的虚拟己重新运行在其他从主机上）

2 ）监控所有受保护虚拟机的电源状况。

如果有一台虚拟机出现故障，首选主机可确保重新启动该虚拟机。

使用本地放置引擎，首选主机还可确定执行重新启动的位置。

3 ）首选主机管理群集主机和受保护的虚拟机列表并对添加或删除cluster内部的主机进行管理即首选主机维护着群集内的清单。

4 ）首选主机管理被保护的虚拟机清单，在用户每次发起开关机操作时，更新这个清单。

vcenter server会要求保护或不保护某些虚拟机。

即当虚拟机打开电源，则该虚拟机要受保护，一旦主机出现故障就会在其他主机上重新启动虚拟机。

当虚拟机关闭电源，就没有必要再保护它了。

5 ）首选主机缓存cluster的配置，master主机通知和提醒slave主机，cluster配置的修改。

6 ）master主机发送心跳信息给slave主机，让slave主机知道master的存在。

如果slave主机接收不到心跳信息，则重新选举出新的首选主机。

7 ）master报告状态信息给vcenter,vcenter正常情况只与master主机通信。

首选主机执行的功能之一是虚拟机保护。

虚拟机受保护时，vSphere HA 可保证在其出现故障后尝试重新打开电源。

首选主机在观察到虚拟机的电源状况由关闭电源变为打开电源时，会致力于保护虚拟机。

如果发生故障切换，首选主机必须重新启动所负责的受保护的虚拟机。

该职责已分配给在包含虚拟机配置文件的数据存储上以独占方式锁定系统定义文件的首选主机。

群集中从主机的职责：

1 ）slave主机监视本地运行的虚拟机的状态，把这些虚拟机运行状态的显著变化发给master主机。

2 ）slave主机监视master主机的健康状态，如果master主机出现故障，slave主机参与master的选举。

3 ）slave运用vSphere HA 接入控制vSphere HA特性，这些特性不需要master的协调。

这些特性包括VM Health Monitoring。

查看master和slave的状态：

主机故障类型和检测：

vSphere HA 群集的首选主机负责检测从属主机的故障。

根据检测到的故障类型，在主机上运行的虚拟机可能需要进行故障切换。

在 vSphere HA 群集中，检测三种类型的主机故障：

1 ）主机停止运行（即发生故障）。

2 ）主机与网络隔离。

3 ）主机失去与首选主机的网络连接。

vSphere HA使用管理网络和存储设备来联系。

当master通过管理网络联系不到slave时，master就会使用存储网络（heartbeat datastores）来检查slave是否存活。

首选主机监控群集中从属主机是通过交换网络检测信号来完成，此通信通过管理网络来完成。

当首选主机不能通过管理网络（如首选主机或从属主机的网络接口出故障）从从属主机接收这些检测信号时，它会在声明该主机出现故障之前检查主机活跃度。

首选主机执行的活跃度检查是要确定从属主机是否在与数据存储（即存储网络）交换检测信号。

如果此从属主机与数据存储交换检测信号，则首选主机会假定它处于某个网络分区或网络隔离中，因此会继续监控该主机及其虚拟机。

网络分区：

一个或多个slave通过管理网络联系不到master，即使它们的网络连接没有问题，这种情况下，vSphere HA能够了使用存储网络来检测分离的主机（上面的slaves）是否存活以及否要保护它们里面的虚拟机。

网络隔离：

一个或多个slave丢失了所有的管理网络连接，这样的slave既不能联系到master也不能联系到其他ESXi hosts。

这种情况下，slave主机通过存储网络来通知master，它已经是隔离状态。

注意：

如果你确保网络基础结构具有足够的冗余度且至少有一个网络路径始终可用，则主机网络隔离应该在极少数情况下才出现。

在 vSphere HA 群集发生管理网络故障时，该群集中的部分主机可能无法通过管理网络与其他主机进行通信。

一个群集中可能会出现多个分区。

已分区的群集会导致虚拟机保护和群集管理功能降级

1 ）虚拟机保护。

vCenter Server 允许虚拟机打开电源，但仅当虚拟机与负责它的首选主机在相同的分区中运行时，才会对其进行保护。

2 ）群集管理。

vCenter Server 只能与群集中的部分主机进行通信，且只能连接到一台首选主机。

因此，只有在解决分区之后，配置中影响 vSphere HA 的更改才能生效。

此故障可能会导致其中一个分区在旧配置下操作，而另一个分区使用新的设置

总结：

当 vSphere HA 群集中的首选主机无法通过管理网络与从属主机通信时，首选主机将使用数据存储检测信号来确定从属主机是否出现故障，是否位于网络分区中，或者是否与网络隔离。

如果从属主机已停止数据存储检测信号，则认为该从属主机出现故障，并且其虚拟机已在别处重新启动。

　　vCenter Server 使用 vSphere HA 主机状况报告主机是首选主机还是从属主机。

如果已启用"HA 状况"列，则会在 vSphere Client 中主机的摘要选项卡上和群集或数据中心的"主机列表"视图中报告此状况。

HA 状况"正在运行（master）"表示主机作为 vSphere HA 首选主机。

"已连接（slave）"状况表示主机作为 vSphere HA从属主机。

注意:

如果断开主机与群集之间的连接，则所有向该主机注册的虚拟机均不受 vSphere HA 保护。

　　vCenter Server 使用接入控制来确保群集内具有足够的资源，以便提供故障切换保护。

1、"群集允许的主机故障数目"接入控制策略：

使用"群集允许的主机故障数目"接入控制策略，vSphere HA 允许指定数目的主机出现故障，同时可以确保群集内留有足够的资源来对这些主机上的虚拟机进行故障切换。

使用"群集允许的主机故障数目"策略，vSphere HA 以下列方式执行接入控制：

1 、插槽大小计算：

插槽大小由两个组件（CPU 和内存）组成。

a .vSphere HA 计算 CPU 组件的方法是先获取每台已打开电源虚拟机的 CPU 预留，然后再选择最大值。

如果没有为虚拟机指定 CPU 预留，则系统会为其分配一个默认值 32 MHz。

b .vSphere HA 计算内存组件的方法是先获取每台已打开电源虚拟机的内存预留和内存开销，然后再选择最大值。

内存预留没有默认值。

2、使用插槽数目计算当前故障切换容量：

计算出插槽大小后，vSphere HA 会确定每台主机中可用于虚拟机的 CPU 和内存资源。

通过使用 vSphere Client 直接连接到主机，然后导航至主机的资源选项卡，可以找到由 vSphere HA 使用的主机资源数据。

然后，即可确定每台主机可以支持的最大插槽数目。

为确定此数目，请用主机的 CPU 资源数除以插槽大小的CPU 组件，然后将结果化整。

对主机的内存资源数进行同样的计算。

然后，比较这两个数字，较小的那个数字即为主机可以支持的插槽数。

通过确定可以发生故障并仍然有足够插槽满足所有已打开电源虚拟机要求的主机的数目（从最大值开始）来计算当前故障切换容量。

附录：

高级运行时信息

如果选择"群集允许的主机故障数目"接入控制策略，高级运行时信息链接则会在 vSphere Client 中群集摘要选项卡上的 vSphere HA 区域中显示。

单击此链接以显示有关群集的下列信息：

a 插槽大小。

b 群集内的插槽总数。

c 已使用的插槽数。

分配给已打开电源的虚拟机的插槽数目。

如果已使用高级选项定义插槽大小的上限，则此数目可以大于已打开电源的虚拟机的数目。

这是因为有些虚拟机会占用多个插槽。

d 可用插槽数。

可用于打开群集内其他虚拟机的电源的插槽数量。

vSphere HA 保留故障切换所需的插槽数量。

剩余的插槽可用于打开新虚拟机电源。

e 故障切换插槽数。

除已使用的插槽和可用插槽之外的插槽总数。

f 群集中已打开电源虚拟机的总数。

g 群集中的主机总数。

h 群集中的正常主机总数。

处于连接状态、未进入维护模式而且没有 vSphere HA 错误的主机数目。

示例：

使用"群集允许的主机故障数目"策略的接入控制

示例中展示了使用此接入控制策略计算和使用插槽大小的方式。

对群集进行如下假设：

1 ）群集包括三台主机，每台主机上可用的 CPU 和内存资源数各不相同。

第一台主机（H1）的可用 CPU 资源和可用内存分别为 9 GHz 和 9 GB，第二台主机（H2）为 9 GHz 和 6 GB，而第三台主机（H3）则为 6 GHz和 6 GB。

2 ）群集内存在五个已打开电源的虚拟机，其 CPU 和内存要求各不相同。

VM1 所需的 CPU 资源和内存分别为 2 GHz 和 1 GB，VM2 为 2 GHz 和 1 GB，VM3 为 1 GHz 和 2 GB，VM4 为 1 GHz 和 1 GB，VM5 则为 1 GHz 和 1 GB。

3 ）"群集允许的主机故障数目"设置为 1。

1 ）比较虚拟机的 CPU 和内存要求，然后选择最大值，从而计算出插槽大小。

最大 CPU 要求（由 VM1 和 VM2 共享）为 2 GHz，而最大内存要求（针对 VM3）为 2 GB。

根据上述情况，插槽大小为 2 GHz CPU 和 2 GB 内存。

2 ）由此可确定每台主机可以支持的最大插槽数目。

H1 可以支持四个插槽。

H2 可以支持三个插槽（取 9GHz/2GHz 和 6GB/2GB 中较小的一个），H3 也可以支持三个插槽。

3 ）计算出当前故障切换容量。

最大的主机是 H1，如果它发生故障，群集内还有六个插槽，足够供所有五个已打开电源的虚拟机使用。

如果 H1 和 H2 都发生故障，群集内将仅剩下三个插槽，这是不够用的。

因此，当前故障切换容量为 1。

群集内可用插槽的数目为 1（H2 和 H3 上的六个插槽减去五个已使用的插槽）。

建议最好不使用"群集允许的主机故障数目"策略的接入控制，因为如果群集内部的主机硬件性能不一时，就不好确定故障数目了。

除非群集内部的主机硬件性能一致时可以使用此策略。

2、"预留的群集资源的百分比"接入控制策略

可以将 vSphere HA 配置为通过预留特定百分比的群集 CPU 和内存资源来执行接入控制，用于从主机故障中进行恢复。

使用"预留的群集资源的百分比"接入控制策略，vSphere HA 可确保预留 CPU 和内存资源总量的指定百分比以用于故障切换。

使用"预留的群集资源"策略，vSphere HA 可强制执行下列接入控制：

1 ）计算群集内所有已打开电源虚拟机的总资源要求。

2 ）计算可用于虚拟机的主机资源总数。

3 ）计算群集的"当前的 CPU 故障切换容量"和"当前的内存故障切换容量"。

4 ）确定"当前的 CPU 故障切换容量"或"当前的内存故障切换容量"是否小于对应的"配置的故障切换容量"（由用户提供）。

如果是，则接入控制不允许执行此操作。

注意 "预留的群集资源的百分比"接入控制策略还会检查群集中是否至少有两个已启用 vSphere HA 的主机（不包括正在进入维护模式的主机）。

如果只有一个已启用 vSphere HA 的主机，即使可以使用足够的资源百分比，也不允许执行此操作。

进行此次额外检查的原因在于如果群集中只有一个主机，则 vSphere HA 无法进行故障切换。

　　计算当前故障切换容量

　　已打开电源的虚拟机的总资源要求由两个组件组成，即 CPU 和内存。

vSphere HA 将计算这些值。

1 CPU 组件值的计算方法是：

加总已打开电源虚拟机的 CPU 预留。

如果没有为虚拟机指定 CPU 预留，则系统会为其分配一个默认值 256 MHz。

2 内存组件值的计算方法是：

加总每台已打开电源虚拟机的内存预留（以及内存开销）。

　　计算出主机的 CPU 和内存资源总和，从而得出虚拟机可使用的主机资源总数。

　　先用主机 CPU 资源总数减去总 CPU 资源要求，然后再用这个结果除以主机 CPU 资源总数，从而计算出"当前的 CPU 故障切换容量"。

"当前的内存故障切换容量"的计算方式与之相似。

示例：

使用"预留的群集资源的百分比"策略的接入控制

示例中展示了使用此接入控制策略计算和使用"当前故障切换容量"的方式。

对群集进行如下假设：

1 ）群集包括三台主机，每台主机上可用的 CPU 和内存资源数各不相同。

第一台主机（H1）的可用 CPU 资源和可用内存分别为 9 GHz 和 9 GB，第二台主机（H2）为 9 GHz 和 6 GB，而第三台主机（H3）则为 6 GHz和 6 GB。

2 ）群集内存在五个已打开电源的虚拟机，其 CPU 和内存要求各不相同。

VM1 所需的 CPU 资源和内存分别为 2 GHz 和 1 GB，VM2 为 2 GHz 和 1 GB，VM3 为 1 GHz 和 2 GB，VM4 为 1 GHz 和 1 GB，VM5 则为 1 GHz 和 1 GB。

3 ）"配置的故障切换容量"设置为 25%。

已打开电源的虚拟机的总资源要求为 7 GHz CPU 和 6 GB 内存。

可用于虚拟机的主机资源总数为 24 GHz CPU和 21 GB 内存。

根据上述情况，"当前的 CPU 故障切换容量"为 70% （（24GHz - 7GHz）/24GHz）。

同样，"当前的内存故障切换容量"为 71% （（21GB-6GB）/21GB）。

由于群集的"配置的故障切换容量"设置为 25%，因此仍然可使用 45% 的群集 CPU 资源总数和 46% 的群集内存资源打开其他虚拟机电源。

3、"指定故障切换主机"接入控制策略

在配置 vSphere HA 时可以将特定主机指定为故障切换主机。

如果使用"指定故障切换主机"接入控制策略，则在主机发生故障时，vSphere HA 将尝试在指定的故障切换主机之一上重新启动其虚拟机

注意如果使用"指定故障切换主机"接入控制策略，并指定多个故障切换主机，则 DRS 不会对故障切换主机进行负载平衡

vSphere Client 中群集的摘要选项卡的 vSphere HA 区域内显示了"当前故障切换主机"。

每个主机旁边的状态图标可以是绿色、黄色或红色。

1 ）绿色。

主机处于连接状态、未进入维护模式且没有 vSphere HA 错误。

主机上没有任何已打开电源的虚拟机。

2 ）黄色。

主机处于连接状态、未进入维护模式且没有 vSphere HA 错误。

但是，主机上驻留了已打开电源的虚拟机。

3 ）红色。

主机已断开连接、处于维护模式或存在 vSphere HA 错误。

vSphere HA 群集的要求：

在设置 vSphere HA 群集之前，应满足以下要求：

1 ）所有主机必须获得 vSphere HA 许可。

2 ）群集中至少需要有两台主机。

3 ）需要为所有主机配置静态 IP 地址。

4 ）所有主机应该至少有一个公共的管理网络，最佳做法则至少需要有两个。

5 ）版本 4.0 及更高版本的 ESXi 主机 - 已选中了复选框的 VMkernel 网络。

6 ）为了确保任何虚拟机都可以在群集内的任何主机上运行，所有主机都应该可以访问相同的虚拟机网络和数据存储（至少两个）。

同样，虚拟机必须位于共享而非本地存储器上，否则在主机出现故障时它们将无法进行故障切换。

注意：

vSphere HA 使用数据存储信号检测来区分已分区的主机、已隔离的主机和出现故障的主机。

相应地，必须确保为 vSphere HA 预留的数据存储始终立即可用。

7 ）为了使虚拟机监控工作，必须安装 VMware Tools。

总结：

vSphere HA 群集的要求和Vmotion的要要求类似。

创建 vSphere HA 群集：

可以为群集启用 vSphere HA。

启用了 vSphere HA 的群集是 Fault Tolerance 的必备条件。

VMware 建议你首先创建空群集。

在规划好群集的资源和网络架构之后，可以使用 vSphere Client 将主机添加到群集，并指定群集的 vSphere HA 设置。

步骤

1 ）选择"主机和群集"视图。

2 ）右键单击清单树中的数据中心，然后单击新建群集。

3 ）完成新建群集向导。

此时不要启用 vSphere HA（或 DRS）。

4 ）单击完成，关闭向导并创建群集。

此时创建了一个空群集。

5 ）根据你的群集资源和网络架构计划，使用 vSphere Client 将主机添加到群集。

6 ）右键单击群集，然后单击编辑设置。

在群集的"设置"对话框中，你可以修改群集的 vSphere HA（和其他）设置。

7 ）在"群集功能"页上，选择打开 vSphere HA。

8 ）根据需要为群集配置 vSphere HA 设置。

a 主机监控状态

b 接入控制

c 虚拟机选项

d 虚拟机监控

e 数据存储检测信号

9 ）单击确定关闭群集的"设置"对话框。

1、群集功能

新建群集向导中的第一个面板可用于为群集指定基本选项。

在该面板中，可以指定群集名称并选择一个或两个群集功能（都选）。

名称指定群集的名称。

该名称显示在 vSphere Client 清单面板中。

必须指定一个名称，才能继续创建群集。

打开 vSphere HA 如果选中此复选框，则在主机出现故障时，虚拟机将在群集内的其他主机上重新启动。

要在群集内的任何虚拟机上启用 vSphere Fault Tolerance，必须打开vSphere HA。

打开 vSphere DRS 如果选中此复选框，则 DRS 将平衡整个群集的虚拟机负载。

即使虚拟机受 HA保护，DRS 也会放置并迁移虚拟机。

2、主机监控状态

创建群集后，请启用主机监控以便 vSphere HA 可以监控由群集内每个主机上的 vSphere HA 代理发送的检测信号。

如果选择启用主机监控，则会检查群集内的每台主机以确保其正在运行。

如果某台主机出现故障，则会在另一台主机上重新启动虚拟机。

主机监控还是 vSphere Fault Tolerance 恢复进程正常运行所必需的。

注意：

如果需要执行可能会触发主机隔离响应的网络维护，VMware 建议首先禁用主机监控以挂起 vSphereHA。

完成维护后，请重新启用"主机监控"。

3、启用或禁用接入控制

通过新建群集向导，可以为 vSphere HA 群集启用或禁用接入控制，并选择有关其执行方式的策略。

可以为 vSphere HA 群集启用或禁用接入控制。

启用：

禁止违反可用性限制的打开虚拟机电源操作启用接入控制并执行可用性限制，同时保留故障切换容量。

不允许在虚拟机上执行违反可用性限制的任何操作。

禁用：

允许违反可用性限制的打开虚拟机电源操作

禁用接入控制。

例如，即使打开虚拟机电源会造成故障切换容量不足，仍然可执行该操作。

执行该操作时，不会显示任何警告，而且群集不会变为红色。

如果群集的故障切换容量不足，vSphere HA 仍可以执行故障切换，并使用"虚拟机重新启动优先级"设置来确定要先打开电源的虚拟机。

如果启用了接入控制，vSphere HA 会提供三个强制接入控制的策略。

1 ）群集允许的主机故障数量

2 ）作为故障切换空间容量保留的群集资源的百分比

展开阅读全文