2硬件集成实施方案.docx
《2硬件集成实施方案.docx》由会员分享,可在线阅读,更多相关《2硬件集成实施方案.docx(57页珍藏版)》请在冰豆网上搜索。
2硬件集成实施方案
华能虚拟化扩容项目
实施文档
版本V3.0
2015年4月
北京英孚泰克信息技术有限公司
第一章项目概述
1.1项目背景
本次项目建设为华能集团扩建虚拟化资源池项目。
华能集团现有的虚拟化资源不能满足日益增长的需要,此次项目需要对现有的资源池进行扩容和升级,包括:
物理主机资源、存储资源、以及网络的扩容。
1.2项目目标
针对内网区域、VPN区域、DMZ区域,这三个区域分别进行虚拟化资源的扩容和建设。
通过该项目的建设,满足华能集团将来IT发展的需要。
成为支撑企业信息化建设的平台。
1.3项目内容
✓内网区域:
增加16台华为TecalRH5885V3服务器,补充虚拟化资源池的服务器资源。
增加2套华为OceanStor5600V3存储产品,扩充存储空间。
扩充CiscoNexus5000交换机端口,满足此次设备连网要求。
建设带外管理网络,保障虚拟化系统管理的安全性和可靠性。
✓VPN区域:
增加3台曙光I840-G25服务器,增加1套华为OceanStor5500V3存储产品,建设虚拟化资源池。
增加2台华为CE6810-48S4Q-EI统一交换机,为设备连网提供网络支持。
建设带外管理网络,保障虚拟化系统管理的安全性和可靠性。
✓DMZ区域:
增加一台华为TecalRH5885V3服务器,建设虚拟化资源池。
第二章虚拟化群集扩容和升级
2.1内网群集
2.1.1内网资源池的规划
2.1.1.1群集规划
根据华能资源组需要分为生产和测试两类,以及新旧服务器CPU指令集兼容问题(新购华为服务器CPU为V2版本指令集、原来IBMx3850服务器CPU为V1版本指令集),和VMware最佳实践共计划分为5个群集:
分别是一个vCenter群集、一个生产群集(V1)、一个生产群集(V2)、一个测试群集(V1)、一个测试群集(V2)。
内网集群规划表格:
集群名称
机器数量(台)
组成
主机系统版本
v1-生产
6
利旧IBMx3850服务器组成
ESXI5.5(5.1升级)
v1-测试
3
利旧IBMx3850服务器组成
ESXI5.5(5.1升级)
v2-生产
12
新购华为服务器组成(TecalRH5885V3)
ESXI5.5
v2-测试
4
新购华为服务器组成(TecalRH5885V3)
ESXI5.5
内网vcenter
2
利旧IBMx3850服务器组成
ESXI5.5(5.1升级)
不同集群所需的功能如下表:
集群名称
DRS
HA
FT
vmotion
EVC
v1-生产
全自动,迁移阀值:
级别4
开启:
一主多从
开启
开启
禁用
v1-测试
全自动,迁移阀值:
级别4
开启:
一主多从
开启
开启
禁用
v2-生产
全自动,迁移阀值:
级别4
开启:
一主多从
开启
开启
禁用
v2-测试
全自动,迁移阀值:
级别4
开启:
一主多从
开启
开启
禁用
内网vcenter
手动
开启:
一主一从
关闭
开启
禁用
内网服务器主机规划表格:
主机名称
用户名
密码
IPv4/子网掩码
网关
DNSserver
用途
ESXi-C306-D10-2U-5U
root
chng-123456
10.1.59.22/24
10.1.59.254
——
生产
ESXi-C306-D10-7U-10U
root
chng-123456
10.1.59.23/24
10.1.59.254
——
生产
ESXi-C306-D10-12U-15U
root
chng-123456
10.1.59.24/24
10.1.59.254
——
生产
ESXi-C306-D10-17U-20U
root
chng-123456
10.1.59.25/24
10.1.59.254
——
生产
ESXi-C306-D10-22U-25U
root
chng-123456
10.1.59.26/24
10.1.59.254
——
生产
ESXi-C306-D10-27U-30U
root
chng-123456
10.1.59.27/24
10.1.59.254
——
生产
ESXi-C306-D10-32U-35U
root
chng-123456
10.1.59.28/24
10.1.59.254
——
生产
ESXi-C306-D9-2U-5U
root
chng-123456
10.1.59.29/24
10.1.59.254
——
生产
ESXi-C306-D9-7U-10U
root
chng-123456
10.1.59.30/24
10.1.59.254
——
生产
ESXi-C306-D9-12U-15U
root
chng-123456
10.1.59.31/24
10.1.59.254
——
生产
ESXi-C306-D9-17U-20U
root
chng-123456
10.1.59.32/24
10.1.59.254
——
生产
ESXi-C306-D9-22U-25U
root
chng-123456
10.1.59.33/24
10.1.59.254
——
生产
ESXi-C306-D9-27U-30U
root
chng-123456
10.1.59.34/24
10.1.59.254
——
测试
ESXi-C306-D9-32U-35U
root
chng-123456
10.1.59.35/24
10.1.59.254
——
测试
ESXi-C306-D8-25U-28U
root
chng-123456
10.1.59.36/24
10.1.59.254
——
测试
ESXi-C306-D8-30U-33U
root
chng-123456
10.1.59.37/24
10.1.59.254
——
测试
ESXi-C306-D6-27U-30U
root
chng-123456
10.1.59.38/24
10.1.59.254
——
生产
ESXi-C306-D6-22U-25U
root
chng-123456
10.1.59.39/24
10.1.59.254
——
生产
ESXi-C306-D6-17U-20U
root
chng-123456
10.1.59.40/24
10.1.59.254
——
生产
ESXi-C306-D6-12U-15U
root
chng-123456
10.1.59.41/24
10.1.59.254
——
生产
ESXi-C306-D6-7U-10U
root
chng-123456
10.1.59.42/24
10.1.59.254
——
生产
ESXi-C306-D6-2U-5U
root
chng-123456
10.1.59.43/24
10.1.59.254
——
生产
ESXi-C306-D5-27U-30U
root
chng-123456
10.1.59.44/24
10.1.59.254
——
测试
ESXi-C306-D5-22U-25U
root
chng-123456
10.1.59.45/24
10.1.59.254
——
测试
ESXi-C306-D5-17U-20U
root
chng-123456
10.1.59.46/24
10.1.59.254
——
测试
ESXi-C306-D5-12U-15U
root
chng-123456
10.1.59.47/24
10.1.59.254
——
Vcenter
ESXi-C306-D5-7U-10U
root
chng-123456
10.1.59.48/24
10.1.59.254
——
Vcenter
注:
黄色为原内网IBMx3850机器,原用户名:
root,原密码:
root123456
vcenter虚机规划表格:
参数
值
vCPU数量
8vCPU
内存
20GB
虚拟网卡数
1
磁盘空间
200GB
操作系统分区
40GB(C:
)与160GB(D:
)
操作系统版本
WindowsServer201264-bit
vcenter虚机名称
NW-vcenter
用户名
Administrator
密码
CHNG-123456
IPv4/子网掩码
10.1.59.20/24
注:
vcenter原用户名:
administrator,原密码:
Root.123456
SQLServer虚机规划表格:
参数
值
vCPU数量
2vCPU
内存
16GB
虚拟网卡数
1
磁盘空间
350GB
操作系统分区
C盘:
50GB(Thin模式)D盘:
300GB(Thick模式)
数据库恢复模式
简单
操作系统版本
Windowsserver2012
虚机名称
NW-sql
用户名
SQL2012
密码
CHNG-123456
IPv4/子网掩码
10.1.59.21/24
2.1.1.2存储规划
按照华为存储性能最优和使用率较高的配置,将存储72块600G硬盘做raid5,配置是4D+1P。
规划LUN容量时,建议每个LUN运行10到20个VM(数据事务类应用可以适当减少),并且每个LUN的使用量不超过容量的80%,故将lun划分为2T,方便磁盘管理。
根据华能的日常管理和日后需求,先将一台华为存储做raid5,并划分2T的lun,共13个。
另一台供日后应用部门需求来划分。
根据最佳实践,部署的每一个VMFS文件系统下最好分配一个LUN磁盘,这样可以避免虚拟机文件VMDK跨LUN造成的性能不一致等问题。
每个host连接存储逻辑图如下:
新增加的华为存储物理连接图如下:
新增加的华为存储设备为双控制器。
每个控制器上面有4路10GbFCoE端口。
采用每控制器2+2方式分别连接到两台N5K统一交换机,共计连接8路光缆,达到冗余和负载均衡的目的。
每个N5K交换机划分为两个Zone。
划分的原则是:
保障一个物理服务器的两个网卡分别可以“看到”一台存储的两个控制器,如上图所示:
保障所有红色端口位于同一个Zone中,保障所有绿色端口位于同一个Zone中。
同时,对已经划分的存储容量和使用情况做好记录。
每套存储设备划分的LUN使用情况、承载虚拟机数量、虚拟机操作系统和业务名称等进行登记,如下图所示:
2.1.1.3网络规划
Ø虚拟网络规划
VDS(虚拟分布式交换机)相对于VSS(虚拟标准交换机)来说,能够集中管理所有的虚拟机流量,并且能够实现VLAN划分,安全,双向流量控制等功能。
所以本次集群的交换机都是用分布式交换机。
目前华能ESXI上使用是标准交换机,现况如下:
标准虚拟交换机
功能
物理网卡端口数
VLANID
负载均衡策略
流量控制策略
Managementnetwork
管理网络
2(FCoE链路)
54
双活
——
vmkernel
vSpherevMotion
2(FCoE链路)
999
双活
——
vmnetworkVLAN56
业务网络
2(FCoE链路)
56
双活
10000kb/s
vmnetwork
业务网络
2(FCoE链路)
54
双活
——
vmnetworkVLAN132
业务网络
2(FCoE链路)
132
双活
10000kb/s
vmnetworkVLAN12810M
业务网络
2(FCoE链路)
128
双活
10000kb/s
vmnetworkVLAN132nolimits
业务网络
2(FCoE链路)
132
双活
——
vmnetworkVLAN12820M
业务网络
2(FCoE链路)
128
双活
20000kb/s
vmnetworkVLAN1285M
业务网络
2(FCoE链路)
128
双活
5000kb/s
vmnetworkVLAN128
业务网络
2(FCoE链路)
128
双活
——
vmnetworkVLAN13820M
业务网络
2(FCoE链路)
138
双活
20000kb/s
vmnetworkVLAN131
业务网络
2(FCoE链路)
131
双活
10000kb/s
vmnetworkVLAN57
业务网络
2(FCoE链路)
57
双活
10000kb/s
本次项目将标准交换机(VSS)改为分布式交换机(VDS)后的配置如下:
分布式虚拟交换机
功能
物理网卡端口数
VLANID
负载均衡策略
流量控制策略
VDS1
管理网络/vSpherevMotion
2(以太网链路)
999
主备
——
VDS0
业务网络
2(FCoE链路)
与vss保持一致
双活
与vss保持一致
对于虚拟交换机的双端口冗余,本项目通过在vSwitch交换机层面配置双网卡的负载均衡和主备切换策略。
负载均衡双活策略针对虚拟机业务网络,主备切换网络针对管理网络和vMotion网络。
对于虚拟机业务的网络,为了确保虚拟机在执行了vMotion迁移到另一物理主机时保持其原有的VLAN状态,根据实际需要在虚拟交换机端口启用802.1q的VLAN标记(VST)方式。
为了做到带外管理的安全性和可靠性,虚拟化管理功能链路连接专用的带外管理交换机,独立的网络运行,避免因业务网络爆发网络病毒,造成虚机管理的中断。
虚拟化数据业务链路连接现有的内网统一交换机,进行数据和存储的访问。
在本方案中VDS0接入CiscoN5K交换机,VDS1接入带外管理交换机。
流量调整策略由三个特性定义:
平均带宽、带宽峰值和突发大小。
可以为每个端口组和每个dvPort或dvPort组建立流量调整策略。
ESXi调整vSwitch上的出站网络流量以及vNetwork分布式交换机上的进站和出站流量。
流量调整功能会限制任何端口的网络带宽,但是也可以将其配置为允许流量“突发”,使流量以更高的速度通过端口。
VDS0业务网络连接配置图如下所示:
VDS1管理网络连接配置图如下所示:
Ø物理网络规划
网络架构图如下:
服务器采用双端口10GbFCoE端口与内网N5K统一交换机相连接达到冗余和负载均衡的目的,在FCoE通道里面分离数据存储协议和IP通讯协议。
数据和IP所占的百分比为80%和20%,可根据数据和IP流量自动动态调整。
每个物理服务器通过板载的双端口千兆网卡,连接到专用的带外管理交换机。
带外管理交换机直接连接至N7K交换机。
构建带外管理网络。
2.1.2升级和扩容的步骤
2.1.2.1升级
目前华能的服务器集群的配置情况如下:
对象
现状
操作
ESXI
5.1
升级到5.5
vcenter(vsphereclient5.5)
5.5
重装到利旧的服务器
数据库
与vcenter在同一系统
重装数据库到新系统里,与vcenter装在不同虚机
管理网络
上行物理网卡为FCOE,IP地址为10.1.54.x
上行物理网卡改为电口,IP地址改为10.1.59.x,
vmotion网络
192.168.x.x
改为和管理同一个端口组
业务网络
共12个VLAN组,部分VLAN组有流量控制策略,且部分VLAN组无虚机连接
VLAN组不变,可将无虚机的VLAN组删除掉
虚拟交换机
标准交换机
改为分布式交换机
升级主要包括以下操作(测试和生产集群):
Ø升级原有的ESXI5.1至5.5
Ø标准交换机改为分布式交换机
Ø添加带外管理网络
Ø重装vcenter和SQLserver
Ø将资源池管理方式改为文件夹方式
操作步骤:
Ø升级原有的ESXI5.1至5.5,添加带外管理交换机,重装vcenter和SQLserver,标准交换机改为分布式交换机,操作流程图如下:
1.将vcenter和数据库建立到利旧的两台服务器上,创建新网段的分布式交换机(电口,用于管理)。
连接至带外管理网络上面。
2.在旧的vcenter上创建vlan59网段VSS交换机,增加电口,IP地址设置为10.1.59.x将所有标准交换机的managementnetwork的IP信息修改为10.1.59.x。
旧的venter剔除主机。
使用新的vCenter接管主机。
新vcenter接管物理主机进行管理。
3.在新的vcenter成功接管主机之后,进行VSS到VDS的在线迁移。
首先迁移管理网络,将vlan59网段VSS迁移至VDS1(管理)上面,之后将业务VSS(光口)迁移至VDS0(业务)上面。
4.关闭DRS功能。
根据集群现在的资源状况,选择一台目标主机,手工迁出虚拟机,利用光盘引导升级ESXI5.1到5.5,选择“升级ESXI,保留VMFS格式和数据”。
若物理机出现故障,则联系硬件厂家及时解决问题。
版本升级成功之后,手工迁入虚拟机。
重复以上操作,直至所有物理服务器ESXI5.1到5.5升级完成。
恢复DRS功能。
Ø将资源池管理方式改为文件夹方式
文件夹适用于分组对象和将对象组织到层次结构中的容器。
创建“主机和群集文件夹”型对象
操作步骤:
1在导航器中,选择数据中心或其他文件夹作为该文件夹的父对象。
2右键单击该父对象,然后选择用于创建文件夹的菜单选项。
选项描述
父对象是数据中心。
如果父对象是数据中心,您可以选择要创建的文件夹类型:
选择所有vCenter操作>新建主机和群集文件夹。
选择所有vCenter操作>新建网络文件夹。
选择所有vCenter操作>新建存储文件夹。
选择所有vCenter操作>新建虚拟机和模板文件夹。
选择所有vCenter操作>新建文件夹。
3键入文件夹的名称,然后单击确定。
通过右键单击资源池并选择移至将资源池移到文件夹中。
选择该文件夹作为目标。
2.1.2.2扩容
新采购的16台服务器,分为4台测试集群和12台生产集群。
扩容工作就是将新购买的服务器增加进服务器资源池,统一连接带外管理交换机,通过专用的带外管理网络进行管理。
由新的vcenter进行管理。
扩容工作包含以下主要操作:
Ø安装ESXI5.5
利用光盘引导安装ESXI5.5并进行口令修改、配置管理网络、测试管理网络、恢复网络设置和配置hostname、DNSserver等工作。
Ø创建生产和测试集群
利用vcenter创建生产和测试两个集群,并将新装的主机添加进去,并启用vSphereHighAvailability(HA)、vSphereDistributedResourceScheduler(DRS)。
Ø创建VDS0和VDS1
创建方式与V1集群的创建方式相同,参照内网升级的VDS1、VDS0创建和划分端口组。
Ø制作windows2012,suse,windows2008模板
新建一台虚拟机,更新系统补丁,安装必要的程序,所有工作完毕后关机;右击已关闭的虚拟机,选择“模板”,“转换为模板”,制作完毕。
2.1.3资源分配和优化
2.1.3.1DRS
迁移阈值指定了当前主机负载标准偏差(CHLSD)与目标主机负载标准偏差(THLSD)的平衡容忍度,如果CHLSD超过THLSD,群集被认为不平衡。
DRS通过群集中所有活动的主机计算平均值和正常配额标准偏差决定了当前主机负载标准偏差(CHLSD).正常的配额是衡量可用容量的利用率,DRS收到每个虚拟机的资源利用率和需求来计算动态配额,主机上所有虚拟机的配额之和,通过主机的容量进行划分,主机的可用容量是剩下资源数量,也就是减去虚拟层的资源需求后的容量。
目标主机标准偏差(THLSD)是来自DRS的迁移阈值,它定义了群集不平衡的容忍等级。
从保守到激进共5个级别。
集群内主机失衡率公式:
1-THLSD/CHLSD。
失衡率估算值为:
激进:
0.07;适度激进:
0.15;中等:
0.282;适度保守:
0.53;保守:
0.85。
每个阈值级别设置了不平衡的容忍边界,激进的阈值设置了一个收紧的边界以允许一点点不平衡,而保守的阈值容忍比较大的不平衡,大多数保守阈值不会计算THLSD,只会建议强制性约束冲突。
期望高频繁的迁移可以选择激进的迁移阈值,DRS会请求保持CHLSD低于THLSD。
在DRS功能开启时,GalaxEngine定时(默认采样周期为60s)查询资源集群内虚拟机的CPU占有率、内存占有率。
GalaxEngine定时(调度的默认间隔是600s)启动资源集群内负载均衡调度算法,若负载失衡度大于用户指定阈值(保守、中等、激进),则在不同的物理机间迁移虚拟机。
针对不同的DRS阈值(除保守),当虚拟机迁移完毕之后,一个周期内同一个资源集群内,一半以上物理机的CPU使用率标准偏差值小于等于该阈值。
例如一个周期是600s,采样的频率是60s,一个周期内就可以采集10组CPU使用率数据,需要有6组或6组以上的CPU使用率标准偏差不大于该阈值。
针对华能业务建议:
第1级别的建议应该一直被接受,但清单中第5级别的一些建议,针对集群的改善作用甚小。
如果全部接受,也能共同改善群集。
当主机上的虚拟机运行着变化无常的工作负载,群集使用激进的迁移阈值会发生不必要的迁移。
适度的迁移阈值在这样的情况下更适合。
当群集拥有同样配置的主机,运行着相对稳定的负载需求,阈值可以改为第4级别,第5级别。
而现在华能集群资源利用稳定且负载相对较低,可以将阀值调到第4级别。
2.1.3.2HA
Ø配置HA的接入策略
以下建议是vSphereHA接入控制的最佳做法:
1.选择“预留的群集资源的百分比”接入控制策略。
该策略在主机和虚拟机所需空间方面提供了极高的灵活性。
配置此策略时,选择CPU和内存的百分比以反映要支持的主机故障数。
例如,如果希望vSphereHA为两个主机故障留出资源,并且群集中包含十个具有相同容量的主机,则可以指定20%(2/10)。
2.确保设置的所有群集主机大小相等。
对于“群集允许的主机故障数目”策略,不平衡的群集会导致预留过多容量来处理故障,因为vSphereHA为最大的主机预留容量。
对于“群集资源的百分比”策略,不平衡的群集要求指定的百分比大于在平衡群集情况下为预期主机故障数预留足够容量所需的百分比。
3.如果计划使用“群集允许的主机故障数目”策略,请尝试在所有配置的虚拟机间保持相似的虚拟机大小要求。
该策略使用插槽大小来计算需要为每个虚拟机预留的容量。
插槽大小取决于任一虚拟机需要的最大预留内存和CPU。
当混用CPU和内存要求不同的多个虚拟机时,插槽大小计算将默认为最大可能值(限制整合)。