ImageVerifierCode 换一换
格式:DOCX , 页数:7 ,大小:20.86KB ,
资源ID:9779493      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/9779493.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(企业案例广州超算中心 企业案例广州超算中心项目建设规划项目需求分析 13项目建设规划.docx)为本站会员(b****8)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

企业案例广州超算中心 企业案例广州超算中心项目建设规划项目需求分析 13项目建设规划.docx

1、企业案例广州超算中心 企业案例广州超算中心项目建设规划项目需求分析 13项目建设规划 企业案例广州超算中心 企业案例广州超算中心、项目建设规划、项目需求分析 1.3项目建设规划项目建设规划 PAGE17 / NUMPAGES17 项目建设规划 魏道付 (华云数据集团) 摘 要:本文描述华云数据集团承建广州超算中心云计算平台项目的项目建设规划 关键字:华云数据;中山大学;超算中心;云计算平台规划 1.1系统总体概要规划 1.1.1总体方案规划 广州超算中心云平台总体拓扑如图1所示: 图1 广州超算云平台总体拓扑图 广州超算中心云平台逻辑结构如图2所示: 图2 广州超算云平台逻辑图 eq oac(

2、,1)系统总体规划包括计算子系统、存储子系统、网络子系统。 eq oac(,2)计算节点分为4个机柜,每个机柜4个刀框,每个刀框32台刀片。每个刀框内置一台接入交换机,通过背板和刀片服务器互联,有4个10 GE口和汇聚互联。 eq oac(,3)管理节点采用5台作为controller节点,3台作为mariadb rabbitmq节点,1台做为stackwatch influxdb节点。 eq oac(,4)存储使用x-sky存储,共10台,分别和controller节点以及compute节点互联。 eq oac(,5)网络子系统按照核心层、汇聚层、接入层、虚拟层的四层结构,云平台各网络包括管

3、理网、存储网、数据网。 1.1.2命名规则 云计算平台节点命名规则如表1所示 表1 云计算平台节点规划 类别 命名规则 举例 备注 管理节点 CS_角色编号_编号 cs-controller-01 第一个controller节点 cs-db-02 第二个数据库节点 计算节点 CS_COMPUTE_编号 cs-computer-0020 第二十个计算节点 cs-computer-0160 第一百六十个计算节点 1.1.3集群概要规划 云计算集群服务节点数量规划如表2所示 表2 云计算集群服务节点 类别 数量 controller节点数量(台) 5 mariadb节点数量(台) 3 stackwa

4、tch节点数量(台) 1 compute节点数量(台) 512 内存虚拟化比例 1:1 CPU虚拟化比例(非独占) 1:4 此方案为简化方案,对于集群来说,有如下一些缺点 1、rabbitmq mariadb节点的资源负载会比较高,rabbitmq和mariadb都比较消耗内存 2、rabbitmq mariadb节点只能宕机一个,否则mariadb集群失效,整个云平台无法进行操作 3、当rabbitmq mariadb节点内存利用率很高时,rabbitmq和mariadb可能会互相抢占资源,从而引发OOM,进一步引发云平台故障 最优化的方案如表3所示: 表3 云计算平台集群服务节点规划 类别

5、 参数 controller节点数量(台) 5 mariadb节点数量(台) 5 rabbitmq节点数量(台) 3 stackwatch节点数量(台) 1 compute节点数量(台) 512 内存虚拟化比例 1:1 CPU虚拟化比例(非独占) 1:4 最优化的方案优势为: 1、512个计算节点,会有非常多的心跳报文,因此,对控制的负载会比较高,将重要的模块拆开,可以有效减少每一个节点的负载 2、pacemaker集群要求一半以上的节点存活,5个controller节点可以宕机2个,如果是3个只能宕机1个,可靠性降低,而在大规模的环境中,负载高会导致引发异常的概率提升,因此推荐5个contr

6、oller 3、controller的负载主要在nova和keystone上,从3个节点增加至5个,每个节点可以有效减少40%的负载 4、同理,mariadb使用galera集群方案,也要求一半以上的节点存活,所以推荐5个 5、拆开控制的模块,可以有效减小故障发生时的影响面,否则如果都混合在一起,一旦一个节点宕机,对controller服务、rabbitmq、mariadb都有影响,对整个云平台的打击也比较大 1.1.4主机概要规划 云计算平台主机的配置信息如表4所示 表4 主机的配置信息 类别 服务器型号 服务器配置 Controller 华为RH2288 cpu:E5-2692 v2 me

7、m:128GB disk:2块sas系统盘(500GB) network:4千兆+4万兆 Mariadb 华为RH2288 cpu:E5-2692 v2 mem:256GB disk:2块sas系统盘(500GB)+2块ssd数据盘(480G) network:2千兆+2万兆 Stackwatch 华为RH2288 cpu:E5-2692 v2 mem:128GB disk:2块sas系统盘(500GB) + 2块ssd数据盘(480G) network:2千兆+2万兆 Compute 天河 cpu:E5-2692 V2 mem:64G, disk:1块sas系统盘(1TB) network:

8、2千兆 1.1.5VM概要规划 云计算平台虚拟机的规格配置如表5所示 表5 虚拟机规格 类别 说明 虚拟机规格1 cpu:1 mem:2GB disk:20GB 虚拟机规格2 cpu:2 mem:4GB disk:20GB 虚拟机规格3 cpu:2 mem:8GB disk:20GB 虚拟机规格4 cpu:4 mem:8GB disk:20GB 虚拟机规格5 cpu:4 mem:16GB disk:20GB 虚拟机规格6 cpu:8 mem:32GB disk:20GB GuestOS类型 Centos6、Centos7、Ubuntu12.04、Ubuntu14.04、Ubuntu16.04、

9、Ubuntu17.04、Windows7、Windows20xxR2、Windows20xxR2、Windows20xxR2 1.2网络子系统概要规划 1.2.1网络拓扑概要规划 交换机组网规划 广州超算中心云平台总体整体组网规划如图3所示 图3 云平台总体组网 eq oac(,1)网络子系统按照核心层、汇聚层、接入层、虚拟层的四层结构,云平台各网络包括管理网、存储网、数据网、存储集群网、IPMI网、业务网。 eq oac(,2)虚拟网络:对虚拟机提供各种网络服务;接入层网络:实现服务器/存储和接入交换机连通;汇聚层网络:实现多接入交换机的互通;核心层网络:实现所有网络设备间的消息转发。 eq

10、 oac(,3)业务网:用来承载用户侧到VM的流量以及VM之间的流量;管理网:用来承载云计算系统设备之间的管理消息交互和云计算系统的维护和监控流量;存储网:用来承载计算子系统和存储子系统之间的存储流量。存储集群网:用来保证存储间数据的互拆访问。 服务器连线规划 Controller节点: 服务器使用4千兆+4万兆口,其中万兆口做两个bond,承载管理和存储流量,千兆口做两个bond,承载业务网的dhcp流量,如图4所示。 图4 控制节点服务器连线规划 Mariadb rabbitmq节点: 服务器使用2万兆口,万兆口做bond,承载管理流量,如图5所示。 图5 消息队列和数据库节点连线 Sta

11、ckwatch influxdb节点: 服务器使用2万兆口,万兆口做bond,承载管理流量,如图6所示。 图6 监控节点连线 Compute节点: 计算节点规划如图7所示 图7 计算节点连线规划 用于管理和存储的万兆交换机使用双电源,但是还会有单点故障,如果交换机宕机,则管理网和存储网无法连接,会导致云平台服务不可用 1.2.2网络地址概要规划 服务器网络规划如表6所示 表6 服务器网络规划 项目 VLAN/VXLAN规划 IP地址段 网关地址 管理集群管理网 2852 控制节点:0-14/16 DB节点:0-22/16 监控节点:0/16 54 管理集群存储网 2851 -5/20 54 管

12、理集群 vxlan vtep 2850 -5/20 54 管理集群IPMI 2853 控制节点:0-14/24 DB节点:0-22/24 监控节点:0/24 54 P120管理网 1120 -32/16 -32/16 -32/16 -32/16 54 P120存储网 2851 -32/20 -32/20 -32/20 -32/20 54 P120 vxlan vtep 2850 -32/20 -32/20 -32/20 -32/20 54 P121管理网 1121 -32/16 -32/16 -32/16 -32/16 54 P121存储网 2851 -32/20 -32/20 -32/20

13、-32/20 54 P121 vxlan vtep 2850 -32/20 -32/20 -32/20 -32/20 54 P122管理网 1122 -32/16 -32/16 -32/16 -32/16 54 P122存储网 2851 -32/20 -32/20 -32/20 -32/20 54 P122 vxlan vtep 2850 -32/20 -32/20 -32/20 -32/20 54 P125管理网 1125 -32/16 -32/16 -32/16 -32/16 54 P125存储网 2851 -32/20 -32/20 -32/20 -32/20 54 P125 vxlan

14、 vtep 2850 -32/20 -32/20 -32/20 -32/20 54 业务vxlan 10001-100000 - - 业务vlan 2860-2959 - - 各机柜服务器物理网络为云下网络,每个机柜用一个单独的B类网 虚拟机的业务网络为云上网络,从云的角度来看,不需要区分物理上的位置。因此,所有虚拟机业务网络在所有机柜都会存在。 各物理节点网关为管理网,其他网络通过配置静态路由的形式进行互通。 虚拟机内部网络为vxlan,外部网络为vlan。 建议每一个租户配置一个外部网络,暂时规划30个vlan的外部网络,有以下几点优势 1、构建vpc,租户隔离更好 2、方便运维管理,根据

15、IP可以很快对应到租户,在故障情况下方便定位 3、外部网络也不是一次性就全部配置的,根据客户租户的数量,一点点增加 如果觉得外部网络太多,则可以所有租户都使用相同的外部网络,或者几个租户用一个外部网络,但是有一些缺点 1、租户隔离性差,所有租户/某几个租户都在同一个网络 2、IP和租户的对应关系复杂,不方便管理,故障时不方便定位 12.3网络带宽概要规划 管理服务器所以流量都有单独的物理网口,不需要进行带宽的考虑。计算节点只有2个千兆网口,需要承载管理、存储、业务所有的流量,如果业务网流量过大,会对管理造成一定的冲击,因此,需要对管理的流量进行最小化保证 1、管理带宽 管理网主要负责整个系统的

16、监控、操作维护(系统配置、系统加载、告警上报)和虚拟机管理(创建/删除虚拟机、虚拟机调度)等。其中,VM热迁移、模板导入虚拟机、导出模板、VNC访问虚拟机以及虚拟机挂载光驱等操作会通过管理网传输数据,占用一定的管理带宽。 管理网带宽规划需考虑系统内计算节点数量,以及各种系统维护操作的并发量,建议至少200Mb。 2、业务带宽 业务网为虚拟机的虚拟网卡对内以及对外通信的网络。 业务网络带宽规划须了解VM上承载的各种业务对带宽的需求,根据现网前期的信息采集带宽(要采集到带宽高峰值和低峰值)进行规划,并预留一定冗余。如是新业务,没有业务采样数据,建议按照平台出口上行的最大配置来进行规划。 在可以采集

17、或预估VM带宽的情况下,结合VM的数量以及VM上业务的并发度与业务出口带宽的峰值比(=正常带宽/峰值带宽)进行规划,可估算出业务带宽。参考公式如下如下: 业务带宽=(VM的带宽/VM数量)*VM数量*并发度/峰值比 3、存储带宽 存储网是虚拟机对本地磁盘进行写入时产生的流量,业务大多数为CPU密集型,对存储的需求并不是很大,存储网使用默认配置即可,不需要进行带宽的保证。 1.2.4虚拟网络服务概要规划 网络服务概要规划示例如表7所示 表7 网络服务概要规划 网络服务 数量 备注 dhcp-agent 5 Controller节点部署 vFW 每个虚拟机1个 创建虚拟机时选择需要的防火墙 Com

18、pute节点为512个,虚拟机的数量至少在2000的数量级,对于网关会有很大的压力。将网关放置在交换机上,物理交换机有转发芯片,能提供更高的性能,并且比软件路由更加稳定。 虚拟机的防火墙放置在宿主机上,对于虚拟机不可访问的流量第一时间进行过滤,防止无效流量进入交换机,提高带宽的利用率。 出于性能和稳定性考虑,推荐方案为将网关设置于物理交换机,不使用网络节点。 折中方案为增加至少4台网络节点设备(最好8台),但是有以下几个缺点 1、需要额外的网络节点,至少4台,且配置较高 2、性能不如物理交换机 3、稳定性不如物理交换机,在负载较高的情况下会阻塞网络 4、vrouter心跳报文较多,会占用部分带

19、宽 5、在大规模环境下,任一网络节点发生故障会导致其余网络节点负载瞬时增高,根据网络规模引发时间不等的网络中断 1.3存储子系统概要规划 1.3.1系统部署概要规划 广州超算中心云平台存储子系统概要规划说明,如表8所示。 表8 存储子系统概要规划 项目 参数 存储厂家 X-SKY 主机数量 10 集群数量 单CEPH集群数量 Ceph版本 存储IOPS 存储带宽 部署形式 分离部署 Ceph mon地址 1.3.2存储资源概要规划 存储的详细资源数据规划表,实际存储容量分配,如表9所示。 表9 存储系统的详细资源数据规划 pool名称 存储分配容量(GB) 副本数 Pool作用 images

20、3 存储镜像 volumes 3 存储volume volumes2 3 存储volume 1.4安全性概要规划 1.4.1网络安全性 Openstack系统的通信平面主要包括业务网、管理网和存储网。从网络安全性的角度考虑,各个网络需要隔离,本节根据项目实际情况,描述项目中所采用的网络隔离方案: 管理网:VLAN隔离 存储层:VLAN隔离 VLAN业务网:VLAN隔离,虚拟机出口防火墙 VXLAN业务网:VXLAN隔离 (1)账号安全概要规划 为了保证账号安全,要求系统中各账号的密码要求采用一定复杂度的密码,如表10所示。 表10 账号安全设置 管理员角色 帐号 密码 Admin Projec

21、t1管理员 Project2管理员 使用英文大小写,数字和符号的组合作为密码。 密码位数超过8位。 密码不包含账号名称。 定期修改密码,且不和前五次密码相同。 不同运维组织使用不同的登录帐号和密码。 (2)存储安全性概要规划 存储的要求是稳定,对其他业务没有影响,这就要求ceph达到如下要求 1、不同组件的pool独立,不要混用 2、权限划分,客户端只能操作给云平台使用的pool 1.5高可用性概要规划 1.5.1设备高可用概要规划 设备高可用概要规划如表11所示 表11 设备高可用概要规划 类别 高可用性规划说明 备注 Controller 每个网络2网卡做绑定 双电源 硬盘组RAID1 5

22、台服务器组成高可用集群 Mariadb 每个网络2网卡做绑定 双电源 硬盘组RAID1 3台服务器组成高可用集群 Stackwatch 每个网络2网卡做绑定 双电源 硬盘组RAID1 Compute 网络2网卡做绑定 存储 10台存储组成集群 多副本 1.5.2网络高可用概要规划 (1)业务网络高可用 所有节点都是用集群和双链路模式,不存在单点或者单链路故障导致系统全部失效的的情况,业务网络高可用方案如表12所示: 表12 业务网络高可用规划 类别 高可用性规划说明 备注 服务器 业务网双网口,网口负载分担模式 接入层 接入交换机采用堆叠模式 接入交换机上行连接到汇聚交换机的两条链路配置聚合

23、汇聚层 汇聚交换机配置VRRP为服务器提供冗余网关。 (2)管理网络高可用 管理网络组网为接入层堆叠汇聚层VRRP+核心层VRRP,管理流高可用性分析参考业务流高可用性分析。 (3)存储网络高可用 存储网络组网为接入层堆叠汇聚层VRRP+核心层VRRP,管理流高可用性分析参考业务流高可用性分析。 1.5.3管理高可用概要规划 (1)管理节点 管理节点部署为多主模式,vip运行于controller节点,使用pacemaker来管理;openstack各控制服务在所有controller节点都运行,通过haproxy来进行负载分担。 Rabbitmq和mariadb运行于mariadb节点,ma

24、riadb通过vip来连接,rabbitmq通过管理网IP连接 Stackwatch和influxdb运行于stackwatch节点,通过管理网IP连接,总体高可用设计如图7所示。 图7 管理节点高可用规划 (2)计算节点 Controller节点和compute节点构建consul集群,并周期性检测compute节点的管理网、存储网、业务网连通性。 如果compute节点网络不可达,则触发故障恢复操作。 考虑到数据一致性,需要将故障compute节点彻底隔离,有如下两种方案: 1、通过IPMI管理 2、关闭compute节点上联交换机网口 因超算中心环境不具备,目前只给管理员发送告警邮件,不

25、做任何恢复操作。 1.6监控概要规划 云平台的监控架构如图8所示 图8 监控节点高可用规划 api提供外部的访问,供云平台查询监控数据、设置监控任务、管理告警规则、管理监控规则 etcd存储配置信息,用户定义的信息 监控数据存放于influxdb中 alarm负责处理告警任务,通过设置的告警规则,对 Stackwatch 中的数据进行分析,并 触发 http 告警 agent负责采集数据,将数据发送到 stackwatch 中。目前Stackwatch提供3种agent: 1、libvirt 负责监控虚拟机 2、host 负责监控物理机 3、network 负责监控 tcp、http、ping

26、 云平台提供了丰富的监控功能,支持: 虚拟机CPU使用率 虚拟机内存使用率 虚拟机磁盘空间占用率 虚拟机磁盘IOPS 虚拟机磁盘吞吐量 虚拟机网卡流量 宿主机CPU利用率 宿主机内存利用率 宿主机磁盘利用率 系统服务监控 告警管理 历史告警查询 登录日志查询 操作日志查询 故障恢复日志 大屏监控展示 虚拟网络拓扑展示 如果对监控功能有更多的需求,比如多种告警方式(QQ、短信、微信)、分类表展示等,可以使用opsultra监控产品 1.7时间同步概要规划 时间同步概要规划如表13所示 表13 时间同步概要规划 序号 规划类别 概要规划 1 外部时钟源 时钟源地址: 同步周期:64ms 物理时钟源。 1 Controller 同步外部时钟 2 Mariadb 同步外部时钟 3 Stackwatch 同步外部时钟 4 Compute 物理机:同步外部时钟源 虚拟机:同步宿主机时钟源 Openstack云计算解决方案时钟同步方案参考如图9所示。 图9 时钟同步方案

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1