CAE架构方案建议书Word文档下载推荐.docx

上传人:b****6 文档编号:19691904 上传时间:2023-01-08 格式:DOCX 页数:17 大小:305.24KB
下载 相关 举报
CAE架构方案建议书Word文档下载推荐.docx_第1页
第1页 / 共17页
CAE架构方案建议书Word文档下载推荐.docx_第2页
第2页 / 共17页
CAE架构方案建议书Word文档下载推荐.docx_第3页
第3页 / 共17页
CAE架构方案建议书Word文档下载推荐.docx_第4页
第4页 / 共17页
CAE架构方案建议书Word文档下载推荐.docx_第5页
第5页 / 共17页
点击查看更多>>
下载资源
资源描述

CAE架构方案建议书Word文档下载推荐.docx

《CAE架构方案建议书Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《CAE架构方案建议书Word文档下载推荐.docx(17页珍藏版)》请在冰豆网上搜索。

CAE架构方案建议书Word文档下载推荐.docx

3.3.1ABAQUSlicense收费政策

3.3.2Radiosslicense收费政策

3.3.3Nastranlicense收费政策

4、给项目组的建议

架构思路:

应用决定系统类型,系统决定应用性能。

同时满足扩展性和通用性,满足CAE架构演变,节约采购成本,保护投资。

1、CAE软件应用特点分析

MCAE分析主要包括前处理、计算分析和后处理这3个过程。

前处理主要是建立问题的几何模型、进行网格划分、建立用于计算分析的数值模型、确定模型的边界条件和初始条件等(换句话说将非线性的力学方程离散为计算机可以识别的代数方程)。

这一个过程需要较好的显示能力,并且要求具有一定的内存空间能够容纳大量的网格信息,通常在工作站上进行;

计算分析是对所建立的数值模型进行求解,经常需要求解大型的线性方程组,这个过程是MCAE分析中计算量最大、对硬件性能要求最高的部分。

这一过程需要大量的CPU、内存资源以及存储空间,通常利用作业调度系统提交到高性能计算机上执行,结构数据存放在大容量磁盘整列中;

后处理则是以图形化的方式对所得的计算结果进行检查和处理,这一过程同样对显示能力要求较高,通常在工作站上进行。

CAE项目一期,我们将上三款CAE软件ABAQUS、Radioss、Nastran

1.1三款CAE软件对硬件架构特点分析

1.1.1隐式有限元分析(包括静态/动态):

处理器扩展能力有限,最多10路(10

颗),应用偶合度很强,合适在SMP或者CC-MUMA结构的服务器上运行。

代表软件:

ABAQUS、ANSYS、MSC.NASTRAN等。

1.1.2显示有限元分析:

应用偶合度一般,多节点并行计算能力较强,合适在DMP结构/集群系统(Cluster)

LS-DYDA、PAM-CRASH、RADIOSS等

1.1.3计算流体力学:

合适在DMP结构/集群系统(Cluster)

FLUENT、STAR-CD、POWERFLOW、CFX、OVERFLOW等。

1.2三款CAE软件计算过程分析:

备注:

下文中即可是“刀片服务器”也可是“机架服务器”

1.2.1MSCNastran

随机选择集群中的某块刀片服务器(主刀片)放入经工作站前处理后的模型文件,模型文件读入到主刀片内存,形成总体刚度强度矩阵方程进行矩阵分块(2*2-4*2)后通过作业调度工具将分块后的矩阵分配给集群计算资源(集群中的刀片)计算,各块刀片独立计算,往自己刀片硬盘(存储盘LUN)上写临时文件后形成各自刀片的中间文件,再将各自生成的中间文件返给主刀片进行结果文件合并,形成最终的求解结果文件。

1.2.2Abaqus

隐式:

随机选择集群中的某块刀片服务器(主刀片)放入经工作站前处理后的模型文件,模型文件读入到主刀片内存,形成矩阵分块后通过作业调度工具将分块后的矩阵分配给集群计算资源(集群中的刀片)计算,各块刀片独立分步计算的同时存在着及少量的刀片间内存交换,各块刀片往自己刀片硬盘(存储盘LUN)上写临时文件,当每块刀片每算完一步后将中间文件汇总到主刀片进行结果文件叠加,最终形成结果文件。

显式:

过程与隐式大致相同,模型文件读入此主刀片内存后形成单元集(domain),在边界上和其它节点内存交换。

数据交换和存储量不大,结果文件叠加。

对I/O要求低,CPU要求高。

1.2.3Radioss

随机选择集群中的某块刀片服务器(主刀片)放入经工作站前处理后的模型文件,模型文件读入到主刀片内存,进行求解文件域分块后拆分成多个求解文件,通过作业调度工具将多个求解文件分配给集群计算资源(集群中的刀片)计算,集群中的刀片需有共享存储区间,各块刀片并行计算往共享存储区间(NFS提供的volume)写结果文件(按提交的命令要求,如5秒出一次结果A001,A002。

)。

1.3三款CAE软件计算结果分析及理想的对应平台:

Abaqus软件从基准测试来看,显式分析:

CPU数量越多或主频越高,计算效果越好。

但实际模型测试来看,显式(车门冲击计算—17.58小时32c/64g),证明实际模型需要优化的同时,我们可以尝试在DMP结构/集群系统(Cluster)下看看结果。

隐式分析:

单节点无须强调高配置,CPU4core/MEM8G。

但实际模型测试来看,隐式(机罩风力计算—1.27小时32c/64g),可见一台sunfirex4600M2完全满足需求。

Radioss软件显示计算,在X86的SMP架构下不适合,实际模型测试时调用了MPI,是在集群环境下消息传递。

建议采用刀片集群或pcserver集群环境,每个节点的CPU最佳配置为8core,不要超过16core。

考虑到infiniband未做测试,CAE项目一期计算规模较小,建议通过1G以太网集群,需作业调度软件支持。

Nastran软件分模态分析和扫频分析,扫频分析的基准测试模型在计算过程中产生的中间数据要比模态分析的基准测试模型多得多,扫频分析I/O要求高,基准测试结果扫频分析每节点的最佳配置在4core,而模态分析的最佳配置是8core。

而且要充分重视各节点自身I/O子系统的设计。

根据实际模型测试结果,在工况拆分的基础上,可以用8core,SMP架构进行运算。

(推荐尝试在DMP结构/集群系统(Cluster)下,进一步测试该应用的最佳模式)。

软件名称

系统架构

Cpu数量/节点数量

I/0要求

ABAQUS显式

刀片或机架集群

待定

ABAQUS隐式

机架

16-32core/1台

Radiossspmd

8-16core/4块(台)

NASTRAN扫频分析

4-8core/4块(台)

NASTRAN模态分析

8core/1台

1.4三款CAE软件对存储的分析

存储一般都具备2个评价指标:

IOPS和带宽(throughput),两个指标互相独立又相互关联。

IOPS(I/Ospersecond):

即每秒输入输出次数。

指的是系统在单位时间内能处理的最大的I/O频度。

一般,OLTP应用(数据库应用)涉及更多的频繁读写,更多的考虑IOPS。

IOPs基本由阵列控制器完全决定;

throughput:

指的是单位时间内最大的I/O流量,一些大量的顺序文件连续读写访问,例如流媒体,CAE等,关键指标为throughput。

throughput决定于整个阵列系统,与所配置的磁盘个数有一定关系。

分析整个高性能计算应用的存储模式,主要分为两种:

计算前后的原数据和结构数据的读写,这部分数据对应用程序的运行性能没有太大的影响,仅仅影响原始数据的LOAD时间和结构数据的存入时间。

计算过程的中间数据,这些数据在计算结束之后就会被丢弃,但是在计算过程中,访问速度会影响到应用程序的运行性能,设计不合理的中间数据存储方案会导致CPU处于等待状态,无法充分利用。

针对以上两种类型的存取模式,反应在SMP体系架构和DMP体系架构,又有不同的实现方式:

对于SMP体系架构,可以通过直接连接高速的磁盘来解决中间数据的存取,通过连接SAN共享的、性价比较好的FC/SAS磁盘柜,提供最终数据档案的存放。

对于DMP体系架构的群集系统,可以通过在每个节点上配置SAN架构磁盘空间解决中间数据的存取,通过NFS网络共享文件系统来为群集所有节点提供原始数据与最终数据的读取与存放。

2、CAE硬件平台选择

2.1.1系统拓扑结构设计

此拓扑结构设计包含I/O节点

DPCA刀片集群架构拓扑图

方案说明:

DPCA扑结构设计去掉I/O节点(分析过程详见2.3)

1)架构特点:

6块刀片组成运算集群。

2块刀片用于后期测试。

节点间的通信基于1Gb的以太网,管理子网和运算子网独立于NAS数据子网。

数据存储采用FC-SAN和NAS架构。

集群架构负载分担,但未考虑冗余,FC-SAN存储架构考虑冗余,保证数据的可用性管理子网独立于运算子网。

每块刀片受限于2路,8core。

隐式计算求解性能差,若刀片笼子背板坏的特殊情况下,整个计算集群系统将停机。

同时受厂家技术限制,不具开放性,不利于扩展,扩展成本高等。

2)2块高配刀片服务器(仅内存较大),其中一块用于DMP运算的主节点,负责

RADIOSS运算和ABAQUS显式运算的前后处理,集群的管理和登录节点。

一块用于SMP运算节点,负责NASTRAN运算和ABAQUS隐式运算处理。

3)4块低配刀片服务器,DMP运算的子节点,负责RADIOSS和ABAQUS显式运算的

求解过程。

4)刀片笼子内的2台FCSAN交换机用于连接各块刀片及存储机头,提供SAN服务

2台以太网交换机分别用于连接各块刀片和存储机头,一台用于管理和运算子网,另一台用于NAS数据子网提供NAS服务。

2.1.2设备配置

1)6块低配刀片(cpu:

2*4core2.6GHZ,mem:

24G,disk:

2*300G10KSAS2.5’,2*4GHBA,2*1G以太网卡),

2)2块高配刀片(cpu:

2*4core2.93GHZ,mem:

48G,disk:

3)刀片笼子:

2台FC交换机,2台以太网交换机。

刀片出口直接连存储机头提供FC-SAN和NAS服务。

4)网络设备:

无独立交换机

5)存储设备:

1台。

(双机头,读写缓存8GB,300G15KFC盘,8T可用空间,支持FCSAN和NAS)

6)其它:

机柜及套件,若干电缆等。

2.1.3扩展性分析

一个刀片笼子,刀片的扩展最多可连接14块或16块刀片;

交换机扩充能力有

限,不支持叠加。

2.2.1系统拓扑结构设计

DPCA机架集群架构拓扑图

方案说明(架构中的服务器可以是HP、IBM、SUN等,在此以SUN为例):

1台X4600胖节点与4台X4140瘦节点组成运算集群,1台X4140作为管理和登陆节点同时作为计算节点的备份。

集群架构负载分担,但未考虑冗余,FC-SAN存储架构考虑冗余,保证数据的可用性。

切合应用,X4600可提供32core用于隐式计算,X4140可提供12core(2路*6core)用于显示计算集群,开放标准不受厂家技术限制,利于扩展,扩展成本低等。

可转移给开放平台系统使用,有利于投资保护,有利于CAE架构演变。

(2.2.3有详细分析)

2)X4600的作用:

DMP运算的主节点,负责RADIOSS运算和ABAQUS显式运算的前后处理。

SMP运算节点,负责NASTRAN运算(工况拆分的基础上)和ABAQUS隐式运算处理。

登录节点,作业调度节点

注:

NASTRAN运算应在DMP架构实现的基础上进行进一步的测试,以达到最佳配置。

3)X4140的作用:

4台DMP运算的子节点,负责RADIOSS运算和ABAQUS显式运算的求解过程。

1台管理节点,也可作为计算节点的备机。

采用平行配置,用于集群管理、和其他临时工作(如监控)。

4)CISCO3560G-24TS-S的作用:

负责集群各节点间的通讯,提供1Gb的网络带宽,负责集群管理和监控,负责存储NAS访问。

5)设计思想:

问题1、为什么选用胖节点X4600作为主节点?

单独拿一台X4140做管理节点?

·

基于测试分析,应用是需要SMP和DMP两种架构并存,因此,系统必须包括一个SMP架构的节点以及一个集群,同时集群必须有一个主节点。

而主节点的运算特性决定了主节点的架构也为SMP架构。

所以,此系统将SMP运算节点和集群主节点合二为一。

同时,为了成本考虑,加上资源调度任务的运算需求很低,为方便与DMP运算的主节点运算整合,可以将资源调度任务任务也集成该服务器上。

鉴于主节点集成了多重任务,在实际生产环境中,是多个应用并发处理状态(包含ABAQUS隐式计算、Nastran扫频计算、Radioss、ABAQUS显式的前后处理,而1-2片大内存配置的刀片,受8core的CPU性能限制,无法满足要求),为满足这种真实生产需求,要求该服务器有较高的运算能力。

所以,方案中选择X4600胖节点,配置128G内存(8颗CPU,32个核,128G内存)作为主节点。

因管理软件的配置原理,管理节点无法管理自身,采用一台X4140独立作为管理节点。

但是此节点仍可以参与集群运算。

因此,此节点采用与集群子节点相同的配置,在资源紧张的情况下,可以调度此节点参与运算。

或者在某个子节点宕机的情况下,此节点可以当作备机使用。

问题2、为什么选用4个瘦节点X4140作为子节点?

基于测试分析,尤其在NASTRAN的测试中可以看出,在SMP架构中当CPU达到4~8core以上的时候,性能受I/O瓶颈的限制,反而下降。

加上参考基准机的配置,子节点8core最为理想,不要超过16core。

ABAQUS显示对于I/O需求并不是很高,而Radioss对于I/O要求比较高。

如每个节点4个core用于ABAQUS显示,8个core用于Radioss,以均衡计算能力和I/O负载。

尽管每个节点的核数超出8,并不会影响应用的I/O性能。

基于应用特点,每个子节点运算能力配置达到12core最佳。

在此类运算中,表现最突出的往往是I/O瓶颈限制,通过SAN网和NAS网(需要最少两个I/O扩展槽添加HBA卡以接入冗余架构的SAN网,1个I/O扩展槽以接入NAS网,故I/O扩展槽要求大于3)和本地SAS硬盘解决。

根据license收费状况(Raddios32core,Abaqus16core),再根据测试分析,单个显式应用DMP运算规模基本在16~32核之间。

子节点总核数=Raddios32core+Abaqus16core=48,节点个数=总核数/单节点核数=48/12=4。

DMP的集群环境中的32core用于Radioss,16core用于ABAQUS显式应用,故48core满足要求,集群间计算资源分配通过作业调度实现。

综上所述,基于单节点12core,I/O扩展槽大于3,我们推荐X4140做为集群子节点,节点数为4。

问题3、为什么选用1Gb的以太网交换机为集群的网络设备?

因为根据目前运算规模,整个集群只需要5个节点。

这种情况下不论采用infiniband还是10Gb的以太网都将造成资源浪费。

考虑到性价比选用1Gb的以太网交换机。

由于需要把管理子网和运算子网独立于NAS数据子网,进行负载分担,又需满足现有的和未来可能的少量扩展需求,这里选用两台24port的思科交换机。

如果集群规模后期变大,将来也可以考虑扩展。

2.2.2设备配置

1)胖节点机架式服务器:

1台(cpu:

8*4core2.9GHZ,mem:

128G,disk:

4*300G10KSAS2.5’,2*4GHBA,1*1G以太网卡)

2)瘦节点机架式服务器:

4台(cpu:

2*6core2.6GHZ,mem:

4*146G10kSAS2.5’,2*4GHBA,1*1G以太网卡)

3)管理节点机架式服务器:

2台博科300E光迁交换机(24口);

2台CISCO3560G-24TS-S以太网交换机

2.2.3扩展性分析

该方案重点为满足当前需求,若短期内DEPA需求没有发生质的增长,可通过追加X4140瘦节点,扩充X4600内存的方式来扩展系统性能。

如未来需求发生质的变化,方案一,建议保存该系统以完成中等规模的运算;

扩充新的基于Infiniband或者10Gb以太网的集群。

方案二,将X4600独立为单纯SMP架构运算,同时扩充基于Infiniband或者10Gb以太网的刀片或机架式瘦节点。

2台X4140做HA充当新集群的主节点,内存适度扩充,2台X4140充当I/O节点,管理节点X4140作用不变。

对投资进行最大限度保护。

方案三,基于现有集群,建立10Gb以太网集群。

即增加10Gb以太网三层交换机,X4600增加万兆以太网卡并以万兆带宽接入集群(可能的情况下增加一台X4600,做HA),存储同样以万兆带宽接入集群。

同时,在三层交换机上切分VLAN,将现有二层交换机上行接入相应的VLAN,下行和X4140相连。

根据运算规模,适度扩展二层交换机数目和X4140数目,扩展集群规模。

做到每个子节点到存储和主节点的带宽保证1Gb,而集群内部总带宽达到10Gb。

2.2.4软件配置

1)操作系统:

操作系统采用商业Linux企业版,Redhat,单机支持≧4个物理CPU,支持多核结构,要求该操作系统得到运算软件的官方认证。

2)集群部署和分发工具:

提供操作系统部署工具,支持Package,Diskless,Image主流分发方式,基于SUN硬件的SUNn1systemmanager(免费)和OPScenter可提供该功能。

3)集群系统管理软件:

提供集群管理软件,管理员可以随时监控每个节点的健康状况、CPU使用率、内存使用率,提供图形化管理功能。

可以实现远程开机、关机、重启等操作。

基于SUN硬件的SUNn1systemmanager(免费)和OPScenter可提供该功能。

4)作业调度软件:

提供作业调度软件,可以根据需要设定作业优先等级,提供图形化管理功能;

SUNGridEngine6.2是一款免费软件,可以实现作业调度。

5)并行计算消息通讯库:

包含MPICH1/2,MVAPICH1/2,OpenMPI,支持IntelMPI,ATLAS,BLAS,BLACS,FFTW,SCALAPACK,GOTO等主流函数库;

默认为HPMPI。

6)编译工具(可选):

提供C、C++、Fortran编译器最新版,各种库函数和并行调试函数以及必要的核心数据库,支持IntelC++,IntelFortran编译器。

SUNStudio12免费提供以上功能,并且提供系统状态报表功能。

7)通过集成亮灯管理器(无需额外费用)允许本地或远程管理和监控服务器。

该管理器通过其管理、监视和控制等功能大大降低了数据中心管理的复杂性;

SUNX86服务器的ILOM可实现该功能。

2.3.1I/O节点的作用分析

I/O节点主要作用是存储管理所有数据的元数据(METADATA)信息,供客户端向并行文件系统查询数据时调用,在得到了元数据后才能根据元数据的指向从指定的I/O节点获取真实数据信息。

同时从结构上来说,I/O节点把后端多台SAN网络中的存储阵列空间组合成一个LUN分配给前端的单个计算节点,并做为整个并行文件系统的并行管理服务端。

使用并行文件系统的前提条件是分配给单个计算节点的单个存储空间(LUN)在性能要求上极端的高,使得来自单台存储阵列上所能提供的单个LUN在跨越最大硬盘数量的情况下,所提供的磁盘I/O能力都无法满足。

则该LUN必须通过跨越多台存储阵列的更多硬盘后才能满足I/O性能的需求。

这个时候,并行文件系统将会通过I/O节点把后端多台SAN网络中的存储阵列空间组合成一个LUN分配给单个计算节点。

这种情况的出现应该是在使用单台高性能小型机或者大型机的时候,而不是采用刀片或机架式服务器集群的并行计算的架构中。

采用多个计算节点进行并行计算架构的出发点就是通过多个独立的计算节点的叠加以此来达到高性能计算的目的,这与使用单台高性能小型机或者大型机的方法所完全不同。

而在将来,如果需要增加计算节点的时候,存储空间完全可以从现有阵列中获得LUN,或者部署新的存储阵列后分配LUN。

这样存储的性能也是随着刀片主机的增加而增加。

省去了并行文件系统部署的投资和管理上的复杂度。

在很多采用了并行文件系统的案例来看,客户端(计算节点)跟I/O节点之间的链接必须采用性能更高的infiniband才能体现出性能超过FCSAN的优势。

2.3.2I/O节点的必要性分析

使用并行文件系统的优势在于,跨越多台存储硬件之上的数据文件共享访问,和集群化的文件系统。

在本次项目中,不存在此前提条件。

最后,并行文件系统的最终存储空间也还是来自SAN的磁盘阵列,因此整个文件系统的性能高低还是要依赖由于SAN磁盘阵列的硬盘IO能力。

这样如果只有1台SAN存储阵列的话,用不用并行文件系统已经没有很大差别了。

而IO节点却容易形成新的性能和安全瓶颈。

综上所述,CAE项目一期需求不需要I/O节点。

2.3.3三款CAE软件对并行文件系统的需求

MSCNastran和Abaqus软件刀片主机在整个计算过程中,并没有需要同时读写一个数据文件或者交叉共享文件的行为。

因此对于存储结构上的需求为每个刀片主机拥有独享磁盘空间即可。

而从技术结构上来说,即使是刀片主机内置的磁盘也可以使用。

但是考虑到刀片主机内置的磁盘数量有限(通常只有1-2个),所以内置磁盘所能提供的容量和性能(磁盘系统的整体性能最终还是要依赖于单颗磁盘的IO处理能力来体现,单颗硬盘上的缓存只有最大32MB)明显是无法满足刀片计算只用的。

所以只有采用FC光纤磁盘阵列和SAN存储网络来提供大容量(TB级别以上)和高性能(每个刀片所获得的LUN空间是跨越在几十硬盘之上的)的存储空间才能满足。

对于Radioss软件来说,刀片主机在整个计算过程中,需要使用共享的存储空间才能实现并行计算,而在LIUNX和UNIX环境中,最普遍、技术最成熟、最标准化的就是NFS文件共享了。

而Radioss软件成功案例中很多都是采用NFS来部署共享存储空间的。

最终来看,CAE的存储需要一台能同时提供FCSAN和NFS功能的存储系统即可。

在性能上能够满足一定量的刀片主机进行同时工作,形成一个系统组合单元,将来需要扩展的时候,只要以这个组合为单元进行扩展即可。

3.1刀片和机架优缺点分析

刀片式服务器与机架式服务器应用比较:

优势

劣式

机架式

服务器

1、灵活、更好的配置选择能力,有2、4、8路不同性能和档次服务器可选择

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 表格模板 > 合同协议

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1