计算机辅助工程高性能计算解决方案V10Word格式.docx

上传人:b****7 文档编号:22899983 上传时间:2023-02-05 格式:DOCX 页数:12 大小:168.75KB
下载 相关 举报
计算机辅助工程高性能计算解决方案V10Word格式.docx_第1页
第1页 / 共12页
计算机辅助工程高性能计算解决方案V10Word格式.docx_第2页
第2页 / 共12页
计算机辅助工程高性能计算解决方案V10Word格式.docx_第3页
第3页 / 共12页
计算机辅助工程高性能计算解决方案V10Word格式.docx_第4页
第4页 / 共12页
计算机辅助工程高性能计算解决方案V10Word格式.docx_第5页
第5页 / 共12页
点击查看更多>>
下载资源
资源描述

计算机辅助工程高性能计算解决方案V10Word格式.docx

《计算机辅助工程高性能计算解决方案V10Word格式.docx》由会员分享,可在线阅读,更多相关《计算机辅助工程高性能计算解决方案V10Word格式.docx(12页珍藏版)》请在冰豆网上搜索。

计算机辅助工程高性能计算解决方案V10Word格式.docx

不过,在如今,国内的制造业一方面有了自己的进步,另一方面,国外的知名企业也纷纷将自己的研发中心设置在了国内。

在开始阶段,在国内作的研发可能还更多的出于本地化需求,不过,相信在不久的以后,会有更多的分析和研发需求会在中国出现。

从设计产品的设计到研发到制造,整个环节都会在国内实现。

目前,在汽车领域,国内的CAE进展的比较早。

比如汽车的冲撞试验。

二、CAE应用软件的特点

  一般说来,CAE分析主要包括前处理、计算分析和后处理这3个过程。

前处理主要是建立问题的几何模型、进行网格划分、建立用于计算分析的数值模型、确定模型的边界条件和初始条件等;

计算分析是对所建立的数值模型进行求解,经常需要求解大型的线性方程组,这个过程是CAE分析中计算量最大、对硬件性能要求最高的部分;

后处理则是以图形化的方式对所得的计算结果进行检查和处理。

  CAE分析的一个重要特点是,主要采用国际上公认的大型商业软件进行分析和计算。

目前,大部分国际工业界认可的计算机辅助工程软件几乎被美国垄断。

比如ABAQUS、ANSYS、LS-DYNA、MSC.NASTRAN、PAM-CRASH等。

大型商业软件通常都有自己的前后处理模块。

此外也有一些通用的前、后处理软件,提供了对以上软件的接口,让用户只需要熟悉一个统一的操作界面,比如Hypermesh、MSC.PATRAN等。

  根据求解算法的不同,CAE分析软件总体上可以分为隐式和显式两类。

采用隐式算法的软件主要有ABAQUS/Standard、ANSYS、MSC.NASTRAN等,适合求解静力、模态、屈曲等问题;

采用显式算法的软件主要有ABAQUS/Explicit、LS-DYNA、PAM-CRASH等,适合求解接触、碰撞、冲击等问题。

  从对计算资源的需求来说,隐式解法的基本特点是内存占用多、磁盘IO大、进程通信量大,因此,隐式解法要求系统的内存容量大、访存带宽高、磁盘IO速度快、通信延迟低;

相对而言,显式解法对内存、磁盘IO和通信延迟的要求要低一些。

  从软件的扩展性上来说,隐式算法和显式算法有明显的区别。

采用隐式算法的软件,扩展性比较差,计算性能在8-16CPU以上就很难获得进一步的提升;

而采用显式算法的软件,扩展性就要好得多,在64-128CPU以内都能获得较好的并行性能。

  从并行技术的角度来说,隐式算法通常采用OpenMP或者Pthreads等共享内存的方式实现,而显式算法通常采用MPI或者PVM等消息传递方式实现。

采用共享内存方式的优点是实现容易,性能较高,但只能运行在SMP结构的服务器上;

而消息传递方式则可适用于SMP或者DMP结构的服务器上。

不过,随着集群计算的发展,SMP平台上的大多数算法也已移植到了DMP平台上,虽然并不完全。

比如ABAQUS/Standard的Direct求解器和Lanczos特征值求解器就只支持Threads模式,因此必须采用SMP平台才能实现并行计算。

显式算法和隐式算法的比较

隐式算法

显式算法

典型的软件

ABAQUS/Standard、ANSYS、MSC.NASTRAN

ABAQUS/Explicit、LS-DYNA、PAM-CRASH

求解的问题

静力、模态、屈曲等

接触、碰撞、冲击等

算法的特点

内存占用多、磁盘IO大、进程通信量大

相对而言,内存、IO和通信量要少一些

对硬件的要求

内存容量大、访存带宽高、磁盘IO速度快、通信延迟低

相对而言,系统硬件配置可低一些

算法的扩展性

8-16CPU

64-128CPU

三、CAE硬件平台的选择

  CAE硬件平台的选择对CAE项目的成功实施至关重要,它直接影响到CAE项目的运行、管理和维护。

对于用户来讲,往往是在软件选型已经完成之后,才开始考虑硬件选型。

因此在硬件平台的选择上,必须综合考虑不同应用软件的特点,才能确定最佳配置方案。

  并行体系结构的选择

  目前市场上的高性能服务器主要有共享内存的SMP和分布式内存的Cluster两种体系结构。

在共享内存的系统中,所有的处理器通过公用的总线可以使用一个共同的物理内存空间,因此,每个CPU和其他CPU共享所有内存。

常见的产品有SGI的Altix和Origin系列、HP的SuperDome系列等。

在分布式内存的系统中,每个计算节点拥有属于自己的内存,不能由其他计算节点使用。

节点之间由专用的高速通信网络连接,通过消息传递接口MPI进行通信。

常见的产品有曙光天潮系列、联想深腾系列等。

  采用共享内存的SMP架构的服务器,既可以支持OpenMP和Pthreads并行,也可以支持MPI和PVM并行,能够利用软件的所有并行功能。

但SMP系统的价格相对而言较高,而且对于主要采用隐式算法的软件而言,最多只能利用8-16颗CPU,因此配置CPU数更多的SMP服务器并没有太大的意义,反而会造成投资的浪费。

  分布式内存的Cluster系统是近年来迅速普及的一种高性能服务器体系。

集群是一组独立的计算机(节点)的集合体,节点间通过高性能的互连网络连接,可以协同工作并表现为一个单一的、集中的计算资源(单一系统映象)供并行计算任务使用。

构建这类服务器的成本比较低,具有良好的性价比和可扩放性。

集群作为当前高性能计算机的主流架构,在Top500中占据了75%以上的份额。

因此,当前主流的CAE软件都提供了对集群架构和MPI的支持。

当前市场上的集群系统大多是采用4-8路的SMP服务器作为计算节点,因此也支持OpenMP。

  处理器类型的选择

  处理器是CAE计算服务器的核心。

当前用于高性能计算的处理器大体上可分为RISC架构和CISC架构两种类型。

基于RISC架构的处理器主要有Power、MIPS、PA-RISC、SPARC等,基于CISC架构的处理器则有我们熟悉的Intel和AMD。

CISC处理器以其性价比优势成为高性能计算机中的主流CPU,在Top500中有75%以上的系统采用了CISC处理器。

  作为CAE计算服务器,对浮点运算性能要求较高,因此大多数服务器均采用了最新的双核处理器技术,包括Intel的Woodcrest5100系列和AMD的Opteron200/2000系列。

它们的对应关系如下:

Woodcrest和Opteron的对应关系

型号

主频

Woodcrest5160

3.0GHz

Opteron290

2.8GHz

Opteron2220

Woodcrest5150

2.66GHz

Opteron285

2.6GHz

Opteron2218

Woodcrest5140

2.33GHz

Opteron280

2.4GHz

Opteron2216

Woodcrest5130

2.0GHz

Opteron275

2.2GHz

Opteron2214

  应该说,Woodcrest的双总线架构和Opteron的直连架构,各有特色。

那么在CAE高性能计算中,那种架构性能更好呢?

我们来看一下Intel官方网站上对LS-Dyna和Fluent的测试数据。

(网址:

  Intel只提供了Woodcrest5160和Opteron275的测试数据,由于两者并不是同档次的CPU,不能直接比较。

考虑到主频的因素,可以推算出与Opteron275同档次的Woodcrest5130的性能。

Intel官方测试数据比较

CPU

LS-Dyna

2.52

1.68

1.98

Fluent

2.46

1.64

1.94

  上述测试数据表明,Opteron275的性能比Woodcrest5130要高17%以上。

  进行CAE高性能计算时,通常会采用4颗以上的处理器,因此CPU的扩展性也十分重要。

我们再来比较一下Woodcrest和Opteron的扩展性。

以下测试数据来自AMD。

  上述测试数据表明,4进程时,Woodcrest5160的浮点运算性能比Opteron2220要慢14%,Opteron2220浮点运算的并行效率也比Woodcrest5160高出20%。

  综上所述,对于CAE/CFD应用,由于Woodcrest处理器持续沿用已有20多年历史的前端总线架构,其实测性能和扩展性均不如同档次的Opteron处理器。

四、曙光CAE高性能计算解决方案

  当设计CAE高性能计算整体解决方案时,要充分考虑用户需求,比如资金预算、问题类型、分析规模、用户数量、软件License个数等,以此来确定最终的硬件选型。

  以隐式分析为主的解决方案

  常用的隐式有限元软件有ABAQUS/Standard、ANSYS、MSC.NASTRAN等。

根据隐式有限元分析要求内存容量大、磁盘IO快、通信延迟低的特点,推荐采用基于SMP架构的4路的曙光天阔A820r-F或A830r-F,对于预算充足的用户,可以采用8路的曙光天阔A950r-F。

  上述几款机型用于隐式有限元分析有以下优点:

  1)采用了最新的AMDOpteron&

#8482;

8000系列处理器,支持双核技术。

  隐式有限元分析对系统的浮点运算性能和内存带宽要求非常高。

在共享内存架构中,各处理器之间通过访问内存中的公共变量进行通信,内存存取延迟越小,则性能越高。

Opteron处理器内部则整合了内存控制器,CPU与内存之间的数据交换过程简化为“CPU--内存--CPU”三个步骤,与传统的基于北桥芯片的方案相比显然具有更低的数据延迟,这有助于提高计算机系统的整体性能。

  2)采用了先进的RegisteredECCDDRII内存,最大支持64GB~128GB内存。

  隐式解法内存占用较大。

以40万自由度为例,如果采用ANSYS的SPARSE求解器,大概需要6GB内存。

当物理内存不足的时候,ANSYS采用磁盘文件作为虚拟内存,但这样会大大降低性能。

配置较多的物理内存,则可将所有数据都放在内存中,ANSYS不需要进行磁盘文件交换就能完成整个求解过程,从而节约求解时间。

因此内存配置推荐至少1GB/Core,最好是2GB/Core。

  3)最多可以安装8块热插拔SCSI硬盘,可以通过RAID提高磁盘性能。

  进行隐式有限元分析,尤其是模态分析,会产生大量的临时文件,而且要反复读写磁盘,因此磁盘IO速度对于软件的计算性能也非常关键。

据统计,1个40万自由度的算例,计算过程中的磁盘IO量可达16.2GB。

通过多块磁盘的RAID,磁盘的IO速度可以成倍提高。

  4)进程之间的通信在节点内部完成,通信延迟在1μs以内。

  基于SMP架构的4/8路双核服务器,可以同时运行8-16个计算进程,正好是隐式有限元算法加速比最好的范围。

而且由于进程之间的通信在节点内部进行,通信带宽和延迟比采用外置交换机的集群要高出一个量级,因此能获得更好的运算性能。

  以显式分析为主的解决方案

  常用的显式有限元软件有ABAQUS/Explicit、LS-DYNA、PAM-CRASH等。

相比而言,显式有限元软件对系统硬件的要求略低一些,从性价比以及软件的扩展性出发,推荐采用由2路的曙光天阔A610r-F或A620r-F作为计算节点的曙光天潮4000A集群系统。

  采用集群系统进行显式有限元分析具有以下优点:

  1)采用集群系统,节点硬件配置可以略低一些,节省投资。

  集群节点采用Opteron2000系列处理器,系统内存的配置推荐1GB/Core,只需配置1块硬盘即可。

  2)采用集群系统,可以为用户提供更多的CPU资源。

  在同等价格的情况下,集群系统可以为用户提供更多的CPU资源。

可以同时满足多个用户、多个计算任务的需求。

同时集群的各个节点也可独立进行运算。

  3)采用集群系统,各个节点可以协同工作。

  集群系统的特点在于虽然各个节点的计算性能有限,但是多个节点可以通过高性能网络进行协同工作,共同完成大规模问题的求解。

目前主流的计算软件也都支持集群并行计算。

  4)采用集群系统,进行扩展非常方便。

  当需求增加时,通过增加节点数量,可以立即提升系统的整体运算能力,用户以前的投资不会浪费。

  在集群系统中,网络的性能直接影响整个系统的实际运算能力。

目前市场上主要有三种高性能计算网络:

千兆以太网、Myrinet和Infiniband。

应该根据用户的预算和系统规模进行选择。

24节点以下,一般推荐采用千兆以太网,性价比较好,而且所有计算软件都支持;

如果节点数在32节点以上,可以考虑带宽和延迟都更低的Myrinet和Infiniband,但同时必须考虑到用户是否购买了支持这两种网络的软件版本。

  兼顾隐式和显式分析的解决方案

  用户常常需要同时进行显式和隐式有限元分析,比如高校计算中心,因此在方案中需要兼顾两种不同应用模式。

我们需要在方案中综合SMP和DMP两种系统架构,因此推荐采用2路节点和4/8路节点共同组成的集群系统。

  该方案具有以下优势:

  1)兼顾隐式和显式两方面的应用需求。

  集群系统中的2路节点,主要用于显式分析,4/8路节点,主要用于隐式分析,这样两种节点搭配的方案可以充分满足不同应用软件的需求,达到较好的性价比。

  2)所有节点都是基于x86_64架构。

  集群系统中的所有节点,无论是2路的A610r-F,还是8路的A950r-F,都是基于x86_64架构,并且可以安装完全相同的操作系统和应用软件,避免了RISC架构带来的硬件平台、操作系统和应用软件不同带来的不一致性。

  3)所有节点可以协同工作。

  集群系统中的所有节点具有同样的软硬件结构,因此必要的时候,同样可以通过交换机实现协同工作,对大规模问题进行并行求解。

  解决方案小结

  CAE解决方案需要充分考虑应用软件的特性,考虑到隐式软件和显式软件的不同应用需求,可以制定不同的解决方案。

总结如下:

解决方案小结

问题类型

计算节点

处理器

内存

隐式分析为主

A820r-F/A830r-F/A950r-F

Opteron8000

1GB/Core以上

显式分析为主

A610r-F/A620r-F

Opteron2000

1GB/Core

兼顾显式和隐式分析

A820r-F/A830r-F/A950r-F

+A610r-F/A620r-F

Opteron8000/2000

1-2GB/Core

五、成功案例

  曙光在高性能计算以及CAE领域的发展已有多年,技术涉及结构分析、碰撞、流体分析、噪音/震动分析等领域,应用于汽车、轮船、飞机、桥梁、化工行业和医疗设备的设计环节。

  汽车的悬挂系统(1*A950,4500万自由度,线性静力分析,ANSYS11.0,DPCG求解器)

  柴油发动机的装配(1*A950,2750万自由度,热-结构耦合、非线性分析,ANSYS11.0,DPCG求解器)

  发动机汽缸盖的螺栓装配(4*A830r,525万自由度,非线性接触分析,ABAQUS/Standard6.5-3,IterativeDDM求解器)

  多个同心球壳受冲击后的碰撞(4*A610r,110万自由度,非线性碰撞分析,ABAQUS/Explicit6.5-3)

  汽车碰撞模拟(8*A820r,26万单元,非线性碰撞分析,LS-DYNAMPP970)

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > PPT模板 > 其它模板

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1