高性能计算专业系统设计专项方案.docx
《高性能计算专业系统设计专项方案.docx》由会员分享,可在线阅读,更多相关《高性能计算专业系统设计专项方案.docx(40页珍藏版)》请在冰豆网上搜索。
高性能计算专业系统设计专项方案
高性能计算系统
方案设计
第1章需求分析
1.1高性能计算和大规模数据解决应用
高性能计算作为一种先进科研手段,在国内应用发展不久,得到了普遍注重,近年来国家投入逐年加大。
高性能计算应用条件已经成熟,体当前:
◆价格相对低廉高性能机群系统为高性能计算应用提供了物质基本;
◆高性能计算应用技术门槛逐渐减少;
◆国家勉励有关单位做高性能计算研究,有关投入不断加大;
◆诸多高校科研人员使用高性能计算手段,获得了较好成果。
1.1.1计算机架构
由于各学科高性能计算应用软件种类繁多,各种软件应用特点也各不相似,对计算资源需求存在差别,方案设计需要充分考虑到实际应用特点。
作为高性能计算基本设施核心,当代高性能计算机发展从20世纪70年代向量计算机开始,也已有了30年发展历程。
先后浮现了向量机、多解决器并行向量机、MPP大规模并行解决机、SMP对称多解决机、DSM分布式共享存储计算机、Constellation星群系统、Cluster集群系统、混和系统等各种主体架构,并分别在不同步期占据着应用主流。
开放Cluster集群系统具备较多优势,已经占据了当前高性能计算机主流位置,在TOP500中占据了约80%份额,在中小规模高性能计算系统中更是占据统治地位。
1.1.2软件并行特点
按照应用程序与否为并行程序,可以分为如下几类:
◆串行程序
程序运营中只有一种进程或线程。
串行程序不能运用高性能计算机各种解决器并行特点,但可以同步运营程序各种任务或算例。
◆共享内存并行程序
程序运营中可以有各种进程或各种线程,可以使用各种解决器进行并行计算。
但这种并行程序不能在分布式内存机群系统上运营。
◆消息传递并行程序
消息传递式并行程序可以在所有架构计算机上运营,可以同步使用数目诸多解决器,以加速程序运营。
在高性能集群系统上,各种程序都可以运营,可以使用集群系统一种CPU,一种节点或各种节点。
1.1.3互连网络
高性能计算系统互连网络涉及计算网络,数据IO网络,管理监控网络等。
对于并行程序来说,进程之间通信量也有着明显差别。
对于进程间通信量较小程序来说,使用高性价比千兆以太网就可以满足需求。
对于通信密集型并行程序,各种进程之间数据互换频繁,对互连网络性能规定很高,规定具备较高带宽和很低延迟,千兆以太网就不能较好满足规定,需要使用高速网络,如Infiniband,其单向带宽达到20Gb,延迟不大于2微秒。
从TOP500排行榜中咱们可以看到,千兆以太网和Infiniband网成为高性能计算机网络互联主流,特别从性能份额上来说,Infiniband网更是占据了绝大某些份额,因此在国际主流较大系统中,Infiniband计算网逐渐成为主流。
高性能网络基本性能如下
咱们可以看到,对于千兆以太网,带宽达到112MB/s,延时非常高,达到47.57us。
而使用万兆以太网,虽然带宽和延时均有明显提高,但是与Infiniband网相比,还是有较大差距。
万兆以太网使用TCP/IP合同,带宽达到770MB,延时约为12us,使用IwarpRDMA合同,性能有一定提高,带宽达到1046MB/s,延时达到7.68us。
对于Infiniband网,DDR和QDR带宽有较大差距,但是延时比较接近,分别为1.6us和1.3us。
值得注意是,QDRIPoverIB性能有了大幅提高。
1.1.4操作系统
高性能计算操作系统由最初Unix操作系统为主,当前随着集群架构逐渐广泛和Linux操作系统逐渐成熟,Linux操作系统逐渐成为高性能计算机主流,占到80%以上市场份额。
为了使得集群系统有较好兼容性,可以配备各种操作系统,如Linux(Redhat,Suse),WindowsHPCserver等.
第2章系统方案设计
2.1方案总体设计
2.1.1系统配备表
序号
名称
技术规格
单位
数量
1
硬件某些
1.1
计算子系统
刀片平台
TC4600
原则19英寸5U机架式刀片机箱、可以支持14个计算刀片;
1*管理模块,集成远程KVM和远程虚拟媒体;
2*千兆网络互换模块,提供6个RJ45千兆接口;
4*冗余热插拔散热模块;
4*W电源(3+1冗余热拔插);
台
5
计算刀片
CB60-G15带FDR计算刀片
2*Intel Xeon E5-2660八核处器 (2.2GHz);
8*8GB DDR3 1333MHz;
1*300G2.5寸10000转SAS硬盘;
1*56Gb Infiniband 接口;
2*1000M以太网接口;
片
63
管理/登录节点
曙光I620r-G10
2U机架式;
2×Intel Xeon E5-2660八核处器 (2.2GHz);
8×4GB DDR3 1333MHz;
1×300G2.5寸10000转SAS硬盘;
1×56Gb Infiniband 接口;
2×1000M以太网接口;
1*冗余电源;
1*超薄DVD-RW;
1*上架导轨;
台
2
1.2
存储子系统
存储系统
曙光DS600-G10双控FC
3U,16盘位,双控制器,4个8Gb/sFC+8个1GbISCSI主机通道,双锂电池,2*2GBCache;冗余电源;含4个SFP(8Gb);Cache容量可升级为2*16GB;600G15000转6GbSAS硬盘*16块
套
1
1.3
网络子系统
计算网络
IB互换机
FDRInfiniband互换机,36端口
台
2
Infiniband线缆
MXMC2207310-00556GBQSFPFDR5MIB光缆
根
65
管理网络
千兆互换机
48端口互换机,10/100/1000baseT铜接口
台
2
防火墙
集群安全模块
TLFW-1000T龙芯防火墙标配6个千兆电口,1U机架。
并发连接数120万,吞吐量1G,支持SSLVPN隧道数300配合Nikey智能密钥*10:
曙光精心打造USBKey解决方案,内置8位国产安全芯片,自主开发COS。
硬件实现数字签名,私钥永不出Key。
台
1
1.4
机柜子系统
机柜系统
曙光天潮原则机柜
标配2个PDU、双侧门,无电源箱,无监控液晶触摸一体机
个
3
曙光天潮原则电源箱
380V无监控电源箱
个
1
监控系统
曙光智能机柜监控系统
支持四台机柜温湿度远程监控
套
1
曙光集群监控中心
监控液晶触摸一体机,含LCD、触摸屏、监控主机各1套,安装在机柜前面板门上
套
1
控制台
曙光集群控制台
1U手动伸缩控制台(曙光17”液晶显示屏、鼠标、键盘、8口切换器等)
套
1
视频切换系统
SKVM
SKVMIVOverIP(包括键盘鼠标)
台
1
CIM
KVM节点控制模块
个
7
2
软件某些
操作系统
Linux
SuSE Linux 公司版
套
1
集群管理系统
曙光GridView2.5
GridViewHPC版,支持系统布置、系统监控、集群管理、数据报表、统一告警、作业调度。
basicportal,包括serial和mpi,支持互动作业,作业故障自动切换重启,文献传播,查看修改文献操作。
套
65
GridviewClusQuota集群配额系统,可支持顾客机时配额管理,充值计费管理,顾客信用管理等功能。
(可选)
套
1
应用门户系统
曙光GridviewClusportal系统
包括Fluent软件作业调度
套
1
应用开发环境
编译器
GNU 编译器,支持C/C++ Fortran77/90
Intel编译器,支持C/C++Fortran
套
1
数学库
MKL,BLAS、LAPACK、ScaLAPACK、FFTW
套
1
MPI并行环境
OpenMPI(支持Infiniband和以太网MPI环境)
套
1
MPICH2(支持千兆以太网MPI环境)
套
1
2.1.2系统拓扑图
2.1.3系统方案阐明
◆计算系统CPU整体峰值性能达到17.7万亿次,可以扩展到500万亿次;
◆重要产品都采用了冗余设计(电源、电扇等),存储系统采用冗余设计,系统可靠性有较高保证;
◆系统功耗(不含空调制冷系统)不超过为,150千瓦,电费可按此核算;
◆曙光公司将为顾客提供完善服务,涉及安装调试、系统优化、顾客培训等,这些都不单独收费,顾客不必考虑这些方面费用;
◆曙光公司提供5年免费上门服务,极大减少了顾客运营维护费用;
◆曙光公司是领先专业高性能机算机及方案提供商,拥有较多成功案例,涉及百万亿次超级机算机成功案例,产品可靠性和稳定性得到了充分验证。
2.1.4需求相应分析
●先进性
本系统中,咱们使用刀片集群架构,为当前高性能发展先进趋势。
使用最新一代IntelE5-2600解决器,为当前性能最高X86解决器。
使用FDR网络,也为当前最为先进网络技术。
同步,系统中使用并行文献系统、自动功耗管理系统和HPC应用WEBpotal,均代表着HPC先进发展方向。
●高可靠、高可用需求
系统采用刀片服务器,冗余电源,双控制器存储系统、高档别RAID系统,以及核心节点HA双机,同步,高效管理监控系统也是保证系统高可靠、高可用保证。
●适合顾客应用软件需求
顾客应用软件众多,顾客众多,对计算需求大,系统共配备101TFLOPS计算能力。
针对某些应用对节点间网络需求高,配备了高带宽,低延时FDRInfiniband网。
带宽达到56Gbps,延时不大于1us。
同步,海量计算时IO并发读写量巨大,对存储容量和性能需求惊人,系统配备了并行存储系统,可以实现所有存储统一地址和并发读写。
●易使用需求
系统配备了HPCWEBPortal,可以有效减少顾客使用难度。
同步,针对系统和应用专业培训,也能提高使用人员使用水平。
针相应用软件安装调试也大大减少了顾客使用难度。
●可扩展性需求
集群架构可以保证计算系统良好扩展,同步,并行存储架构也实现对存储系统扩展。
●易管理维护需求
配备高效管理系统,支持监控、告警、管理、报表等多项功能,解决管理员后顾之忧,同步,对管理员培训和对系统运维支持,也能有效提高系统管理水平。
●节能环保需求
配备了刀片系统和高效节能系统,支持空载节点自动待机,可以有效减少能耗,协助顾客节约运维成本。
2.2计算系统
2.2.1刀片集群
系统共配备63个双路8核刀片服务器,主频2.2Ghz,双精度峰值接近17万亿次。
当前,开放集群(Cluster)系统具备较多优势,已经占据了当前高性能计算机主流位置,在TOP500中占据了80%以上份额,在中小规模高性能计算系统中更是占据统治地位。
刀片式集群系统在计算密度、功耗散热、运营成本、维护成本、可靠性等方面,都明显优于其他系统,且为系统扩容升级提供了良好基本,刀片系统优势重要体当前如下几种方面。
⏹计算密度更高
提高计算密度是刀片服务器发展重要动力之一。
对于大规模并行计算机来说,提高计算密度特别重要,刀片式集群系统有效提高了计算密度。
⏹机房规定减少
大规模高性能计算机将对机房空间提出较高规定,并且要为系统扩容升级留下空间。
刀片式集群系统实现了较高计算密度,并且有效减少了系统功耗,对系统空调等散热系统规定也相对减少。
⏹功耗散热减少
刀片服务器功耗部件较少。
刀片柜中电源将由各种刀片共享,因此会使用高效率电源,减小了系统功耗,同步产生热量减少,减少了冷却系统耗电量。
节能设计体当前曙光刀片服务器各个层