HPC高性能计算项目Linpack性能测试报告.docx

资源描述

HPC高性能计算项目Linpack性能测试报告.docx

《HPC高性能计算项目Linpack性能测试报告.docx》由会员分享，可在线阅读，更多相关《HPC高性能计算项目Linpack性能测试报告.docx（33页珍藏版）》请在冰豆网上搜索。

HPC高性能计算项目Linpack性能测试报告.docx

HPC高性能计算项目Linpack性能测试报告

HPC高性能计算项目

Linpack性能测试报告

1Linpack简介

Linpack是国际上最流行的用于测试高性能计算机系统浮点性能的benchmark。

通过对高性能计算机采用高斯消元法求解一元N次稠密线性代数方程组的测试，评价高性能计算机的浮点性能。

Linpack测试包括三类，Linpack100、Linpack1000和HPL。

Linpack100求解规模为100阶的稠密线性代数方程组，它只允许采用编译优化选项进行优化，不得更改代码，甚至代码中的注释也不得修改。

Linpack1000要求求解1000阶的线性代数方程组，达到指定的精度要求，可以在不改变计算量的前提下做算法和代码上做优化。

HPL即HighPerformanceLinpack，也叫高度并行计算基准测试，它对数组大小N没有限制，求解问题的规模可以改变，除基本算法（计算量）不可改变外，可以采用其它任何优化方法。

前两种测试运行规模较小，已不是很适合现代计算机的发展。

HPL是针对现代并行计算机提出的测试方式。

用户在不修改任意测试程序的基础上，可以调节问题规模大小（矩阵大小）、使用CPU数目、使用各种优化方法等等来执行该测试程序，以获取最佳的性能。

HPL采用高斯消元法求解线性方程组。

求解问题规模为N时，浮点运算次数为（2/3*N^3－2*N^2）。

因此，只要给出问题规模N，测得系统计算时间T，峰值=计算量（2/3*N^3－2*N^2）/计算时间T，测试结果以浮点运算每秒（Flops）给出。

HPL测试结果是TOP500排名的重要依据。

衡量计算机性能的一个重要指标就是计算峰值或者浮点计算峰值，它是指计算机每秒钟能完成的浮点计算最大次数。

包括理论浮点峰值和实测浮点峰值。

理论浮点峰值是该计算机理论上能达到的每秒钟能完成浮点计算最大次数，它主要是由CPU的主频决定的。

理论浮点峰值＝CPU主频×CPU每个时钟周期执行浮点运算的次数×系统中CPU数。

2HPC集群测试环境

测试集群为某项目部署的60个刀片计算节点，主机名为comput1到comput60，集群内部管理网IP地址为192.168.172.1-60，集群计算网IP地址为12.12.12.1-60，详情请参考各节点的/etc/hosts文件。

登录方式为，从集群管理节点login登录，可ssh到各计算节点。

集群软硬件环境如下：

硬件环境

CPU

2*IntelXeonE5-2680v3（2.5GHz）12c

内存

8*8GBDDR4ECC

硬盘

双硬盘

网络

InfinibandFDR56Gbps

软件环境

CentOSrelease6.6（Final）

编译器

IntelCompilerXEVersion15.0Build20150121

MPI

OpenMPI-1.8.5

HPL

2.1

单节点Linpack双精度浮点计算理论峰值计算数值为：

2.5（主频GHz）*16（每时钟周期运算次数）*24（核心/节点）=960GFlops

集群整机Linpack双精度浮点计算理论峰值计算数值为：

2.5（主频GHz）*16（每时钟周期运算次数）*24（核心/节点）*60（节点数量）=576000GFlops=576TFlops

3单机Linpack测试

测试方案

2.1.1测试对象：

HPC集群所有60个刀片计算节点

2.1.2测试目标：

1.检验所有节点是否能正常运行、是否存在软硬件异常；

2.检验各刀片计算节点的计算效率是否正常；

3.检验各刀片计算节点在长时间持续高负载运行时，性能是否正常且稳定；

4.检验各刀片计算节点在长时间持续高负载运行时，温度和散热否正常；

5.检验各刀片计算节点在长时间持续高负载运行时，供电是否正常稳定；

2.1.3测试步骤：

1）进行测试之前，需要确保整个集群环境正常。

所有节点正常，且无负载，调试好Infiniband网络，确保风扇正常、CPU温度无异常，确保测试相关的环境变量已导入，无异常进程和服务。

2）随机选取任一计算节点，通过不断调整和优化相关测试参数，测得单机Linpack效率较高时的运行参数。

3）使用在2）中获取的运行参数，同时对各节点进行单机Linpack测试。

4）建立测试目录，将输入文件HPL.dat和测试程序xhpl拷到本目录下，手动运行单机Linpack测试命令：

nohupmpirun-np24/public/software/benchmark/hpl/2.1/intel/xhpl.Linux_Intel64>&`hostname`_single.log&

测试结果

单机（NB=168）

主机名

节点数

CPU核心数

理论峰值（Gflops）

实测峰值（Gflops）

效率

node1

960

6.82E+02

71.0%

79897

168

node2

960

7.18E+02

74.8%

79897

168

node3

960

7.10E+02

74.0%

79897

168

node4

960

6.98E+02

72.7%

79897

168

node5

960

6.78E+02

70.6%

79897

168

node6

960

6.88E+02

71.7%

79897

168

node7

960

6.74E+02

70.2%

79897

168

node8

960

6.88E+02

71.7%

79897

168

node9

960

6.79E+02

70.7%

79897

168

node10

960

6.97E+02

72.6%

79897

168

node11

960

6.98E+02

72.7%

79897

168

node12

960

6.96E+02

72.5%

79897

168

node13

960

6.88E+02

71.6%

79897

168

node14

960

7.27E+02

75.8%

79897

168

node15

960

6.83E+02

71.1%

79897

168

node16

960

6.88E+02

71.6%

79897

168

node17

960

6.85E+02

71.4%

79897

168

node18

960

6.86E+02

71.4%

79897

168

node19

960

7.19E+02

74.9%

79897

168

node20

960

6.82E+02

71.0%

79897

168

node21

960

6.84E+02

71.3%

79897

168

node22

960

7.10E+02

74.0%

79897

168

node23

960

6.85E+02

71.4%

79897

168

node24

960

6.83E+02

71.2%

79897

168

node25

960

7.16E+02

74.6%

79897

168

node26

960

6.86E+02

71.4%

79897

168

node27

960

7.19E+02

74.9%

79897

168

node28

960

6.87E+02

71.6%

79897

168

node29

960

6.92E+02

72.0%

79897

168

node30

960

6.82E+02

71.0%

79897

168

node31

960

6.89E+02

71.8%

79897

168

node32

960

6.83E+02

71.2%

79897

168

node33

960

7.18E+02

74.8%

79897

168

node34

960

6.88E+02

71.6%

79897

168

node35

960

6.82E+02

71.0%

79897

168

node36

960

7.18E+02

74.8%

79897

168

node37

960

7.10E+02

73.9%

79897

168

node38

960

6.93E+02

72.2%

79897

168

node39

960

7.18E+02

74.8%

79897

168

node40

960

7.18E+02

74.8%

79897

168

node41

960

7.15E+02

74.5%

79897

168

node42

960

6.88E+02

71.7%

79897

168

node43

960

6.98E+02

72.7%

79897

168

node44

960

7.27E+02

75.7%

79897

168

node45

960

7.22E+02

75.2%

79897

168

node46

960

6.85E+02

71.3%

79897

168

node47

960

7.02E+02

73.1%

79897

168

node48

960

6.84E+02

71.3%

79897

168

node49

960

6.89E+02

71.8%

79897

168

node50

960

6.96E+02

72.5%

79897

168

node51

960

6.86E+02

71.4%

79897

168

node52

960

7.07E+02

73.7%

79897

168

node53

960

7.15E+02

74.5%

79897

168

node54

960

6.91E+02

72.0%

79897

168

node55

960

7.18E+02

74.8%

79897

168

node56

960

7.06E+02

73.5%

79897

168

node57

960

6.75E+02

70.5%

79897

168

node58

960

6.87E+02

71.5%

79897

168

node59

960

7.19E+02

74.9%

79897

168

node60

960

6.93E+02

72.2%

79897

168

均值

72.7%

结果分析

如上表所示，实测单机Linpack效率最高为75.8%，最低为70.2%，60个计算节点的单机效率平均值是72.7%（NB=168）。

各节点运行效率正常，且表现稳定。

4整机Linpack测试

测试方案

3.1.1测试对象：

HPC集群所有60个正常的节点

3.1.2测试目标：

1.检验所有节点是否能正常运行、是否存在软硬件异常；

2.检验并行环境及计算网络的状态是否正常；

3.检验集群计算效率是否正常；

4.检验集群在长时间持续高负载运行时，性能是否正常且稳定；

5.检验集群在长时间持续高负载运行时，温度和散热否正常；

6.检验集群在长时间持续高负载运行时，供电是否能正常；

3.1.3测试步骤：

1）.进行测试之前，需要确保整个集群环境正常。

所有节点正常，且无负载，调试好Infiniband网络，确保风扇正常，CPU温度无异常，确保测试相关的环境变量已导入，无异常进程和服务。

2）.通过不断调整和优化相关测试参数，测得整机Linpack效率较高时的运行参数和结果数据。

3）根据2）参数进行24小时压力测试。

4）建立测试目录，将输入文件HPL.dat和测试程序xhpl拷到本目录下，手动运行整机Linpack测试命令：

nohupmpirun-np1440-machinefilenodelist/public/software/benchmark/hpl/2.1/intel/xhpl.Linux_Intel64>&total_nodes.log&

测试结果

60节点整机Linpcack

节点数

CPU核心数

理论峰值（Gflops）

实测峰值（Gflops）

效率

1440

57600

4.122e+03

71.50%

622119

168

1440

57600

4.159e+03

72.27%

622119

168

1440

57600

4.019e+03

69.77%

622119

168

1440

57600

4.141e+03

71.89%

622119

168

结果分析

60节点的整机Linpack效率为72.3%，计算性能表现稳定良好，测试期间，集群整体运行状态正常稳定，电源、风扇及功耗等硬件监控情况稳定无异常。

5附录

HPL.dat修改说明

HPL输入文件内容如下，一般需要调整三部分参数进行优化测试：

1）问题规模的个数及大小，可设置为多组，N=1表示一组，需要一个Ns值。

问题规模计算方法为sqrt（总内存*1024*1024*1024/8）*80%

1#ofproblemssizes（N）

40000Ns

2）NB值，即分块大小，取经验值，一般设置168、192、232、1024

3#ofNBs

1922321024NBs

3）P和Q的设置（进程数目的设置），P和Q设置一般为1组，原则为：

P*Q=进程数

P≤Q且P和Q尽量接近

例如16进程，P=Q=4，如32进程，P=4，Q=8

1#ofprocessgrids（P×Q）

4Ps

4Qs

修改好的HPL.dat示例（红色为修改项）：

HPLinpackbenchmarkinputfile

InnovativeComputingLaboratory,UniversityofTennessee

HPL.outoutputfilename（ifany）

6deviceout（6=stdout,7=stderr,file）

1#ofproblemssizes（N）

79897#=sqrt（总内存*1024*1024*1024/8）*80%Ns

1#ofNBs

168192#NBs

0PMAPprocessmapping（0=Row-,1=Column-major）

1*#ofprocessgrids（PxQ）

4Ps

6Qs

16.0threshold

1#ofpanelfact

012PFACTs（0=left,1=Crout,2=Right）

1#ofrecursivestoppingcriterium

24NBMINs（>=1）

1#ofpanelsinrecursion

2NDIVs

1#ofrecursivepanelfact.

012RFACTs（0=left,1=Crout,2=Right）

1#ofbroadcast

0BCASTs（0=1rg,1=1rM,2=2rg,3=2rM,4=Lng,5=LnM）

1#oflookaheaddepth

0DEPTHs（>=0）

2SWAP（0=bin-exch,1=long,2=mix）

64swappingthreshold

0L1in（0=transposed,1=no-transposed）form

0Uin（0=transposed,1=no-transposed）form

1Equilibration（0=no,1=yes）

8memoryalignmentindouble（>0）

附录1单机测试原始输入文件

HPLinpackbenchmarkinputfile

InnovativeComputingLaboratory,UniversityofTennessee

HPL.outoutputfilename（ifany）

6deviceout（6=stdout,7=stderr,file）

1#ofproblemssizes（N）

798971088001081601075201062401049601130240Ns

2#ofNBs

168192448384NBs

0PMAPprocessmapping（0=Row-,1=Column-major）

1#ofprocessgrids（PxQ）

414Ps

641Qs

16.0threshold

1#ofpanelfact

012PFACTs（0=left,1=Crout,2=Right）

2#ofrecursivestoppingcriterium

24NBMINs（>=1）

1#ofpanelsinrecursion

2NDIVs

3#ofrecursivepanelfact.

012RFACTs（0=left,1=Crout,2=Right）

1#ofbroadcast

0BCASTs（0=1rg,1=1rM,2=2rg,3=2rM,4=Lng,5=LnM）

1#oflookaheaddepth

0DEPTHs（>=0）

2SWAP（0=bin-exch,1=long,2=mix）

64swappingthreshold

0L1in（0=transposed,1=no-transposed）form

0Uin（0=transposed,1=no-transposed）form

1Equilibration（0=no,1=yes）

8memoryalignmentindouble（>0）

附录2单机测试输出文件

随机选取一个计算节点输出，本报告以comput57节点为例的单机测试的原始输出文件：

================================================================================

HPLinpack2.1--High-PerformanceLinpackbenchmark--October26,2012

WrittenbyA.PetitetandR.ClintWhaley,InnovativeComputingLaboratory,UTK

ModifiedbyPiotrLuszczek,InnovativeComputingLaboratory,UTK

ModifiedbyJulienLangou,UniversityofColoradoDenver

================================================================================

Anexplanationoftheinput/outputparametersfollows:

T/V:

Walltime/encodedvariant.

TheorderofthecoefficientmatrixA.

NB:

Thepartitioningblockingfactor.

Thenumberofprocessrows.

Thenumberofprocesscolumns.

Time:

Timeinsecondstosolvethelinearsystem.

Gflops:

Rateofexecutionforsolvingthelinearsystem.

Thefollowingparametervalueswillbeused:

79897

NB:

192

PMAP:

Row-majorprocessmapping

PFACT:

Left

NBMIN:

NDIV:

RFACT:

Left

BCAST:

1ring

DEPTH:

SWAP:

Mix（threshold=64）

L1:

transposedform

展开阅读全文