HPC高性能集群平台实施规范.docx

上传人:b****9 文档编号:25072380 上传时间:2023-06-04 格式:DOCX 页数:15 大小:128.43KB
下载 相关 举报
HPC高性能集群平台实施规范.docx_第1页
第1页 / 共15页
HPC高性能集群平台实施规范.docx_第2页
第2页 / 共15页
HPC高性能集群平台实施规范.docx_第3页
第3页 / 共15页
HPC高性能集群平台实施规范.docx_第4页
第4页 / 共15页
HPC高性能集群平台实施规范.docx_第5页
第5页 / 共15页
点击查看更多>>
下载资源
资源描述

HPC高性能集群平台实施规范.docx

《HPC高性能集群平台实施规范.docx》由会员分享,可在线阅读,更多相关《HPC高性能集群平台实施规范.docx(15页珍藏版)》请在冰豆网上搜索。

HPC高性能集群平台实施规范.docx

HPC高性能集群平台实施规范

高性能集群平台实施规范

1.设备进场

设备进场前需要和用户确认《项目实施机房进场条件调查表》中的各项内容,上架布线需要以此作为参考。

若进场条件不符和要求,需反馈给相关人员及时解决。

2.上架布线

上架布线请按照《【hpc实施规划】方案实施项目实施规划》进行,以下简称实施规划。

设备上架需要充分考虑空间、承重、供电、散热、布线等多个方面的要求,尽量平衡各种制约因素。

(一)对于普通风冷机柜,基于散热及供电的需求,一般要求每个机柜的设备总功率不能超过15KW,且功耗与承重尽量平均分配。

(二)根据机房的布线情况,确认是上走线或者下走线,从而将交换机布置于机柜的顶部或底部。

(三)交换机应尽量位于机柜排的中间机柜中,从而缩减网络连接线缆的长度。

(四)控制台应该放置于自下而上19U左右高度,从而方便管理人员的管理。

上架布线完成后,需要采集机房环境的照片信息,包括设备摆放情况,布线情况,以及机房整体情况等,收集各个设备序列号并记录到《【hpc实施规划2016】方案实施项目实施规划》。

3.集群实施规范

3.1操作系统

3.1.1操作系统版本

二、

(一)考虑到高性能集群的兼容性和性能,建议对于IntelXeonE5-2600v3/v4系列及以下CPU系列,如无特殊软硬件兼容性需求,统一采用CentOS6.6或CentOS7.2版本,并选择软件包完全安装。

(二)对于使用Multi-Host或IntelOPA网络的集群操作系统必须安装CentOS/RHEL7.2。

3.1.2系统磁盘分区

如无特殊需求,针对系统磁盘空间建议采用以下分区:

/boot500MB

/swap64GB

/剩余空间

3.1.3系统批量安装工具

操作系统的安装建议使用HPCInstaller软件进行操作系统的批量部署,详见HPCInstaller软件使用手册。

3.1.4系统配置

3.1.4.1主机名规范

高性能集群由于节点数量众多,需要对节点按照一定的规则编号命名,命名一般为“前缀+编号”,高性能集群前缀定义原则如下:

计算节点前缀:

comput

管理节点前缀:

admin

登录节点前缀:

login

Parastor文件系统

opara节点前缀:

opara

ostor节点前缀:

ostor

其余文件系统

存储节点前缀:

io

编号从1开始,为了方便管理和记忆,编号应按照如下原则:

三、

(一)原则1:

同类相邻

同一种类型节点(硬件、操作系统,用途等)应该是连续的编号

(二)原则2:

从多到少

按用途:

计算节点、IO节点、管理节点、登录节点

计算节点内部:

刀片最多,GPU节点其次,胖节点最少

(三)原则3:

从高到低

高端到低端:

八路、四路、双路

内存容量:

128G、64G、32G

高度越高:

5U、4U、2U、1U

以上原则冲突时,优先级:

原则1>原则2>原则3

举例:

CX50-G20刀片计算节点:

64台

GPU计算节点:

8台

I980八路胖节点:

2台

I840四路胖节点:

2台

I620IO节点:

4台

I620管理节点:

2台

I620登录节点:

2台

整个集群节点编号顺序为

comput1-comput64刀片CX50-G20

comput65-comput72GPU节点

comput73-comput74I980

comput75-comput76I840

io1-io4IO节点I620

admin1-admin2管理节点I620

login1-login2登录节点I620

3.1.4.2集群IP地址规范

四、

(一)管理网络

管理网络IP地址和主机名规范为:

IP地址

子网掩码

主机名前缀

主机名别名前缀

10.10.10.x

255.255.0.0

comput、admin、login

node

(二)IPMI远程管理网络

IPMI网络IP地址和主机名规范为:

IP地址

子网掩码

主机名前缀

主机名别名前缀

10.10.20.x

255.255.0.0

mcomput、madmin、mlogin

mnode

刀箱管理模块IP地址和主机名规范为:

IP地址

子网掩码

主机名前缀

10.10.30.x

255.255.0.0

mblade

(三)InfiniBand网络(如果有,配置为高速计算网络)

InfiniBand网络IPoIB地址和主机名规范为:

IP地址

子网掩码

主机名前缀

主机名别名前缀

12.12.12.x

255.255.255.0

icomput、iadmin、ilogin

inode

注:

如有其它网络可按照实际需求进行配置

3.1.4.3系统/etc/hosts文件规范

/etc/hosts文件用于储存计算机网络中各节点信息,其中应该完整包含集群的主机名与IP地址映射,clusconf等部分软件的功能依赖此文件,规范如下:

(一)第一行为:

127.0.0.1localhost

(二)/etc/hosts文件中不要写入不存在的节点

(三)/etc/hosts文件第一列为IP地址,第二列为主机名,第三列为别名,IP地址与主机名一一对应,书写规范参考3.1.4.1与3.1.4.2

(五)每一类网络第一行需要明确进行注释,增强文件可读性

(六)并行文件系统也需要在文件中写明,对于Parastor心跳网络可以通过注释的方式表示

范例如下:

127.0.0.1localhost

##ManagementEthernetNetwork##

10.10.10.1comput1node1

10.10.10.10comput10node10

10.10.10.11io1node11

10.10.10.12io2node12

10.10.10.13admin1node13

10.10.10.14admin2node14

10.10.10.15login1node15

10.10.10.16login2node16

##Infinibandnetwork##

12.12.12.1icomput1inode1

……

12.12.12.10icomput10inode10

12.12.12.11iio1inode11

12.12.12.12iio2inode12

12.12.12.13iadmin1inode13

12.12.12.14iadmin2inode14

12.12.12.15ilogin1inode15

12.12.12.16ilogin2inode16

##MonitorEthernetNetwork##

10.10.20.1mcomput1mnode1

……

10.10.20.10mcomput10mnode10

10.10.20.11mio1mnode11

10.10.20.12mio2mnode12

10.10.20.13madmin1mnode13

10.10.20.14madmin2mnode14

10.10.20.15mlogin1mnode15

10.10.20.16mlogin2mnode16

10.10.30.1mblade1

##ParaStor300Network##

10.10.10.101opara1

10.10.10.102opara2

10.10.10.103ostor1

10.10.10.103ostor2

10.10.10.103ostor3

10.10.10.103ostor4

##heartbeat##

#88.88.88.1

#88.88.88.2

#99.99.99.1

#99.99.99.2

3.1.4.4ssh无密码访问

为所有用户配置ssh无密码访问并测试无密码登录正常,可使用clusconf工具完成配置并检测。

3.1.4.5集群用户管理NIS

使用NIS服务统一管理集群用户,一般采用管理节点作为NIS服务器,可使用clusconf工具完成配置。

3.1.4.6系统时间同步

使用NTP服务保持集群时钟同步,一般采用管理节点作为NTP服务器,可使用clusconf工具完成配置。

3.1.4.7其他相关服务配置

确保系统ulimit配置正确,可使用clusconf工具完成配置。

确保系统selinux服务关闭,可使用clusconf工具完成配置。

配置Rsyslog服务,将集群节点日志统一收集到管理节点的数据库。

配置Kdump服务,将内存转存储文件存放在/var/crash目录。

配置集群本地YUM源,将集群对应版本操作系统iso文件上传到/public/sourcecode目录然后挂载到/public/sourcecode/yum,将其配置为整个集群的YUM源

3.1.5共享路径配置规范

如无特殊要求,共享存储(并行文件系统或NFS)挂载路径均为/public

创建/public/sourcecode目录,作为软件安装包的存放目录

创建/public/software目录,作为软件的安装目录

创建/public/home目录,通过mount--bind/public/home/home将共享存储系统与/home绑定,作为集群用户的家目录的父目录

创建/public/backup目录,作为集群备份文件及系统镜像存放目录

创建/public/sourcecode/yum目录,作为集群本地yum源的路径

将自动挂载路径命令添加到系统自动启动脚本中(RHEL为/etc/rc.local,SLES为/etc/init.d/after.local,/etc/init.d/after.local文件如果不存在创建一个即可)

3.2集群安全规范

3.2.1系统密码强度规则

通过修改/etc/pam.d/system-auth模块限制集群用户密码强度。

密码强度建议:

长度不小于8位,包含英文大写字母、小写字母、数字、特殊字符。

3.2.2禁止普通用户直接登录计算节点

通过配置/etc/security/access.conf,并在/etc/pam.d/sshd中启用pam_access.so验证,禁止普通用户直接登录计算节点。

3.2.3禁止root用户ssh直接登录(针对直接通过外网访问的节点)

通过修改ssh配置文件/etc/ssh/sshd_config,禁止root用户直接登录。

3.2.4防止暴力破解fail2ban(针对直接通过外网访问的节点)

通过配置fail2ban(需单独下载)防止暴力破解攻击,建议策略如下:

允许重试次数:

5次

检测时间频率:

10分钟

禁止时长:

24小时

3.3软件安装

一般集群软件可分为三大类:

基础软件:

IB驱动、编译器、文件系统、MPI、常用数学库与集群管理调度等

测试软件:

CPU计算性能、内存带宽、存储性能、网络性能等

应用软件:

各类科学计算常用软件,如vasp、wrf、fluent等

注:

规范中仅列出大部分常规软件及推荐版本,如有特殊需求可自行归类并按要求进行安装

3.3.1基础软件安装规范

分类

软件名

推荐版本

安装路径

备注

管理调度

软件

Gridview

3.2.0

4.0

/opt/gridview

----

IB驱动

OFED驱动

MLNX_OFED

操作系统对应版本

/usr

手动安装

OPA

OPA驱动

IntelOPA-Basic

操作系统对应版本

计算节点

手动安装

IntelOPA-IFS

操作系统对应版本

管理节点

手动安装

文件系统

lustre

2.7.0

/usr

编译安装

ParaStor

2.1.1

ParaStor默认安装路径

手动安装

编译器

GNU编译器

操作系统对应版本

/usr/bin

操作系统自带

Intel编译器

15.2.164

/public/software/compiler/intel/composer_xe_2015.2.164

Clussof

自动安装

数学库

MKL

11.0

/public/software/compiler/intel/composer_xe_2015.2.164/mkl

Clussof

自动安装

fftw2

-float

2.1.5

/public/software/mathlib/fftw/2.1.5/float

Clussof

自动安装

fftw2

-double

2.1.5

/public/software/mathlib/fftw/2.1.5/double

Clussof

自动安装

fftw3

-float

3.3.4

/public/software/mathlib/fftw/3.3.4/float

Clussof

自动安装

fftw3

-double

3.3.4

/public/software/mathlib/fftw/3.3.4/double

Clussof

自动安装

lapack

-gnu

3.4.2

/public/software/mathlib/lapack/3.4.2/gnu

Clussof

自动安装

lapack

-intel

3.4.2

/public/software/mathlib/lapack/3.4.2/intel

Clussof

自动安装

MPI

penmpi

-gnu

1.6.5

/public/software/mpi/openmpi/1.6.5/gnu

Clussof

自动安装

penmpi

-intel

1.6.5

/public/software/mpi/openmpi/1.6.5/intel

Clussof

自动安装

注:

1Gridview安装请参照对应版本的《Gridview安装手册》

2IB驱动下载地址

3IntelOPA驱动下载地址

④其余软件安装可参考《clussoft使用手册》

3.3.2测试软件安装规范

分类

软件名

推荐版本

安装路径

备注

测试软件

hpl-intel

2.2

/public/software/benchmark/hpl/2.2/intel

Clussoft

自动安装

hpcc-intel

1.4.3

/public/software/benchmark/hpcc/1.4.3/intel

Clussoft

自动安装

imb

3.2.4

/public/software/benchmark/imb/3.2.4

Clussoft

自动安装

mpigraph

1.4

/public/software/benchmark/mpigraph/1.4/intel

Clussoft

自动安装

stream

5.10

/public/software/benchmark/stream/5/10/intel

Clussoft

自动安装

iozone

3.420

/public/software/benchmark/iozone/3.420

Clussoft

自动安装

lmbench

3

/public/software/benchmark/lmbench/3

Clussoft

自动安装

clusbench

1.3

/public/software/benchmark/clusbench/1.3

Clussoft

自动安装

appbench

1.0

/public/software/benchmark/appbench/1.0

Clussoft

自动安装

3.3.3应用软件安装规范

(一)应用软件默认安装路径为/public/software,并根据软件类别分别建立该应用软件路径,以vasp为例。

建立路径/public/software/vasp///

拷贝编译好的二进制文件到/public/software/vasp///路径下。

并在该目录留有作业提交脚本的示例文件。

(二)建立测试用户test,切换至用户test,运行应用程序的测试算例,以vasp为例。

建立路径vasp-test,并将测试算例拷贝到此路径

手动正确运行该应用程序。

将运行的命令写入run.sh中,教会用户如何正确手动运行。

(三)使用作业调度系统正确运行应用程序,以vasp为例。

在vasp-test路径下正确建立测试脚本vasp.pbs

提交测试脚本qsubvasp.pbs,并正确运行。

教会用户如何正确提交脚本。

3.4系统备份

3.4.1备份系统配置文件

将共享存储的软件安装信息备份至管理节点/opt/backup目录,参考命令clusbak–sv

将各个节点/etc与/opt备份至共享存储/public/backup目录,参考命令clusbak–lc

3.4.2制作系统镜像文件

使用再生龙(Clonezilla)对集群各功能节点(登录节点、管理节点、计算节点)分别制作一个系统镜像,并存放到/public/backup目录下

1集群测试

linpack:

单机与集群整体计算性能

stream:

每个计算节点内存带宽

hpcc:

集群性能测试,包括计算性能、内存访问、网络传输等

IMB:

InfinBand网络带宽

iozone:

存储单节点IO带宽与整体聚合带宽

fio:

存储IO带宽与IOPS

注:

每个测试的参数需要根据不同的环境进行配置,其中iozone与fio可二选一

文档交付

集群实施完成后,应补充并完善文档,以便交付用户使用、项目验收与项目备案,方便后续工作的交接。

应提交的文档内容包括但不限于:

项目实施方案(内容包括:

实施规划、实施方案、调试报告、调试记录)

集群测试文档(内容包括:

计算性能、内存性能、网络带宽、存储性能测试报告)

用户手册(内容包括:

管理员手册、普通用户使用手册、产品用户手册)

验收手册(内容包括:

验收报告)全文完

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > 计算机硬件及网络

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1