曙光集群用户使用手册.docx

资源描述

曙光集群用户使用手册.docx

《曙光集群用户使用手册.docx》由会员分享，可在线阅读，更多相关《曙光集群用户使用手册.docx（18页珍藏版）》请在冰豆网上搜索。

曙光集群用户使用手册.docx

曙光集群用户使用手册

1.登录和文件传输

登录方式为ssh，与telnet功能类似，推荐的登录工具为putty或者SecureShell

（

在地址栏输入本集群的登录地址（node1对应的局域网IP），点击“打开”，就会出现登录窗口，输入用户名、密码即可。

文件传输为sftp，与传统ftp类似，但其协议更安全可靠，推荐工具为filezilla。

（

输入登录地址222.222.21.29，输入用户名和密码，端口填22（本软件支持ftp，端口为21），点击快速连接，即可使用，操作办法与常用ftp工具类似。

2.图形窗口支持

Linux推荐使用vnc。

vnc可以将用户的操作状态保持在服务器端，即使断开连接也不会影响到正在进行的操作、计算等。

登录到linux服务器中，在命令行运行vncserver。

第一次运行时需要输入VNC登陆用的密码：

根据提示输入新的vnc密码。

此密码与用户登录密码无关，将在登录vnc时需要。

此处提示的node1:

2即为vnc成功打开的端口。

运行vncclient，输入登录服务器地址和端口号，点确定，输入前面设置的密码，即进入了图形窗口。

注意：

1、在第一次启动了vncserver之后，vnc的连接一直可用，全部图形窗口保持在Linux服务器上。

因此，只在每次服务器重新启动后运行一次vncserver即可，由于用户较多，请勿启动多个。

2、如果需要使用node2的图形界面，可执行ssh-Xnode2。

3.作业提交

3.1.Fluent

3.1.1.图形方式运行

首先通过VNC登陆到图形界面，如果没有Terminal的话在桌面点击左键选择Xterm，输入以下命令即可运行：

此处myhosts为用户指定的host文件，内容如下所示：

node1

node2

-t8即指定8个核心参与计算，分别为node1上的4个核心和node2上的4个核心。

在图形界面下导入cas和data文件，修改和设置边界条件等并计算（和在windows下操作单机版Fluent相同，略）：

注：

通过VNC使用图形界面方式运行fluent时，无需保持PC机与服务器的连接，只要vncserver没有重新启动，即可随时连接到原有的窗口。

3.1.2.命令行方式运行

建立script1文件：

script1内容如下：

（注：

其中fl5m1.cas为cas文件名，根据实际进行修改；solve/iterate25表示迭代25步，也可根据需要修改步数。

）

用命令行进行fluent计算：

此处myhosts为用户指定的host文件，内容如下所示：

node1

node2

-t8即指定8个核心参与计算，分别为node1上的4个核心和node2上的4个核心。

3.1.3.作业调度方式运行

注：

PBS只持Fluent命令行运行方式的作业提交

1．编译脚本script1，内容如下（与上面脚本运行方式相同）：

file/rcdfl5m1.cas.gz

solve/iterate25

/file/wcdfl5m1_final.dat

parallel/timer/usage

exit

yes

2．编辑pbs脚本fluent.pbs，内容如下：

/bin/bash

#PBS-Njob1-8cpu

#PBS-lnodes=1:

ppn=8

#PBS-joe

INPUTFILE=script1

OUTPUTFILE=script1.log

cd$PBS_O_WORKDIR

#pib.daplindicateusingibprotocalandtheudaplway.t8indicatesusing

#8processors

NP=`cat$PBS_NODEFILE|wc-l`

date

fluent3d-t$NP-cnf=$PBS_NODEFILE-g-i$INPUT>&$OUTPUT

date

exit0

提交作业：

qsubfluent.pbs

用qstat-a和pbsnodes-a以及top命令查看作业是否正常排队运行。

注：

红色字体部分需要根据实际情况改动，黑色字体为固定格式的内容。

3.1.4.获取计算结果

1．如果用图形界面的方式运行fluent，可以在菜单中选择选择保存dat文件到当前工作目录或其他某个目录下，然后用ftp软件将dat文件下载到终端pc机上，即可进行后处理。

2．如果用命令行的方式运行fluent，dat文件自动保存到当前目录，文件名由script1文件的内容决定（例如“file/wcdfl5m1_final.dat”则表示dat文件为fl5m1_final.dat），用软件将dat文件下载到终端pc机上，即可进行后处理。

3.2.Ansys作业

3.2.1.图形方式运行

通过vnc登录以后，运行launcher121，即可进入ansys界面，选择相关的模块点击run即可。

3.2.2.命令行方式运行

在命令行方式下，不能进行交互的图形操作，所有的命令需要通过命令流来实现。

假设写好的命令流文件为input.inp，运行方式如下：

单节点：

ansys121-np16-iinput.inp>&output.log&

多节点运行：

ansys121-dis-machinesnode1:

16:

node2:

16-iinput.inp>&output.log&

3.2.3.作业调度方式运行

编写一个pbs脚本ansys.pbs如下所示：

/bin/bash

#PBS-joe

###################whatyoujustneedandcouldeditarebetweenthetwolines######################

#PBS-Nmy_ansys_test

#PBS-lnodes=1:

ppn=16

INPUTFILE=wing.inp

OUTPUTFILE=wing.log

###############################################theend##############################################

cd$PBS_O_WORKDIR

np=1

forNODEin`cat$PBS_NODEFILE`;do

host=$NODE

if[!

-z$lasthost];then

if[$host=$lasthost];then

np=`expr$np+1`

else

if[-z$mList];then

mList=$lasthost:

$np

else

mList=$mList:

$lasthost:

$np

np=1

lasthost=$host

done

if[-z$mList];then

mList=$lasthost:

$np

else

mList=$mList:

$lasthost:

$np

ansys121-dis-machines$mList-i$INPUTFILE-o$OUTPUTFILE

写完以后提交方式与fluent相同，qsubansys.pbs即可。

3.3.CFX作业

3.3.1.图形方式运行

在图形窗口中运行cfx5即可。

3.3.2.命令行方式运行

CFX支持PVM和MPI两种方式的并行，通常MPI的性能更好一些，建议采用。

同时还有Local和Distributed两种运行模式，单机上建议采用Local模式，而跨节点时只能采用Distributed模式。

cfx5solve命令可直接进入求解模式。

cfx5solve-defBenchmark.def-par-dist'node1*8'

在本机上用8个核心并行

cfx5solve-defBenchmark.def-par-dist'node1*8,node2*8'

采用2个节点各8个核心进行分布式并行计算

3.3.3.作业调度方式运行

[test@node34cfxbm]$catpbs_cfx.ib

/bin/bash

#PBS-NCFX_8cpu

#PBS-lnodes=1:

ppn=8

INPUTFILE=Benchmark.def

OUTPUTFILE=Benchmark.log

##############################################################

##########Youdon'tneedtomodifythelinesbelow##########

##############################################################

PeHostfile2MachineFile（）

{

cat$1|whilereadline;do

#echo$line

host=`echo$line`

#addherecodetomapregularhostnamesintoATMhostnames

if[-z$mList];then

mList=$host"*1"

else

mList=$mList,$host"*1"

echo$mList

done

}

CFX_PBS_NODEFILE="/tmp/cfx_`whoami`_$PBS_JOBID"

PeHostfile2MachineFile$PBS_NODEFILE|sed"s#bnode#node#g">$CFX_PBS_NODEFILE

NPROCS=`wc-l$PBS_NODEFILE`

cd$PBS_O_WORKDIR

cfx5solve-def$INPUTFILE-par-dist`tail-n1$CFX_PBS_NODEFILE`

写完脚本就可以按如下方式提交作业：

[test@node34cfxbm]$qsubcfx.pbs

3.4.ABAQUS作业

3.4.1.图形方式运行

在图形窗口中运行abaquscae即可。

3.4.2.命令行方式运行

单节点运行：

abaqus-jBeamloading.inpcpus=8

跨节点运行：

首先需要添加指定运行节点。

在工作目录进行以下操作：

echo"mp_host_list=[[\‘node1\’,8],[\‘node2\’,8]]">abaqus_v6.env

表示分别从node1、node2调用8个core来进行计算。

设置好了环境变量以后，通过abaqus-jBeamloading.inpcpus=16int来运行。

3.4.3.作业调度方式运行

[test@node34cfxbm]$catpbs_cfx.ib

/bin/bash

#PBS-Nabaqus_job

#PBS-lnodes=2:

ppn=8

#PBS-joe

####changeyourinputfileandjobnamehere####

INPUTFILE=studyQA_std.inp

JOB=`echo$INPUTFILE|cut-d"."-f1`

cd${PBS_O_WORKDIR}

source/public/software/Abaqus-6.9/abaqus.sh

cpus=$（wc-l$PBS_NODEFILE|awk'{print$1}'）

mp_host_list="["

fornin$（sort-u$PBS_NODEFILE）

mp_host_list="${mp_host_list}['$n',$（grep-c$n$PBS_NODEFILE）],"

done

mp_host_list=$（echo${mp_host_list}|sed-e"s/,$/]/"）

echo"mp_host_list=${mp_host_list}">abaqus_v6.env

STARTTIME=`date`

####themainexecutecommand

abaqusjob=${JOB}cpus=${cpus}mp_mode=mpistandard_parallel=allinteractive

ENDTIME=`date`

echo"thejobstartat:

${STARTTIME}"

echo"thejobendat:

${ENDTIME}"

3.5.Web提交

使用IE打开http:

//222.222.21.29:

8080,并使用对应的用户名和密码登陆，点击作业调度-作业提交

集群名称为唯一的选项Cluster_node。

。

，队列选择必须是用户对应的许可的队列，工作路径为输入文件所在的目录，通常为用户home目录下的含有模型文件的某一子目录，如test用户目录下的fluent目录中存放了fluent的输入文件fluent.jou、fluent.dat、fluent.cas，则工作路径为/cae01/home/test/fluent。

选择命令行提交方式，将前面写好的pbs脚本放入输入框中，点击提交，即可将作业提交到对应的队列。

4.常用pbs命令

4.1.qsub命令—提交作业

命令格式：

qsub[-adate_time][-cinterval][-Cdirective_prefix]

[-epath][-I][-jjoin][-kkeep][-lresource_list][-mmail_options]

[-Muser_list][-Nname][-opath][-ppriority][-qdestination][-rc]

[-Spath_list][-uuser_list][-vvariable_list][-V]

[-Wadditional_attributes][-z]

[script]

参数说明：

因为所采用的选项一般放在pbs脚本中提交，所以具体见PBS脚本选项。

例：

#qsubaaa.pbs

提交某作业，系统将产生一个作业号

4.2.qstat命令—查询作业

命令格式：

qatat[-f][-a][-i][-n][-s][-R][-Q][-q][-B][-u]

参数说明：

-fjobid列出指定作业的信息

-a列出系统所有作业

-i列出不在运行的作业

-n列出分配给此作业的结点

-s列出队列管理员与scheduler所提供的建议

-R列出磁盘预留信息

-Q操作符是destinationid，指明请求的是队列状态

-q列出队列状态，并以alternative形式显示

-auuserid列出指定用户的所有作业

-B列出PBSServer信息

-r列出所有正在运行的作业

-Qfqueue列出指定队列的信息

-u若操作符为作业号，则列出其状态。

若操作符为destinationid，则列出运行在其上的属于user_list中用户的作业状态。

例：

#qstat-f211

查询作业号为211的作业的具体信息。

4.3.qdel命令—删除作业

命令格式：

qdel[-W间隔时间]作业号

命令行参数：

例：

#qdel-W15211

15秒后删除作业号为211的作业

setserverdefault_queue=batch"

4.4.PBS脚本文件

PBS脚本文件由脚本选项和运行脚本两部分组成。

（1）PBS作业脚本选项（若无-C选项，则每项前面加‘#PBS’）

-adate_time：

date_time格式为：

[[[[CC]YY]MM]DD]hhmm[.SS]

表示经过date_time时间后作业才可以运行。

-cinterval：

定义作业的检查点间隔，如果机器不支持检查点，则忽略此选项。

-Cdirective_prefix：

在脚本文件中以directive_prefix开头的行解释为qsub的命

令选项。

（若无此选项，则默认为’#PBS’）

-epath：

将标准错误信息重定向到path

-I：

以交互方式运行

-jjoin：

将标准输出信息与标准错误信息合并到一个文件join中去。

-kkeep：

定义在执行结点上保留标准输出和标准错误信息中的哪个文件。

keep为o表示保留前者，e表示后者，oe或eo表示二者都保留，

n表示皆不保留。

若忽略此选项，二者都不保留。

-lresource_list：

定义资源列表。

以下为几个常用的资源种类。

cput=N：

请求N秒的CPU时间;N也可以是hh:

mm:

ss的形式。

mem=N[K|M|G][B|W]：

请求N{kilo|mega|giga}{bytes|words}大小的内存。

odes=N:

ppn=M：

请求N个结点，每个结点M个处理器。

-mmail_options：

mail_option为a：

作业abort时给用户发信；为b：

作业开始运行发信；为e：

作业结束运行时发信。

若无此选项，默认为a。

-Muser_list：

定义有关此作业的mail发给哪些用户。

-Nname：

作业名，限15个字符，首字符为字母，无空格。

-opath：

重定向标准输出到path。

-ppriority：

任务优先级，整数，[-1024，1023]，若无定义则为0.

-qdestination：

destination有三种形式：

queue,@server,queue@server。

-ry|n：

指明作业是否可运行，y为可运行，n为不可运行。

-Sshell：

指明执行运行脚本所用的shell，须包含全路径。

-uuser_list：

定义作业将在运行结点上以哪个用户名来运行。

-vvariable_list：

定义export到本作业的环境变量的扩展列表。

-V：

表明qsub命令的所有环境变量都export到此作业。

-Wadditional_attributes：

作业的其它属性。

-z：

指明qsub命令提交作业后，不在终端显示作业号。

展开阅读全文