曙光集群用户使用手册.docx
《曙光集群用户使用手册.docx》由会员分享,可在线阅读,更多相关《曙光集群用户使用手册.docx(18页珍藏版)》请在冰豆网上搜索。
![曙光集群用户使用手册.docx](https://file1.bdocx.com/fileroot1/2023-6/27/478cd041-254e-4459-98cb-cdbc9f0c5ce1/478cd041-254e-4459-98cb-cdbc9f0c5ce11.gif)
曙光集群用户使用手册
1.登录和文件传输
登录方式为ssh,与telnet功能类似,推荐的登录工具为putty或者SecureShell
(
在地址栏输入本集群的登录地址(node1对应的局域网IP),点击“打开”,就会出现登录窗口,输入用户名、密码即可。
文件传输为sftp,与传统ftp类似,但其协议更安全可靠,推荐工具为filezilla。
(
输入登录地址222.222.21.29,输入用户名和密码,端口填22(本软件支持ftp,端口为21),点击快速连接,即可使用,操作办法与常用ftp工具类似。
2.图形窗口支持
Linux推荐使用vnc。
vnc可以将用户的操作状态保持在服务器端,即使断开连接也不会影响到正在进行的操作、计算等。
登录到linux服务器中,在命令行运行vncserver。
第一次运行时需要输入VNC登陆用的密码:
根据提示输入新的vnc密码。
此密码与用户登录密码无关,将在登录vnc时需要。
此处提示的node1:
2即为vnc成功打开的端口。
运行vncclient,输入登录服务器地址和端口号,点确定,输入前面设置的密码,即进入了图形窗口。
注意:
1、在第一次启动了vncserver之后,vnc的连接一直可用,全部图形窗口保持在Linux服务器上。
因此,只在每次服务器重新启动后运行一次vncserver即可,由于用户较多,请勿启动多个。
2、如果需要使用node2的图形界面,可执行ssh-Xnode2。
3.作业提交
3.1.Fluent
3.1.1.图形方式运行
首先通过VNC登陆到图形界面,如果没有Terminal的话在桌面点击左键选择Xterm,输入以下命令即可运行:
此处myhosts为用户指定的host文件,内容如下所示:
node1
node1
node1
node1
node2
node2
node2
node2
-t8即指定8个核心参与计算,分别为node1上的4个核心和node2上的4个核心。
在图形界面下导入cas和data文件,修改和设置边界条件等并计算(和在windows下操作单机版Fluent相同,略):
注:
通过VNC使用图形界面方式运行fluent时,无需保持PC机与服务器的连接,只要vncserver没有重新启动,即可随时连接到原有的窗口。
3.1.2.命令行方式运行
建立script1文件:
script1内容如下:
(注:
其中fl5m1.cas为cas文件名,根据实际进行修改;solve/iterate25表示迭代25步,也可根据需要修改步数。
)
用命令行进行fluent计算:
此处myhosts为用户指定的host文件,内容如下所示:
node1
node1
node1
node1
node2
node2
node2
node2
-t8即指定8个核心参与计算,分别为node1上的4个核心和node2上的4个核心。
3.1.3.作业调度方式运行
注:
PBS只持Fluent命令行运行方式的作业提交
1.编译脚本script1,内容如下(与上面脚本运行方式相同):
file/rcdfl5m1.cas.gz
solve/iterate25
/file/wcdfl5m1_final.dat
parallel/timer/usage
exit
yes
2.编辑pbs脚本fluent.pbs,内容如下:
#!
/bin/bash
#PBS-Njob1-8cpu
#PBS-lnodes=1:
ppn=8
#PBS-joe
INPUTFILE=script1
OUTPUTFILE=script1.log
cd$PBS_O_WORKDIR
#
#pib.daplindicateusingibprotocalandtheudaplway.t8indicatesusing
#8processors
#
NP=`cat$PBS_NODEFILE|wc-l`
date
fluent3d-t$NP-cnf=$PBS_NODEFILE-g-i$INPUT>&$OUTPUT
date
exit0
提交作业:
qsubfluent.pbs
用qstat-a和pbsnodes-a以及top命令查看作业是否正常排队运行。
注:
红色字体部分需要根据实际情况改动,黑色字体为固定格式的内容。
3.1.4.获取计算结果
1.如果用图形界面的方式运行fluent,可以在菜单中选择选择保存dat文件到当前工作目录或其他某个目录下,然后用ftp软件将dat文件下载到终端pc机上,即可进行后处理。
2.如果用命令行的方式运行fluent,dat文件自动保存到当前目录,文件名由script1文件的内容决定(例如“file/wcdfl5m1_final.dat”则表示dat文件为fl5m1_final.dat),用软件将dat文件下载到终端pc机上,即可进行后处理。
3.2.Ansys作业
3.2.1.图形方式运行
通过vnc登录以后,运行launcher121,即可进入ansys界面,选择相关的模块点击run即可。
3.2.2.命令行方式运行
在命令行方式下,不能进行交互的图形操作,所有的命令需要通过命令流来实现。
假设写好的命令流文件为input.inp,运行方式如下:
单节点:
ansys121-np16-iinput.inp>&output.log&
多节点运行:
ansys121-dis-machinesnode1:
16:
node2:
16-iinput.inp>&output.log&
3.2.3.作业调度方式运行
编写一个pbs脚本ansys.pbs如下所示:
#!
/bin/bash
#PBS-joe
###################whatyoujustneedandcouldeditarebetweenthetwolines######################
#PBS-Nmy_ansys_test
#PBS-lnodes=1:
ppn=16
INPUTFILE=wing.inp
OUTPUTFILE=wing.log
###############################################theend##############################################
cd$PBS_O_WORKDIR
np=1
forNODEin`cat$PBS_NODEFILE`;do
host=$NODE
if[!
-z$lasthost];then
if[$host=$lasthost];then
np=`expr$np+1`
else
if[-z$mList];then
mList=$lasthost:
$np
else
mList=$mList:
$lasthost:
$np
fi
np=1
fi
fi
lasthost=$host
done
if[-z$mList];then
mList=$lasthost:
$np
else
mList=$mList:
$lasthost:
$np
fi
ansys121-dis-machines$mList-i$INPUTFILE-o$OUTPUTFILE
写完以后提交方式与fluent相同,qsubansys.pbs即可。
3.3.CFX作业
3.3.1.图形方式运行
在图形窗口中运行cfx5即可。
3.3.2.命令行方式运行
CFX支持PVM和MPI两种方式的并行,通常MPI的性能更好一些,建议采用。
同时还有Local和Distributed两种运行模式,单机上建议采用Local模式,而跨节点时只能采用Distributed模式。
cfx5solve命令可直接进入求解模式。
cfx5solve-defBenchmark.def-par-dist'node1*8'
在本机上用8个核心并行
cfx5solve-defBenchmark.def-par-dist'node1*8,node2*8'
采用2个节点各8个核心进行分布式并行计算
3.3.3.作业调度方式运行
[test@node34cfxbm]$catpbs_cfx.ib
#!
/bin/bash
#PBS-NCFX_8cpu
#PBS-lnodes=1:
ppn=8
INPUTFILE=Benchmark.def
OUTPUTFILE=Benchmark.log
##############################################################
##########Youdon'tneedtomodifythelinesbelow##########
##############################################################
PeHostfile2MachineFile()
{
cat$1|whilereadline;do
#echo$line
host=`echo$line`
#addherecodetomapregularhostnamesintoATMhostnames
if[-z$mList];then
mList=$host"*1"
else
mList=$mList,$host"*1"
fi
echo$mList
done
}
CFX_PBS_NODEFILE="/tmp/cfx_`whoami`_$PBS_JOBID"
PeHostfile2MachineFile$PBS_NODEFILE|sed"s#bnode#node#g">$CFX_PBS_NODEFILE
NPROCS=`wc-l$PBS_NODEFILE`
cd$PBS_O_WORKDIR
cfx5solve-def$INPUTFILE-par-dist`tail-n1$CFX_PBS_NODEFILE`
写完脚本就可以按如下方式提交作业:
[test@node34cfxbm]$qsubcfx.pbs
3.4.ABAQUS作业
3.4.1.图形方式运行
在图形窗口中运行abaquscae即可。
3.4.2.命令行方式运行
单节点运行:
abaqus-jBeamloading.inpcpus=8
跨节点运行:
首先需要添加指定运行节点。
在工作目录进行以下操作:
echo"mp_host_list=[[\‘node1\’,8],[\‘node2\’,8]]">abaqus_v6.env
表示分别从node1、node2调用8个core来进行计算。
设置好了环境变量以后,通过abaqus-jBeamloading.inpcpus=16int来运行。
3.4.3.作业调度方式运行
[test@node34cfxbm]$catpbs_cfx.ib
#!
/bin/bash
#PBS-Nabaqus_job
#PBS-lnodes=2:
ppn=8
#PBS-joe
####changeyourinputfileandjobnamehere####
INPUTFILE=studyQA_std.inp
JOB=`echo$INPUTFILE|cut-d"."-f1`
cd${PBS_O_WORKDIR}
source/public/software/Abaqus-6.9/abaqus.sh
cpus=$(wc-l$PBS_NODEFILE|awk'{print$1}')
mp_host_list="["
fornin$(sort-u$PBS_NODEFILE)
do
mp_host_list="${mp_host_list}['$n',$(grep-c$n$PBS_NODEFILE)],"
done
mp_host_list=$(echo${mp_host_list}|sed-e"s/,$/]/")
echo"mp_host_list=${mp_host_list}">abaqus_v6.env
STARTTIME=`date`
####themainexecutecommand
abaqusjob=${JOB}cpus=${cpus}mp_mode=mpistandard_parallel=allinteractive
ENDTIME=`date`
echo"thejobstartat:
${STARTTIME}"
echo"thejobendat:
${ENDTIME}"
3.5.Web提交
使用IE打开http:
//222.222.21.29:
8080,并使用对应的用户名和密码登陆,点击作业调度-作业提交
集群名称为唯一的选项Cluster_node。
。
。
,队列选择必须是用户对应的许可的队列,工作路径为输入文件所在的目录,通常为用户home目录下的含有模型文件的某一子目录,如test用户目录下的fluent目录中存放了fluent的输入文件fluent.jou、fluent.dat、fluent.cas,则工作路径为/cae01/home/test/fluent。
选择命令行提交方式,将前面写好的pbs脚本放入输入框中,点击提交,即可将作业提交到对应的队列。
4.常用pbs命令
4.1.qsub命令—提交作业
命令格式:
qsub[-adate_time][-cinterval][-Cdirective_prefix]
[-epath][-I][-jjoin][-kkeep][-lresource_list][-mmail_options]
[-Muser_list][-Nname][-opath][-ppriority][-qdestination][-rc]
[-Spath_list][-uuser_list][-vvariable_list][-V]
[-Wadditional_attributes][-z]
[script]
参数说明:
因为所采用的选项一般放在pbs脚本中提交,所以具体见PBS脚本选项。
例:
#qsubaaa.pbs
提交某作业,系统将产生一个作业号
4.2.qstat命令—查询作业
命令格式:
qatat[-f][-a][-i][-n][-s][-R][-Q][-q][-B][-u]
参数说明:
-fjobid列出指定作业的信息
-a列出系统所有作业
-i列出不在运行的作业
-n列出分配给此作业的结点
-s列出队列管理员与scheduler所提供的建议
-R列出磁盘预留信息
-Q操作符是destinationid,指明请求的是队列状态
-q列出队列状态,并以alternative形式显示
-auuserid列出指定用户的所有作业
-B列出PBSServer信息
-r列出所有正在运行的作业
-Qfqueue列出指定队列的信息
-u若操作符为作业号,则列出其状态。
若操作符为destinationid,则列出运行在其上的属于user_list中用户的作业状态。
例:
#qstat-f211
查询作业号为211的作业的具体信息。
4.3.qdel命令—删除作业
命令格式:
qdel[-W间隔时间]作业号
命令行参数:
例:
#qdel-W15211
15秒后删除作业号为211的作业
setserverdefault_queue=batch"
4.4.PBS脚本文件
PBS脚本文件由脚本选项和运行脚本两部分组成。
(1)PBS作业脚本选项(若无-C选项,则每项前面加‘#PBS’)
-adate_time:
date_time格式为:
[[[[CC]YY]MM]DD]hhmm[.SS]
表示经过date_time时间后作业才可以运行。
-cinterval:
定义作业的检查点间隔,如果机器不支持检查点,则忽略此选项。
-Cdirective_prefix:
在脚本文件中以directive_prefix开头的行解释为qsub的命
令选项。
(若无此选项,则默认为’#PBS’)
-epath:
将标准错误信息重定向到path
-I:
以交互方式运行
-jjoin:
将标准输出信息与标准错误信息合并到一个文件join中去。
-kkeep:
定义在执行结点上保留标准输出和标准错误信息中的哪个文件。
keep为o表示保留前者,e表示后者,oe或eo表示二者都保留,
n表示皆不保留。
若忽略此选项,二者都不保留。
-lresource_list:
定义资源列表。
以下为几个常用的资源种类。
cput=N:
请求N秒的CPU时间;N也可以是hh:
mm:
ss的形式。
mem=N[K|M|G][B|W]:
请求N{kilo|mega|giga}{bytes|words}大小的内存。
odes=N:
ppn=M:
请求N个结点,每个结点M个处理器。
-mmail_options:
mail_option为a:
作业abort时给用户发信;为b:
作业开始运行发信;为e:
作业结束运行时发信。
若无此选项,默认为a。
-Muser_list:
定义有关此作业的mail发给哪些用户。
-Nname:
作业名,限15个字符,首字符为字母,无空格。
-opath:
重定向标准输出到path。
-ppriority:
任务优先级,整数,[-1024,1023],若无定义则为0.
-qdestination:
destination有三种形式:
queue,@server,queue@server。
-ry|n:
指明作业是否可运行,y为可运行,n为不可运行。
-Sshell:
指明执行运行脚本所用的shell,须包含全路径。
-uuser_list:
定义作业将在运行结点上以哪个用户名来运行。
-vvariable_list:
定义export到本作业的环境变量的扩展列表。
-V:
表明qsub命令的所有环境变量都export到此作业。
-Wadditional_attributes:
作业的其它属性。
-z:
指明qsub命令提交作业后,不在终端显示作业号。