HPC安装指南文档格式.docx
《HPC安装指南文档格式.docx》由会员分享,可在线阅读,更多相关《HPC安装指南文档格式.docx(22页珍藏版)》请在冰豆网上搜索。
以root用户登入系统并安装RedHatHPC软件包:
#yuminstallpcmmod_ssl
pcmRPM安装完成之后,将pcm的环境变量导入到当前环境中:
#source/etc/profile.d/kusuenv.sh
运行安装配置脚本
#/opt/kusu/sbin/pcm-setup
以下是安装的输出内容,省略了部分内容。
红色部分为用户输入的内容
ShortHostname=master
Timezone=Asia/Shanghai
UTCtime=1
………………………………
Detectednetworkinterfaces:
eth0
=============================================================
IP=192.168.10.10Enabled=True
Network=192.168.10.0Subnet=255.255.255.0
MAC=54:
52:
00:
5C:
98:
4EGateway=
DHCP=FalseBoot=1
…………………………
Doyouwishtocontinue[N/y]?
y
PCMcreatesaDNSdomainforallnodesitinstalls.ThisnodewillfunctionasaprimaryDNSserverforthisdomain.
EntertheprivateDNSdomaintocreate[default:
pcm]:
cae.dpca
PCMrequiresadepotdirectorytostorekits,imagesandotherfiles
Aminimumof10Gbytesisneeded.
Wouldyouliketousethedefault/depotdirectory[N/y]?
y
Startingpostgresqlservice:
[OK]
Settingpermissions
TheOSmediaisneededatthistime.DoyouhaveOSmediaon
Disks,ISO,orFilesystem?
(Disk|Iso|File)[Disk]File
EnterthefullyqualifiedpathtotheISOfile,orthedirectorycontainingthefiles:
/var/rhel
Copyingthemedia.Pleasewaitthiswilltakesometime!
AnymoredisksforthisOSkit?
[y/n]
n
Pleaseinsertnextdiskifinstallingfromphys.mediaNOW
(URIfornextISO|blankifphys.media|Ntofinish):
N
……………………………………
Settinguprepository.Pleasewait
Kit:
rhel5.4,version5,architecturex86_64,hasbeenaddedtorepo:
rhel5_x86_64.Remembertorefreshwith-u
base,version5.4,architecturenoarch,hasbeenaddedtorepo:
Refreshingrepo:
rhel5_x86_64.Thismaytakeawhile...
-Allexistingreposin/etc/yum.repos.dhavebeendisabled.Pleasere-enable
anyrequiredreposmanually.
-Run`yumsearchpcm-kit`toseealistingofavailablekitstoinstall
Congratulations!
Thebasekitisinstalledandconfiguredtoprovisionon:
Network192.168.10.0oninterfaceeth0
运行完成后,HPC的base-kit就安装完成了,接下来可以进行计算节点的分发部署。
RedHatHPC在安装过程中会提示设置安装目录的位置,默认情况下该目录为/depot,如果使用其他目录,那么会自动为这个目录建立一个名为/depot的软链接。
pcm安装程序使用系统安装盘来建立一个本地软件安装源,当其他节点通过安装节点来安装的时候,将会使用这个软件安装源来安装操作系统。
警告
pcm会新建一个DNS区域用于集群内部解析,不要和外部网络使用相同的DNS区域
2.3设置计算节点的起始IP
在HPC中,计算节点的eth0的IP地址都是有管理节点自动分配的,因此需要预先定义IP地址分配的规则。
运行如下命令
#netedit
按照如下图示编辑网络设置。
2.4编辑计算节点的配置
在HPC中计算节点配置是按照组别来进行划分的,管理节点安装完成后会自动建立几个组。
一般计算解点都属于compute-rhel组。
使用如下命令来修改计算节点的具体配置:
#ngedit
设置计算节点的名称格式
设置计算节点的软件安装源
设置计算节点的内核以及启动参数
选择计算节点的安装组件,保持默认即可
选择计算节点通过哪个网卡分发
选择计算节点的额外软件包,保持默认即可
设置计算节点安装完成后自动运行的脚本,保持默认即可
设置计算节点的分区大小
保存之前的设置
2.5计算节点的安装
在安装计算节点之前还需要作一些额外的设置。
将一些必要的文件拷贝到web服务的目录中
#cp/opt/kusu/etc/db.passwd/var/www/html/
#chmod+r/var/www/html/db.passwd
#cp/root/.ssh/authorized_keys/var/www/html/public_keys
#chmod+r/var/www/html/public_keys
建立计算节点的kickstar自动安装配置文件。
在/var/www/html目录下建立cfg目录,并生成计算节点的配置文件(node-60-00.cfg、node-60-01.cfg等)内容如下:
#mkdir/var/www/html/cfg
node-60-00.cfg
#Redhatkickstarttemplate
#$Id:
kickstart.tmpl31402008-03-1517:
13:
11Zggoh$
#Copyright2007PlatformComputingInc.
#LicensedunderGPLversion2;
SeeLICENSEfilefordetails.
install
#Definetheinstallationnumber.
key--skip
url--urlhttp:
//192.168.10.10/repos/1000
rootpw--iscrypted$1$12727774$kIoz3FKnJnZ./oj6qlo5I.
langen
langsupport--default=enen
keyboardus
network--bootprotostatic--device=eth0--ip=192.168.10.50--netmask=255.255.255.0--onboot=yes--gateway=192.168.10.10--nameserver=192.168.10.10--hostnamenode-60-00.cae.dpca--noipv6
network--deviceeth4--bootprotostatic--ip192.168.50.50--netmask255.255.255.0
firewall--disabled
selinux--disabled
firstboot--disable
authconfig--enableshadow--enablemd5
timezoneAsia/Shanghai
bootloader--location=mbr--driveorder=sda
skipx
#clearpart--all
clearpart—all—drives=sda
part/--fstype=ext3—size=31920--ondisk=sda
partswap--fstype=swap—size=16000--ondisk=sda
reboot
%packages
component-base-node
@base
ntp
%post
mkdir/root/.ssh
wgethttp:
//192.168.10.10/public_keys-O/root/.ssh/authorized_keys
chmod600/root/.ssh/authorized_keys
mkdir/etc/cfm
cat>
/etc/cfm/.cfmsecret<
<
EOF
Gwwn8EwOIjQfu3BFTO7tKTlMGNpBnXy8V3liV4AwDWk=
chmod600/etc/cfm/.cfmsecret
cd/opt/kusu/etc
//192.168.10.10/db.passwd
chmod600/opt/kusu/etc/db.passwd
/etc/profile.nii<
#!
/bin/sh
#
#Thisfileisgeneratedatinstalltime.Itcontainsall
#ofthevariablesthatwereusedtoinstallthisnode.
exportNII_HOSTNAME=node-60-00
exportNII_NGID=2
exportNII_NGTYPE="
compute"
exportNII_INSTALLERS="
192.168.10.10"
exportNII_REPO="
/repos/1000"
exportNII_REPOID="
1000"
exportNII_OSTYPE="
rhel-5-x86_64"
exportNII_INSTALLTYPE="
package"
#NICDefinitionsDevice:
IP:
Subnet:
Network:
suffix:
gateway:
dhcp:
options
exportNII_NICDEF0="
eth0|192.168.10.50|255.255.255.0|192.168.10.0|-eth0|192.168.10.10|0|"
exportCFMBaseDir="
/opt/kusu/cfm"
exportDEPOT_REPOS_POST="
/depot/repos/post_scripts"
exportDEPOT_REPOS_ROOT="
/depot/repos"
exportDEPOT_AUTOINST_ROOT="
/depot/repos/instconf"
exportInstallerServeNFS="
1"
exportDNSZone="
pcm"
exportRHHPC_VERSION="
5.4"
exportDEPOT_REPOS_SCRIPTS="
/depot/repos/custom_scripts"
exportTimezone_utc="
exportTimezone_zone="
Asia/Shanghai"
exportDEPOT_UPDATES_ROOT="
/depot/updates"
exportLanguage="
en"
exportDEPOT_CONTRIB_ROOT="
/depot/contrib"
exportDbSchemaVers="
exportPublicDNSZone="
"
exportInstallerServeNTP="
exportPrimaryInstaller="
master"
exportDEPOT_IMAGES_ROOT="
/depot/images"
exportInstallerServeNIS="
0"
exportdns1="
127.0.0.1"
exportInstallerServeDNS="
exportDEPOT_KITS_ROOT="
/depot/kits"
exportImageBaseDir="
exportPIXIE_ROOT="
/tftpboot/kusu"
exportKeyboard="
us"
exportPROVISION="
KUSU"
/opt/kusu/bin/updatestate/etc/profile.nii
请根据上述文件生成各个计算节点的配置文件,注意修改上述文件中红色的部分。
在管理节点上运行如下命令等待计算节点安装
#addhost
选择安装网卡
设置计算节点的名字(这里输入计算节点所在的机柜号)
等待计算节点启动
依次启动计算节点,计算节点会通过PXE启动,addhost会截获相关的信息,并在/tftpboot/kusu/pxelinux.cfg目录下生成相关的文件。
需要对相关文件进行修改。
自动生成的文件名格式为01-MAC,修改这几个文件(注意和主机的对应关系),以下是node-60-00的配置文件名字和内容
01-00-21-28-6f-d5-ca
#PXEfilefor:
node-60-00
defaultlocaldisk
prompt0
labellocaldisk
localboot0
labelReinstall
kernelkernel-rhel5.4-5-x86_64
appendinitrd=initrd-rhel5.4-5-x86_64.imgsyslog=192.168.10.10:
514niihost=192.168.10.10ks=http:
//192.168.10.10/repos/1000/ks.cfg.192.168.10.10ksdevice=eth0textnoipv6kssendmacselinux=0
以上是原始内容,修改为如下:
//192.168.10.10/cfg/node-60-00.cfgksdevice=eth0textnoipv6kssendmacselinux=0
依次修改各个计算节点的配置文件。
然后重新启动各个计算节点,计算节点将会自动按照配置进行安装。
安装完成后,在管理节点上退出addhost命令。
2.6HPC相关其他组件安装
上述安装完成后,管理节点和计算节点只是安装了基本的操作系统和基本的HPC组件。
还需要将其余的组件(lava、cacti等)安装到节点上。
在管理节点基本HPC安装完成后,会自动将我们配置的yum源屏蔽掉。
在安装其他HPC组件的之前,需要将其打开。
#mv/etc/yum.repo.d/hpc.repo.disabled/etc/yum.repo.d/hpc.repo
安装组件的预安装脚本
#yuminstallpcm-kit-lavapcm-kit-gangliapcm-kit-nagiospcm-kit-cacti-y
安装相关组件
#install-kit-lava;
install-kit-ganglia;
install-kit-nagios;
install-kit-cacti
安装完成后,计算节点将会自动安装以上组件。
三、安装后配置
安装完成后还需要对集群设置作一些调整。
3.1计算节点的FC存储的挂载
计算节点上有2块HBA卡连接到NetApp存储的FC模块上。
需要安装HBA的驱动,同时配置多路径软件以支持HBA卡的冗余。
HBA卡驱动安装
将qlogic的驱动拷贝到计算节点中,这里以/root目录为例子。
安装过程如下:
#tarzxvfqla2xxx-v8.02.23_4-dist.tgz
#cdqlogic
#./drvrsetup
#cdqla2xxx-8.02.23
#./extras/build.shinstall
驱动安装完成后,默认设置会将HBA的多路径自动打开。
我们需要将其多路径关闭,使用redhat系统自带的多路径,以便可以使用NetApp的优化路径。
修改/etc/modprofile.conf,内容如下:
aliaseth0forcedeth
aliaseth1forcedeth
aliaseth2forcedeth
aliaseth3forcedeth
aliaseth4e1000e
aliaseth5e1000e
aliaseth6e1000e
aliaseth7e1000e
aliasscsi_hostadapteraacraid
aliasscsi_hostadapter1sata_nv
aliasscsi_hostadapter2qla2xxx
optionsqla2xxxql2xfailover=0
aliasscsi_hostadapter3usb-storage
installqla2xxx/sbin/modprobeqla2xxx_conf;
/sbin/modprobe--ignore-installqla2xxx
removeqla2xxx/sbin/modprobe-r--first-time--ignore-removeqla2xxx&
&
{/sbin/modprobe-r--ignore-removeqla2xxx_conf;
}
aliasqla2100qla2xxx
aliasqla2200qla2xxx
aliasqla2300qla2xxx
aliasqla2322qla2xxx
aliasqla2400qla2xxx
重新建立启动映像文件
#cd/boot
#mkinitrd-finitrd-2.6.18-164.el5.img`uname-r`
配置系统多路径
安装完成HBA驱动后,需要重新启动机器才能生效。
新的驱动生效后,就可以配置多路径了。
修改/etc/multipath.conf文件,内容如下:
defaults
{
user_friendly_namesyes
max_fdsmax
queue_without_daemonno
}
blacklist
devnode"
^(ram|raw|loop|fd|md|dm-|sr|scd|st)[0-9]*"
^hd[a-z]"
^cciss!
c[0-9]d[0-9]*[p[0-9]*]"
devices
device
vendor"
NETAPP"
product"
LUN"
getuid_callout"
/sbin/scsi_id-g-u-s/block/%n"
prio_callout"
/sbin/mpath_prio_ontap/dev/%n"
features"
1