1、以root用户登入系统并安装Red Hat HPC软件包:# yum install pcm mod_sslpcm RPM安装完成之后,将pcm的环境变量导入到当前环境中:# source /etc/profile.d/kusuenv.sh 运行安装配置脚本# /opt/kusu/sbin/pcm-setup 以下是安装的输出内容,省略了部分内容。红色部分为用户输入的内容Short Hostname = masterTimezone = Asia/ShanghaiUTC time = 1Detected network interfaces: eth0 = IP = 192.168.10.10
2、 Enabled = True Network = 192.168.10.0 Subnet = 255.255.255.0 MAC = 54:52:00:5C:98:4E Gateway = DHCP = False Boot = 1Do you wish to continue N/y?yPCM creates a DNS domain for all nodes it installs. This node will function as a primary DNS server for this domain.Enter the private DNS domain to create
3、 default: pcm: cae.dpcaPCM requires a depot directory to store kits, images and other filesA minimum of 10Gbytes is needed.Would you like to use the default /depot directory N/y? yStarting postgresql service: OK Setting permissionsThe OS media is needed at this time. Do you have OS media onDisks, IS
4、O, or Filesystem? (Disk|Iso|File) Disk FileEnter the fully qualified path to the ISO file, or the directory containing the files:/var/rhelCopying the media. Please wait this will take some time!Any more disks for this OS kit? y/n nPlease insert next disk if installing from phys. media NOW(URI for ne
5、xt ISO | blank if phys. media | N to finish): NSetting up repository. Please waitKit: rhel5.4, version 5, architecture x86_64, has been added to repo: rhel5_x86_64. Remember to refresh with -u base, version 5.4, architecture noarch, has been added to repo:Refreshing repo: rhel5_x86_64. This may take
6、 a while.- All existing repos in /etc/yum.repos.d have been disabled. Please re-enable any required repos manually. - Run yum search pcm-kit to see a listing of available kits to installCongratulations! The base kit is installed and configured to provision on: Network 192.168.10.0 on interface eth0
7、运行完成后,HPC的base-kit就安装完成了,接下来可以进行计算节点的分发部署。 Red Hat HPC在安装过程中会提示设置安装目录的位置,默认情况下该目录为/depot,如果使用其他目录,那么会自动为这个目录建立一个名为/depot的软链接。pcm安装程序使用系统安装盘来建立一个本地软件安装源,当其他节点通过安装节点来安装的时候,将会使用这个软件安装源来安装操作系统。警告pcm会新建一个DNS区域用于集群内部解析,不要和外部网络使用相同的DNS区域2.3 设置计算节点的起始IP在HPC中,计算节点的eth0的IP地址都是有管理节点自动分配的,因此需要预先定义IP地址分配的规则。运行如下
8、命令# netedit按照如下图示编辑网络设置。2.4 编辑计算节点的配置在HPC中计算节点配置是按照组别来进行划分的,管理节点安装完成后会自动建立几个组。一般计算解点都属于compute-rhel组。使用如下命令来修改计算节点的具体配置:# ngedit设置计算节点的名称格式设置计算节点的软件安装源设置计算节点的内核以及启动参数选择计算节点的安装组件,保持默认即可选择计算节点通过哪个网卡分发选择计算节点的额外软件包,保持默认即可设置计算节点安装完成后自动运行的脚本,保持默认即可设置计算节点的分区大小保存之前的设置2.5 计算节点的安装在安装计算节点之前还需要作一些额外的设置。将一些必要的文件
9、拷贝到web服务的目录中# cp /opt/kusu/etc/db.passwd /var/www/html/# chmod +r /var/www/html/db.passwd# cp /root/.ssh/authorized_keys /var/www/html/public_keys# chmod +r /var/www/html/public_keys建立计算节点的kickstar自动安装配置文件。在/var/www/html目录下建立cfg目录,并生成计算节点的配置文件(node-60-00.cfg、node-60-01.cfg等)内容如下:# mkdir /var/www/htm
10、l/cfgnode-60-00.cfg# Redhat kickstart template# $Id: kickstart.tmpl 3140 2008-03-15 17:13:11Z ggoh $# Copyright 2007 Platform Computing Inc.# Licensed under GPL version 2; See LICENSE file for details.install# Define the installation number.key -skipurl -url http:/192.168.10.10/repos/1000rootpw -isc
11、rypted $1$12727774$kIoz3FKnJnZ./oj6qlo5I.lang enlangsupport -default=en enkeyboard usnetwork -bootproto static -device=eth0 -ip=192.168.10.50 -netmask=255.255.255.0 -onboot=yes -gateway=192.168.10.10 -nameserver=192.168.10.10 -hostname node-60-00.cae.dpca -noipv6network -device eth4 -bootproto stati
12、c -ip 192.168.50.50 -netmask 255.255.255.0firewall -disabledselinux -disabledfirstboot -disableauthconfig -enableshadow -enablemd5timezone Asia/Shanghaibootloader -location=mbr -driveorder=sdaskipx#clearpart -allclearpart all drives=sdapart / -fstype=ext3 size=31920 -ondisk=sdapart swap -fstype=swap
13、 size=16000 -ondisk=sdareboot%packagescomponent-base-nodebasentp%postmkdir /root/.sshwget http:/192.168.10.10/public_keys -O /root/.ssh/authorized_keyschmod 600 /root/.ssh/authorized_keysmkdir /etc/cfmcat /etc/cfm/.cfmsecret EOFGwwn8EwOIjQfu3BFTO7tKTlMGNpBnXy8V3liV4AwDWk=chmod 600 /etc/cfm/.cfmsecre
14、tcd /opt/kusu/etc/192.168.10.10/db.passwdchmod 600 /opt/kusu/etc/db.passwd/etc/profile.nii #!/bin/sh# This file is generated at install time. It contains all# of the variables that were used to install this node.export NII_HOSTNAME=node-60-00export NII_NGID=2export NII_NGTYPE=computeexport NII_INSTA
15、LLERS=192.168.10.10export NII_REPO=/repos/1000export NII_REPOID=1000export NII_OSTYPE=rhel-5-x86_64export NII_INSTALLTYPE=package# NIC Definitions Device:IP:Subnet:Network:suffix:gateway:dhcp:optionsexport NII_NICDEF0=eth0|192.168.10.50|255.255.255.0|192.168.10.0|-eth0|192.168.10.10|0|export CFMBase
16、Dir=/opt/kusu/cfmexport DEPOT_REPOS_POST=/depot/repos/post_scriptsexport DEPOT_REPOS_ROOT=/depot/reposexport DEPOT_AUTOINST_ROOT=/depot/repos/instconfexport InstallerServeNFS=1export DNSZone=pcmexport RHHPC_VERSION=5.4export DEPOT_REPOS_SCRIPTS=/depot/repos/custom_scriptsexport Timezone_utc=export T
17、imezone_zone=Asia/Shanghaiexport DEPOT_UPDATES_ROOT=/depot/updatesexport Language=enexport DEPOT_CONTRIB_ROOT=/depot/contribexport DbSchemaVers=export PublicDNSZone=export InstallerServeNTP=export PrimaryInstaller=masterexport DEPOT_IMAGES_ROOT=/depot/imagesexport InstallerServeNIS=0export dns1=127.
18、0.0.1export InstallerServeDNS=export DEPOT_KITS_ROOT=/depot/kitsexport ImageBaseDir=export PIXIE_ROOT=/tftpboot/kusuexport Keyboard=usexport PROVISION=KUSU/opt/kusu/bin/updatestate /etc/profile.nii请根据上述文件生成各个计算节点的配置文件,注意修改上述文件中红色的部分。 在管理节点上运行如下命令等待计算节点安装# addhost选择安装网卡设置计算节点的名字(这里输入计算节点所在的机柜号)等待计算节点
19、启动依次启动计算节点,计算节点会通过PXE启动,addhost会截获相关的信息,并在/tftpboot/kusu/pxelinux.cfg目录下生成相关的文件。需要对相关文件进行修改。自动生成的文件名格式为01-MAC,修改这几个文件(注意和主机的对应关系),以下是node-60-00的配置文件名字和内容01-00-21-28-6f-d5-ca# PXE file for: node-60-00default localdiskprompt 0label localdisk localboot 0label Reinstall kernel kernel-rhel5.4-5-x86_64 ap
20、pend initrd=initrd-rhel5.4-5-x86_64.img syslog=192.168.10.10:514 niihost=192.168.10.10 ks=http:/192.168.10.10/repos/1000/ks.cfg.192.168.10.10 ksdevice=eth0 text noipv6 kssendmac selinux=0以上是原始内容,修改为如下:/192.168.10.10/cfg/node-60-00.cfg ksdevice=eth0 text noipv6 kssendmac selinux=0依次修改各个计算节点的配置文件。然后重新
21、启动各个计算节点,计算节点将会自动按照配置进行安装。安装完成后,在管理节点上退出addhost命令。2.6 HPC相关其他组件安装 上述安装完成后,管理节点和计算节点只是安装了基本的操作系统和基本的HPC组件。还需要将其余的组件(lava、cacti等)安装到节点上。在管理节点基本HPC安装完成后,会自动将我们配置的yum源屏蔽掉。在安装其他HPC组件的之前,需要将其打开。# mv /etc/yum.repo.d/hpc.repo.disabled /etc/yum.repo.d/hpc.repo安装组件的预安装脚本# yum install pcm-kit-lava pcm-kit-gang
22、lia pcm-kit-nagios pcm-kit-cacti -y安装相关组件# install-kit-lava;install-kit-ganglia;install-kit-nagios;install-kit-cacti安装完成后,计算节点将会自动安装以上组件。三、安装后配置安装完成后还需要对集群设置作一些调整。3.1 计算节点的FC存储的挂载 计算节点上有2块HBA卡连接到NetApp存储的FC模块上。需要安装HBA的驱动,同时配置多路径软件以支持HBA卡的冗余。 HBA卡驱动安装 将qlogic的驱动拷贝到计算节点中,这里以/root目录为例子。安装过程如下:# tar zxv
23、f qla2xxx-v8.02.23_4-dist.tgz# cd qlogic# ./drvrsetup# cd qla2xxx-8.02.23# ./extras/build.sh install 驱动安装完成后,默认设置会将HBA的多路径自动打开。我们需要将其多路径关闭,使用redhat系统自带的多路径,以便可以使用NetApp的优化路径。 修改/etc/modprofile.conf,内容如下:alias eth0 forcedethalias eth1 forcedethalias eth2 forcedethalias eth3 forcedethalias eth4 e1000e
24、alias eth5 e1000ealias eth6 e1000ealias eth7 e1000ealias scsi_hostadapter aacraidalias scsi_hostadapter1 sata_nvalias scsi_hostadapter2 qla2xxxoptions qla2xxx ql2xfailover=0alias scsi_hostadapter3 usb-storageinstall qla2xxx /sbin/modprobe qla2xxx_conf; /sbin/modprobe -ignore-install qla2xxxremove ql
25、a2xxx /sbin/modprobe -r -first-time -ignore-remove qla2xxx & /sbin/modprobe -r -ignore-remove qla2xxx_conf; alias qla2100 qla2xxxalias qla2200 qla2xxxalias qla2300 qla2xxxalias qla2322 qla2xxxalias qla2400 qla2xxx 重新建立启动映像文件# cd /boot# mkinitrd -f initrd-2.6.18-164.el5.img uname -r 配置系统多路径 安装完成HBA驱动
26、后,需要重新启动机器才能生效。新的驱动生效后,就可以配置多路径了。修改/etc/multipath.conf文件,内容如下:defaultsuser_friendly_names yesmax_fds maxqueue_without_daemon noblacklistdevnode (ram|raw|loop|fd|md|dm-|sr|scd|st)0-9*hda-zcciss!c0-9d0-9*p0-9*devicesdevicevendor NETAPPproduct LUNgetuid_callout /sbin/scsi_id -g -u -s /block/%nprio_callout /sbin/mpath_prio_ontap /dev/%nfeatures 1
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1