DataStage安装手册.docx
《DataStage安装手册.docx》由会员分享,可在线阅读,更多相关《DataStage安装手册.docx(37页珍藏版)》请在冰豆网上搜索。
DataStage安装手册
3.ETL环境部署
3.1安装DataStage
3.1.1Server安装
3.1.1.1创建用户及组
AIX
Ø运行smit命令,启动管理界面
Ø在安装机器上创建dstage组,ADMINISTRATIVEUSER选项为true,
Ø创建用户dsadm,主属为dstage,ADMINISTRATIVEUSER选项为true;
PrimaryGROUP,GroupSET,ADMINISTRATIVEGROUPS:
均为dstage
HPUnix
Ø运行sam命令,启动管理界面
Ø在安装机器上创建dstage组
Ø创建用户dsadm,主属为dstage组
3.1.1.3系统参数设置
1)检查Server端pagingspace的空间,对于CPU数量少于20个的机器,最好整个PagingSpace为500M×CPU数,如机器配置了8个CPU,则推荐至少需要配置4GB的PagingSpace空间。
2)检查核心参数,不符合要求则针对操作系统进行如下调整(AIX使用smit,HPUnix使用sam):
3)运行lsattr-E-lsys0|grepmaxuproc,检查参数MaximumnumberofPROCESSESallowedperuser,设置Datastage允许运行的最大进程数,推荐设置到较大的值,如:
8192。
4)运行lsuser–fdsadm,检查如下参数:
fsize,data,stack,rss。
推荐将这些参数设置为unlimit
3.1.1.4Server安装步骤
确保以超级用户root进入系统(非常重要)
如果是硬盘包,则执行命令:
gunzip2105-ds-75a-aix.tar.Z
进入解压目录Tarxvf2105-ds-75a-aix.tar
进入/解压环境/Ascential.media/aix目录
如果是光盘包,则执行命令:
Mount/cdrom
进入/cdrom目录
1)AIX操作系统执行/Ascential.media/install.sh–admindsadm.
2);HPUnix执行./INSTALL.SH\;1。
会出现下图所示:
每步安装都附有图片,图片上方为本图注释:
3)检测用户是否为root,输入y继续
4)提示这是一个新的安装过程,输入y继续
5)确认安装,输入n继续
6)输入n继续
7)licenseagreement,输入y继续
8)选择安装文件临时存放目录,此目录必须存在,dsadm用户要有存取权限,且目录必须为空,输入c改变临时目录
9)确认临时目录路径,输入n继续
10)输入serialnumber,CPUcount,expirationdate,enterpriseeditioncode,servercode,输入n继续,MVSeditioncode不用输入
11)确认信息,输入n继续
12)因为未购买RTIAgent,SASIntegration,IMSSource,所以不用输入以下三个code,输入n继续
13)默认安装路径,输入n继续
14)选择语言,输入c,改变语言
15)输入5,选择简体中文
16)输入n继续
17)选择插件,输入a选择全部
18)输入n继续
19)输入projectname:
UDI,回车继续
20)project默认存放路径,回车继续
21)输入U选择unprotectedproject,继续
22)输入n继续
23)DataStage引擎安装路径,输入n继续
24)输入n继续
25)输入n继续
26)输入n开始安装
3.1.1.5安装完毕,检查后台Server是否启动正常
输入ps–ef|grepdsrpcd
后台Server进程名dsrpcd
如果未正常启动,请检查安装日志(/app/dsadm/Ascential/DataStage/Logfiles)
3.1.2Client安装
执行datastageclient文件夹中执行setup,选择client端安装。
注意:
Client需要安装Microsoft.NetFramework支持。
如未安装Framework,client安装程序开始后会提示是否从安装光盘安装Framework,选择是安装Framework。
安装结束后,请重新执行安装光盘中的setup,继续安装client.
依次输入客户端的输入Serialnumber,UserLimit,EnterpriseCode,AuthorizationCode;
选择安装文件夹,点击Next直到安装完成。
3.1.3EEStage安装
安装前准备
Ø确保DSEEServer正确安装
安装步骤
1、在用户的.profile中设置环境变量
APT_ORCHHOME=/home/dsadm/Ascential/DataStage/PXEngine;
exportAPT_ORCHHOME
DSHOME=/home/dsadm/Ascential/DataStage/DSEngine
ExportDSHOME
PATH=$PATH:
$DSHOME/bin:
$APT_ORCHHOME/binNLS_LANG=American_America.ZHS16GBK;exportNLS_LANG
2、在服务器端重启服务
uv–admin–stop
uv–admin–start
3.1.4验证
创建测试job
点击菜单Tools中RunDirector
进入Director中查看程序是否运行成功:
发现test1状态为Finished,说明DataStage安装成功。
3.2DataStage集群配置
DB2EnterpriseEditionStage是DataStageParallelJob提供的三种DB2Stage之一。
其效率远超DB2APIStage。
对于大数据量处理,推荐首选DB2EEStage。
按照DB2的认证方式及与是否为RemoteDB,有如下三种情况:
1)LocalDB,认证方式无关紧要。
对于LocalDB,配置比较简单。
在dsenv中添加DB2环境变量,不推荐直接执行db2profile,最好单独添加$PATH,$LIBPATH等环境变量。
注意$LIBPATH一定要指向32位lib。
确保无错执行db2setup.sh和db2grant.sh,这两个脚本可以参照下文修改。
2)RemoteDB,采用Client端认证。
对于RemoteDB&ClientAuthentication,不需要在DB2服务器上做任何设置,只要参照下文中DataStage服务器端设置部分即可。
3)RemoteDB,采用Server端认证
下文介绍了当DB2为RemoteDB&ServerAuthentication时,如何配置DB2EEStage的详细步骤。
要求具体实施人员熟悉DataStageEE,熟悉DB2的基本概念及DB2通信原理,熟练使用UNIX操作系统。
配置DB2EEStage前,确保DataStageEE服务器已经正确安装并且正常运行。
3.2.1环境
内容
1.
硬件环境
DataStage
1个节点,hostname:
datastage
DB2
3个节点
Hostname分别为:
db01,db02,db03
3.
软件环境
IBMAIX5.3,DataStage7.5.2,DB2v8
3.2.2安装DB2客户端
本部分请DBA协助完成。
在DataStage服务器上创建32位DB2客户端。
Catalog远程数据库到本地。
3.2.3配置RemoteShell(即rsh)
本部分请操作系统管理员协助完成。
DataStage通过rsh和DB2各个物理节点进行通信。
以此次配置为例,DataStage使用1个节点,DB2使用3个节点。
Rsh配置完成后,要确保以上4个节点,任意两个节点间能够不需要密码通过rsh执行命令或者登陆。
3.2.4修改hosts文件
本部分请操作系统管理员协助完成。
修改DataStage服务器与DB2服务器的hosts文件,添加hostname与对应的IP地址
3.2.5DB2节点上创建dsadm用户及dstage组
本部分请操作系统管理员协助完成。
在DB2三个节点上创建dstage组及dsadm用户,令dsadm主组为dstage,GroupSet应当包括DB2组。
确保与Datastage服务器上的dsadm用户有相同的主目录。
建议与DataStage服务器上的dsadm用户及dstage组保持相同的UID及GID。
修改DataStage服务器上dsadm用户GroupSet,添加DB2组
3.2.6修改DB2节点dsadm用户.profile
修改所有DB2节点dsadm的.profile,添加如下变量:
DB2DIR=/usr/opt/db2_08_01;exportDB2DIR
DB2INSTANCE=qdb01;exportDB2INSTANCE
INSTHOME=/db2home/qdb01;exportINSTHOME
PATH=$PATH:
$INSTHOME/sqllib/bin:
$INSTHOME/sqllib/adm:
$INSTHOME/sqllib/misc
exportPATH
DB2PATH=$INSTHOME/sqllib/bin:
$INSTHOME/sqllib/adm:
$INSTHOME/sqllib/misc;exportDB2PATH
LIBPATH=$LIBPATH:
/home/dsadm/Ascential/DataStage/DSEngine/lib:
/home/dsadm/Ascential/DataStage/PXEngine/lib:
$DB2DIR/lib:
$INSTHOME/sqllib/lib32;exportLIBPATH
使用echo命令查看$PATH及$LIBPATH,如下图所示
3.2.7复制DataStagePXEngine到DB2节点
执行DataStage服务器端$APT_ORCHHOME/install/copy-orchdist脚本,脚本语法如下
copy-orchdist[remote-hostname]
此脚本将通过rsh复制DataStage并行处理引擎到DB2节点。
令参数remote-hostnam等于不同的DB2节点名,执行多次将DataStage并行处理引擎复制到DB2节点。
下图为执行脚本的示例,以本次配置为例,需要执行三次脚本,每次参数分别为db01,db02,db03
至此,在DB2节点上的配置告一段落。
3.2.8复制DB2节点配置文件
将DB2Node0节点上的db2nodes.cfg拷贝到DataStage服务器/home/dsadm/sqllib下。
3.2.9修改DataStage服务器dsenv文件
在DataStage服务器dsenv文件中添加如下变量:
#####addAPT_ORCHHOME/lib
LIBPATH=$LIBPATH:
$APT_ORCHHOME/lib
exportLIBPATH
#####ADDDB2ENV##########
DB2DIR=/usr/opt/db2_08_01;exportDB2DIR
DB2INSTANCE=qetldb;exportDB2INSTANCE
INSTHOME=/db2home/qetldb;exportINSTHOME
PATH=$PATH:
$INSTHOME/sqllib/bin:
$INSTHOME/sqllib/adm:
$INSTHOME/sqllib/misc
exportPATH
DB2PATH=$INSTHOME/sqllib/bin:
$INSTHOME/sqllib/adm:
$INSTHOME/sqllib/misc;exportDB2PATH
LIBPATH=$LIBPATH:
$DB2DIR/lib:
$INSTHOME/sqllib/lib32;exportLIBPATH
3.2.10修改DataStageconfigurationfile
修改DataStageConfigurationFile,添加DB2节点,范例如下:
{
node"node1"
{
fastname"datastage"
pools""
resourcedisk"/home/dsadm/Ascential/DataStage/Datasets"{pools""}
resourcescratchdisk"/home/dsadm/Ascential/DataStage/Scratch"{pools""}
}
node"node2"
{
fastname"datastage"
pools""
resourcedisk"/home/dsadm/Ascential/DataStage/Datasets"{pools""}
resourcescratchdisk"/home/dsadm/Ascential/DataStage/Scratch"{pools""}
}
node"node3"
{
fastname"datastage"
pools""
resourcedisk"/home/dsadm/Ascential/DataStage/Datasets"{pools""}
resourcescratchdisk"/home/dsadm/Ascential/DataStage/Scratch"{pools""}
}
node"node4"
{
fastname"datastage"
pools""
resourcedisk"/home/dsadm/Ascential/DataStage/Datasets"{pools""}
resourcescratchdisk"/home/dsadm/Ascential/DataStage/Scratch"{pools""}
}
node"node5"
{
fastname"db01"
pools""
resourcedisk"/home/dsadm/Ascential/DataStage/Datasets"{pools""}
resourcescratchdisk"/home/dsadm/Ascential/DataStage/Scratch"{pools""}
}
node"node6"
{
fastname"db02"
pools""
resourcedisk"/home/dsadm/Ascential/DataStage/Datasets"{pools""}
resourcescratchdisk"/home/dsadm/Ascential/DataStage/Scratch"{pools""}
}
node"node7"
{
fastname"db03"
pools""
resourcedisk"/home/dsadm/Ascential/DataStage/Datasets"{pools""}
resourcescratchdisk"/home/dsadm/Ascential/DataStage/Scratch"{pools""}
}
}
3.2.11修改DataStage服务器dsadm用户.profile
在dsadm用户的.profile中添加dsenv文件,如下图:
使用echo命令查看$PATH及$LIBPATH
3.2.12执行DataStage服务器上DB2授权脚本
切换目录到$APT_ORCHHOME/bin,修改$APT_ORCHHOME/bin/db2setup.sh,
#!
/bin/sh
#usage:
db2setup.sh
#
#EnvironmentvariablesDB2INSTANCEandINSTHOMEmustbesetcorrectly.
#anddb2(thecommand-lineinterfacetodb2)mustbeonyourpath
iftest$#=3
then
db2connectto$1user$2using$3
db2bind${APT_ORCHHOME}/bin/db2esql.bnddatetimeISOblockingallgrantpublic#thisstatementmustberunfrom/instance_dir/bnd
cd${INSTHOME}/sqllib/bnd
db2bind@db2ubind.lstdatetimeISOblockingallgrantpublic
db2bind@db2cli.lstdatetimeISOblockingallgrantpublic
db2connectreset
db2terminate
else
echo'Usage:
db2setup.sh'
exit1
fi
修改$APT_ORCHHOME/bin/db2grant.sh
#!
/bin/sh
#usage:
db2grant.sh
#
#TheenvironmentvariableDB2INSTANCEmustbesetcorrectly.
#anddb2(thecommand-lineinterfacetodb2)mustbeonyourpath
iftest$#=4
then
db2connectto$1user$2using$3
db2grantbind,executeonpackagedsadm.db2esqltogroup$4
db2connectreset
db2terminate
else
echo'Usage:
db2grant.sh'
exit1
fi
执行上述两个脚本:
./db2setup.sh[DBNAME][USER][PASSWD]
./db2grant.sh[DBNAME][USER][PASSWD][dsadm用户主组]
以本次配置为例,应该执行:
./db2setup.shqetldbdb2inst1db2inst1
./db2setup.shqetldbdb2inst1db2inst1dstage
确保脚本执行完毕,没有错误发生。
如发生错误,请尝试拷贝命令,在命令行中执行。
3.2.13重启动DataStage服务
断开所有DataStage客户端。
停止DataStage服务,执行命令uv–admin–stop
等待30秒uv-admin-start重新启动DataStage服务。
3.2.14DB2EESTAGE配置结束
在JobParameters中添加:
$APT_CONFIG_FILE,令其等于第10步中创建的DataStage配置文件
$APT_DB2INSTANCE_HOME,令其等于/home/dsadm
在DB2EEStage中添加ClientInstanceName,等于本地客户端创建时的实例名。
尝试ViewData,如果可以看到数据则配置成功。
配置过程中,不可随意更改路径顺序,必要时请参照图片。
3.2.15验证
创建测试job,测试向DB2数据库中装载数据
同上面验证方法一样,程序状态为Finished则集群配置成功。
3.3DataStage环境配置
3.3.1新建工程ETL_ODS
通过DataStageAdministration登陆ETL服务器,点击Add按钮新建工程ETL_ODS,并指定工程所在路径。
3.3.2配置工程环境
建好工程后点击Properties按钮,进入下图界面,
点击Envirorment按钮
进入OperatorSpecific,设置环境变量APT_COPY_TRANSFORM_OPERATOR的值为True。
设置该环境的变量的目的是:
将TransformerStage编译后的文件rcp到各个物理几点对应的工程目录下。
当然,如果工程目录为各物理节点所共享则可以不用设置该变量。
进入UserDefined菜单下,添加变量APT_IMPEXP_ALLOW_ZERO_LENGTH_FIXED_NULL,并将其值设为yes
该变量设置后,对于各种字段类型,在DataStage读文本的时候,如果两个字段分隔符间没有任何字符,则认为该字段为空,如果该字段为非空,在sequencefilestage中可以针对每个字段做相应的空处理。
3.3.3配置节点
修改节点配置文件:
$DSHOME/../Configurations/default.apt
如下所示:
{
node"node1"
{
fastname"dev91"
pools""
resourcedisk"/dsapp/scratch/DataSet"{pools""}
resourcescratchdisk"/dsapp/scratch/Pool"{pools""}
}
node"node2"
{
fastname"dev91"
pools""
resourcedisk"/dsapp/scratch/DataSet"{pools""}
resourcescratchdisk"/dsapp/scratch/Pool"{pools""}
}
node"node3"
{
fastname"dev88"
pools""
resourcedisk"/odsapp/DataSets"{pools""}
resourcescratchdisk"/odsapp/scratch"{pools""}
}