datastage综合使用参考手册.docx-资源下载

datastage综合使用参考手册.docx

1、datastage综合使用参考手册Ascential DataStage Enterprise Edition 综合使用参考手册1. 引言1.1. 编写目的IBM DataStage作为项目主要使用的ETL开发工具，在项目中得到了比较充分的应用，对IBM DataStage产品方方面面的功能，都有所涉及。作为对产品使用的了解和技术沉淀，我们搜集整理了这个总结性质的手册，旨在综合描述该产品的安装、常规应用、高级开发等等项目所涉及到的各个方面。为项目组内部或其他使用该产品的项目组提供一个全面而综合的产品操作指导，帮助使用者能够在最短的时间内了解该产品，并上手使用。1.2. 帮助使用由于DataSt

2、age产品功能强大，配置复杂，我们不可能在本手册中涉及到所有功能，也无法对每一个描述的能够都给出详尽的例子。能够为阅读者穿针引线的整理产品的开发思路，通过对常用、基本的功能的描述，让大家掌握到该产品的使用精髓，并能够举一反三的掌握其它本手册没有介绍的功能。这就是我们的目的。我们通常使用的帮助有如下两个途径。a.智能化的帮助功能；产品在几乎所有的操作窗口都有一个Help键，点击该键可以显示出当前使用的界面的功能和各项选项的具体的说明和操作方法。DataStage独有的智能化的帮助能够指引你方面的查找到你想要得到的帮助。b.Online Manuals；就是产品安装后程序组中的DataStage

3、Documents，里面更加综合、全面的对整个产品从普通到高级，从Server版到Enterprise Edition版，从For Windows到For Unix等等方面的详尽叙述。能够帮助更加系统、全面的掌握该产品。2. 产品概述DataStage企业版是原Ascential Software公司所有企业整合系列产品中关键产品。企业版支持大容量数据的收集、整合和转换，数据从简单结构到很复杂的结构。基于高可扩展性的软件架购，企业版使得企业能够通过高性能来解决大部分业务问题，并行处理大容量数据。强大的企业元数据管理能力使得可以在数据整合生命周期中在所有工具中共享和使用工具。DataStage企

4、业版发布了四个核心功能来成功实施企业数据整合：advanced development and maintenance，先进的开发和简单化的维护；enterprise deployment and management，企业级别的开发、监测和管理；highly scalable architecture，在吞吐量和性能方面提供了无限制的高扩展的体系架构；end-to-end enterprise meta data management，端对端的企业级元数据管理。2.1. Advanced Development and MaintenanceDataStage企业版提供了全面的功能去最优化用

5、户在建立、升级和管理数据整合架构时的速度、灵活性和效率。DataStage企业版增强的功能减少了学习的周期、简单化了管理和优化了开发资源的使用，减少了数据整合应用的开发和维护周期。结果，DataStage企业版使得企业能够花更少的时间开发他们的整合应用，更多的时间是不断的从中受益。DataStage企业版使用了Client-server架构，如下所示。图一、DataState企业版Client-Server架构用户通过各个客户端工具访问DataStage企业版的开发、配置和维护功能。这些工具包括：Designer：用来建立和编辑DataStage作业和表的定义。Designer中的“Job S

6、equencer”控制作业的执行，其他作业成功完成（或失败，等）的条件。Administrator：用来执行管理任务，如建立DataStage用户、建立和删除工程并且建立清洗标准。Manager：用来编辑管理用户工程的DataStage资料库。Director：用来验证、时序安排、运行和监测企业版作业。如图一所示，DataSage企业版的服务器组件运行在一系列的流行服务器上，如Unix、Windows等。2.2. Complete Development Environment用户使用DataStage企业版的Designer组件建立企业版数据整合应用。企业版设计是基于数据流的概念。数据流使得

7、用户非常容易建立和理解应用。用户在一个强大的图形化调色板上通过一系列的功能组件（Stage）标示数据集合的流程来构建一个数据整合应用。一个完整的数据流图（DataStage作业），从一个永久存储的数据源开始，并且执行一系列的增值转换和其他处理操作，最后加载数据到一个永久的存储。一个完整的企业版数据流图如图二所示。图二、DataStage企业版数据流图示在建立一个企业版数据流图表时，通过一系列的处理步骤对庞大的数据集合构架顺序流。用户不需要担心如何在多处理器计算机上运行该应用。每个企业版Stage是一个完整的功能组件，这些Stage摒弃了对通用数据处理用于的传统编写代码方式。用户可以在企业版De

8、signer GUI中找到这些内嵌的Stage。用户可以使用Stage的下拉菜单来调整Stage的参数。企业版Aggregator Stage的编辑器如下所示。图三、企业版编辑Aggregator Stage图标和Stage编辑器例子企业版Transformer Stage是一个强大和灵活的组件，允许用户对input link输入的数据进行转换。并且将数据传到另一个活动的Stage或者将数据写到目标数据或文件。Transformer编辑器（如下所示）使得用户可以在input liks和output link间简单建立mapping，并且可以使用BASIC等语言建立任意转换。这些转换可以并行执行

9、来提高吞吐量和性能。企业版提供了超过100个内嵌的功能，另外可以用C或C+编写的route在转换中使用和进行互操作。图四、企业版Transformer Stage图标和Stage编辑器例子企业版的内嵌扩展Stage提供了数据整合应用中80到90的最常用的逻辑需要。另外，企业版提供了许多机制用来建立自定义的Stage：Wrapped允许并行执行一个顺序程序。Build允许自动并行执行自定义Stage的C语言表达式。Custom 提供了完整的CAPI，来开发复杂和扩展的Stage。基于组件架构和扩展内嵌组件类库的DataStage企业版消除了对传统编码方式的需要，最大化了组件的重复使用。企业版开发

10、和扩展架构使得和第三方软件和以存在的程序的整合到扩展数据整合应用变得非常容易。其次，企业版提供了Director和Manager的图形化功能。象前面说过的，manager是用来管理工程的，包括导入和导出组件，用来将应用配置到产品。Dirctor用来执行和监测job（或job序列）。另外，企业版提供了commandline、API和web services用来对应用进行配置、执行、监测和管理。Job能够使用所有的工具进行开始、停止和监测。可以提供所有的工具查看Job监测的详细内容包括Dirctor。企业版返回的信息包括每个并行分区的记录条数、CPU使用率、开始/结束时间等。所有的这些都是在单独的

11、stage级别。2.3. Highly Scalable Architecture建立在高扩展软件架构上的企业版提供了高级别的吞吐量和性能。象前面所描述的，用户可以使用企业版的Designer工具建立简单的顺序数据流图表。当构架出顺序的数据流图表，用户不用担心底层的硬件架构和处理器的数量。一个专门的配置文件可以定义这些底层多处理器计算环境中的资源（处理器、内存、磁盘）。这个配置可以在顺序数据流图表和应用的并行执行之间建立一个清晰的分离。这样就可以很简单开发扩展的数据整合系统并且并行执行（如图六所示）。DataStage企业版可在管道并行和分区并行的机制下执行，这样可以获得高吞吐量和性能：数据管

12、道意味着应用可以从源系统拉入数据并且在数据流图表中定义的顺序处理功能间移动。记录通过管道进行流动使用上面介绍过的数据集合【虚拟】这样使得记录通过一系列的功能组件进行流动而不需要将记录加载到磁盘。数据分区是一种将记录集合分割到各个分区，或记录子集的并行方法。数据分区通常提供了一种好的、可以线性增长的应用性能。企业版支持记录集通过应用流的自动分区，象DB2一样使用hash、range、entire、random、round robin等方法。2.4. EndtoEnd Enterprise Meta DataMeta Data是数据整合基础架构的黏合剂，是维护一致性、分析解释清晰和正确的关键。Da

13、taStage企业版的端对端元数据在数据整合生命周期中所有的工具中共享，确保有关元数据可以勾画出一个清晰、明确的业务视图。DataStage企业版元数据管理通过提供一致、正确的元数据来帮助用户管理数据中有用的部分。这样就可以减少在多工具中共享元数据时候存储和更新元数据目录的负担。通过DataStage企业版的元数据分析和管理功能确保整个商务智能架构中整合和业务规则的重复使用变得简单，而不需要传统编码方式。DataStage企业版不像竞争对手，因为对ETL工具的偏执，而使得整个整合处理不能得到一个完整的元数据视图。DataStage企业版通过提供独特的元数据共享功能而不仅仅在ETL工具中具有，避

14、免了不同方法定义间的混淆和冲突，这样就使得用户可以在建模工具、ETL工具和最终用户报表工具中获得最完整的语义层。确保没用的或冗余的元数据被排除掉，使得业务管理者通过常用的方法理解数据，作出严谨的决策。3. 安装DataStage的安装分Server端和Client端两部分，我们以DataStage 7.5 for Aix 5.1/5.2为例，来详细说明其安装步骤。3.1. Server安装3.1.1. Server安装前准备1)硬件及软件准备准备内容具体要求描述1.硬件环境CPU(建议每个node分配2个CPU)内存(建议每个node分配2G内存)磁盘空间至少1.5G硬盘空间4.软件环境IBM

15、 AIX 5.1, 5.22)创建用户及组1)在安装机器上创建dstage组, ADMINISTRATIVE USER 选项为true，Primary GROUP，Group SET，ADMINISTRATIVE GROUPS：均为dstage2)创建用户dsadm，主属为dstage ，ADMINISTRATIVE USER 选项为true；确保主机重启时datastage server也同样自动重启。3)用户dsadm的环境变量设置用dsadm用户登入，在profile文件添加如下内容（请根据实际环境进行修改）：#- oracle -export ORACLE_HOME=/home/db/

16、oracle/product/10.2.0export PATH=$PATH:$ORACLE_HOME/binexport NLS_LANG=AMERICAN_AMERICA.ZHS16CGB231280export LD_LIBRARY_PATH=$ORACLE_HOME/lib:$LD_LIBRARY_PATH:/lib:/usr/lib:/home/ap/dsadm/Ascential/DataStage/DSEngine/lib:/home/ap/dsadm/Ascential/DataStage/RT_BP1.O:/home/ap/ods/lib:/home/ap/ods/bin:$

17、ORACLE_HOME/lib32#- datastage -export DSHOME=/home/ap/dsadm/Ascential/DataStage/DSEngineexport LANG=iso8859export APT_ORCHHOME=/home/ap/dsadm/Ascential/DataStage/PXEngineexport PATH=$PATH:$HOME/bin:$APT_ORCHHOME/bin:$DSHOME/bin3.1.2. Server安装步骤Tar开安装程序包 v7.5.tar确保以超级用户root进入系统(非常重要)(1) 执行 ./install.

18、sh admin root (2) 验证dsadm用户环境变量设置，确认输入y，回车：(3) 安装向导画面，输入n，回车(4) 版本更新信息，输入n，回车(5) license agreement，输入 y，回车(6) 选择安装文件临时存放目录，此目录必须存在，dsadm用户要有存取权限，且目录必须为空，输入 c 可以改变临时目录，使用默认临时目录输入n，回车(7) 输入serial number,CPU count，expiration date，enterprise edition code, server code ，回车。MVS edition code不用输入，注意日期的格式。(8)

19、确认serial number,CPU count，expiration date，enterprise edition code, server code是否正确，正确，输入n，回车(9) 根据实际购买RTI Agent,SAS Integration,IMS Source情况,以下三个code可以选择填写，输入 n ，回车(10) 确认DataStage Server的安装目录，根据实际情况选择c做更改，指定目录dsadm需有存取权限，确认安装目录后，输入c，回车进行修改(11) 修改正确的DataStage Server的安装目录/home/ap/dsadm，回车 (12) 确认Dat

20、aStage的安装目录已修改成/home/ap/dsadm，输入n，回车(13) 选择语言，输入c，回车进行修改(14) 选择Chinese-Simplified简体中文，输入6，回车(15) 确认已选择6 Chinese-Simplified简体中文，输入n，回车注意：语言一定要修改为 CHS (16) 选择相关插件，这样要把所有插件都选择安装，输入a，回车(17) 确认已选择所有插件都安装，输入n，回车(18)DataStage工程存放路径，回车选择默认路径，如需指定确保dsadm有存取权限(19) 创建工程，第一次创建的默认工程不用，随便起个名字，将来在JCI公共组件安装的时候会重新建立

21、工程。(20) 输入U，回车。U为非受保护工程，P为受保护工程。(21) 回车(22) 输入n，回车(23) 确认DataStage的安装路径，输入n，回车(24) 确认oracle数据库的安装路径，输入n，回车(25) 输入n，回车(26) 输入n，回车(27) 确认环境，输入n，回车(28)执行关于Oracle 数据库的相关驱动程序#cd /home/ap/dsadm/Ascential/DataStage/PXEngine/install执行命令 #./install.liborchoracle (29)安装完data stage，请修改datastage安装目录的属性dsadm：dst

22、age 以及文件权限为 775 。3.1.3. 验证DataStage的安装检查Datastage的进程是否已启动，执行命令#ps -ef |grep dsrpcd检查/etc/services，执行命令#vi /etc/services，有如下信息3.1.4. Server启动和停止以dsadm用户进入，执行以下命令：1)Server启动命令：$HOMEDIR/uv admin -start注意：启动前,需要查看端口是否被释放,通过netstat af inet |grep ds查看，如果有连接，则需要等待操作系统自动释放后在启动服务。2)Server停止命令：$HOMEDIR/uv adm

23、in /stop注意：停止前最好确保没有Client连接，可以通过onstat a |grep ds查看，是否还存在Client连接，否则要通知相应登录的client端彻底退出。3.2. Client安装1)执行datastage client文件夹中执行 setup，选择client端安装。注意：Client需要安装Microsoft .Net Framework支持。如未安装Framework，client安装程序开始后会提示是否从安装光盘安装Framework,选择是安装Framework。安装结束后，请重新执行安装光盘中的setup，继续安装client.2)依次输入客户端的输入 S

24、erial number，User Limit，Enterprise Code, Authorization Code；3)选择安装文件夹，点击 Next 直到安装完成。4. 常规应用4.1. 常用组件使用方法4.1.1. Sequential file功能特点：适用于一般顺序文件（定长或不定长），可识别文本文件或IBM大机ebcdic文件。使用要点：按照命名规范命名点住文件，双击鼠标，在general说明此文件内容，格式，存储目录等修改文件属性，文件名称，reject方式等到修改文件格式，比如记录结束符是什么，字段分隔符，字符串是用什么区别等输入此文件字段内容 4.1.2. Annot

25、ation功能特点：一般用于注释，可利用其背景颜色在job中分颜色区别不同功能块使用要点： 4.1.3. Change Capture Stage功能特点：Change Capture Stage有两个输入，分别标记为before link 及 after link。输出的数据表示before link和after link的区别，我们称作change set。Change Capture Stage可以和Change Apply Stage配合使用来计算after set。key及value的说明key值是比较的关键值，value是当key值相同是作进一步比较用的。change mode选项

26、说明：All keys，Explicit Values 需要指定value，其余字段为keyExplicit Keys&Values key及value都需要指定Explicit Keys，All Values 需要指定key，其余的字段为value输出策略说明Drop Output For Copy False：保留before及afte link中key值相同的行 True：删除before及afte link中key值相同的行Drop Output For Delete False：保留before link中有但是after link中没有的key值所在的行 True：删除before

27、 link中有但是afte link中没有的key值所在的行Drop Output For Edit False：保留key值相同,value不同的行 True：删除key值相同,value不同的行Drop Output For Insert False：保留before link中没有但afte link中有的key值所在的行 True：删除before link中没有但afte link中有的key值所在的行4.1.4. Copy Stage功能说明：Copy Stage可以有一个输入，多个输出。它可以在输出时改变字段的顺序，但是不能改变字段类型。注意：当只有一个输入及一个输出时最好将Fo

28、rce设置为True，这样可以在Designer里看到运行结束，否则将无法标识运行结束，但不会影响运行结果数据。4.1.5. Filter Stage功能说明：Filter Stage只有一个输入，可以有多个输出。根据不同的筛选条件，可以将数据输出到不同的output link。 4.1.6. Funnel Stage功能说明：将多个字段相同的数据文件合并为一个单独的文件输出合并策略说明Continuous Funnel：从每一个input link中循环取一条记录Sort Funnel：按照Key值排序合并输出Sequence：先输出第一个input link的数据，输出完毕后再输出第二个i

29、nput link的数据，依此类推，直到结束。(此时可以通过调整link Ordering调整输出顺序)4.1.7. Tansformer Stage功能说明：一个功能极为强大的Stage。有一个input link，多个output link，可以将字段进行转换，也可以通过条件来指定数据输出到那个output link。在开发过程中可以使用拖拽。Constraint及Derivation的区别Constraint通过限定条件使符合条件的数据输出到这个output link。Derivation通过定义表达式来转换字段值。在Constraint及Derivation中可以使用Job param

30、eters及Stage Variables。注意：Transformer Stage功能强大，但在运行过程中是以牺牲速度为代价的。在只有简单的变换，拷贝等操作时，最好用Modify Stage，Copy Stage，Filter Stage等来替换Transformer Stage。4.1.8. Sort Stage功能说明：只能有一个输入及一个输出，按照指定的Key值进行排列。可以选择升序还是降序，是否去除重复的数据等等。Option具体说明 Allow Duplicates：是否去除重复数据。为False时，只选取一条数据，当Stable Sort为True时，选取第一条数据。当Sort

31、 Unility为UNIX时此选项无效。 Sort Utility：选择排序时执行应用程序，可以选择DataStage内建的命令或者Unix的Sort命令 Output Statistics：是否输出排序统计信息到job日志 Stable Sort：是否对数据进行二次整理 Create Cluster Key Change Column：是否为每条记录创建一个新的字段：clusterKeyChange。当Sort Key Mode为Dont Sort(Previously Sorted) 或 Dont Sort (Previously Grouped)时，对于第一条记录该字段被设置为1，其余的记录设置为0。Create Key Change Column：是否为每一条记录创建一个新的字段KeyChange。

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？