DataStage作业开发规范V23.docx-资源下载

DataStage作业开发规范V23.docx

1、DataStage作业开发规范V23 DataStage 开发规范北京先进数通信息技术有限公司2007年11月文档信息标题DataStage开发规范创建日期2007-11-4文件名DataStage开发规范V2.3.doc存放目录作者陈博修订记录日期描述作者2007-11-09修改了SQF STAGE的命名以及参数命名陈博1. 布局规范布局应自左向右，自上而下，层次分明，布局协调，主要的数据流为从左到右成直线（单一输入输出）或成扇形（多输入输出），次要数据流为自上到下成直线（单一输入输出）或成扇形（多输入输出），STAGE与STAGE 之间应留有足够的空间展示STAGE之间连接线上的信息。单

2、主要输入输出，如下图：多主要输入输出如下图：2. 注释规范作业的头上须表明作业加工的档名，下方须表明作业加工逻辑，所有的属性中须注名作业的作者，及设计思路。对设计的流程做适当的说明以便让人更易理解，如上图。3. datastage命名规范注意事项：Stage的命名全部使用英文，参数注释也必须使用英文。Job中使用Annotation stage来做模块说明可以使用中文注释。命名规范为：三位大写字母表示stage的类型 + 小写字母组成的其它信息。所有的输入、输出以及HASH文件均采用参数赋值，参数名与Sequential file的命名类似。3.1 Sequential file输入输出分隔

3、符输入输出的分隔符号格式如下图：3.2 Project命名分成两个Project，一个用于开发odsdvlp，一个用来管理已经完成的作业:odsver。3.3 Job目录的命名根据实施阶段的不同来命名job的目录。在odsdvlp中：1.逻辑模型设计目录在Jobs下建立目录logic model。再在logicmodel目录下建立不同源系统的目录，用于存放逻辑模型设计阶段的各个源系统的job，并且作业名后缀为“_lgc”。2.物理设计目录在Jobs下建立目录physic model。再在physicmodel下建立不同源系统的目录。用于存放物理模型设计阶段的各个源系统的job，并且作业名后缀为

4、“_phy”。3个人目录在Jobs下，建立目录test，test中为每个人创建一个私人用来做调试的目录。3.4 Job的命名3.4.1 按功能划分的job命名此种job的命名是针对一项任务拆分成为了多个job的命名方式格式：逻辑模型阶段：Systemname_targetsystemname_tablename_jobtype_lgc物理模型阶段：Systemname_targetsystemname_tablename_jobtype_phy说明：系统名（与业务系统不属于一个概念）说明bcv数据源（INFORMIX数据库）fs文件服务器sdm标准层fdm基础模型层待补充Systemname：

5、源系统的名称Targetsystemname：目标系统名Tablename：目标系统的表名称Jobtype：job的任务类型Jobtype说明Ex抽取(Extract)Tr公共代码转换(Transform)Ld加载(Load)FTP传输(FTP)待补充3.4.2 单独流程的job命名此种job的命名是针对一个任务在一个job中就全部完成的命名方式。格式：逻辑模型阶段： srcsystemname_targetsystemname_tablename_lgc物理模型阶段： srcsystemname_targetsystemname_tablename_phy说明：Srcsystemname 源

6、系统名称Targetsystemname 目标系统名称tablename 目标系统表名3.5 Stage的命名Stage Name命名说明AggregatorAGG_description聚合DB2/UDB API(DB2/UDB Enterprise)DB2_tablenameDB数据表，其中tablename为表名Ftp Enterprise(ftp plug-in)FTP_direction_filenameFTP，其中direction为ftp的方向，get为下传，put为上传，filename为生成的文件名MergeMRG_description数据合并ODBC data acces

7、sODB_tablenameODBC数据表，其中tablename为表名Oracle OCIORA_tablenameOracle数据表，其中tablename为表名Informix CLIINF_业务系统名_tablename例如：从CBS采集数据到文件服务器：inf_cbs_ t_srm_itm_dictInformix数据表，其中tablename为表名Sequential file卸数阶段，只会有一个输出文件，命名为:SEF_业务系统_原表表名_属性。从文件系统取数据，加工到SDM，只会有一个输入文件，命名同卸数的输出：SEF_业务系统_原表表名_属性。WARING和REJECT文件，

8、只出现在从文件系统取数据，加工到SDM，命名为：SEF_业务系统_原表表名_属性_wr/rj。业务系统包括：CBS、PBS、CMMS、ATMP属性包括：ADD、ALL文件操作，参见上面的文件命名规范Systemname为源系统的名称Table为操作文件数据的表名称增量全量标志为 All：全量Add增量，del-删除文件。如果存在跨系统的生成的目标文件，源系统名填写输入主表对应的系统Hash fileHASH_业务系统_原表表名_属性。注：在此次项目中不会出现SortSRT_description数据排序TransformerTRF_description数据转换由于需要根据输入、输出文件的st

9、age的名称进行数据平衡跟踪以及，故输入输出文件的stage命名必须严格按照上述的规范。3.6 Link的命名格式：LK_description说明： LK为link的简称，所有的link命名都使用LK作为头。如Sequential file的link指向一个look up。则link命名为LK_description注意：1.如果一个stage只有一个link的输入，则不需要填写Description,只需要填写link的序号。2.如果一个stage有多个link的输入或输出，则需要填写Description。Description的填写方式要体现link的主从关系。为主键的link的Des

10、cription填写master，其他的link填写subject序号。例如一个join stage有2个link的输入，主的link为LK_left，另一个link为LK_right。如一个filter stage 有两个输出（分别是性别是男的和女的的输出），则一个link命名为LK_male，另一个link命名为LK_female等。3.7 Routine命名格式：RT_functionname说明：functionname为Routine的功能描述3.8 DATASTAGE 中Table Definition命名ETL过程中的TableDefinition共有以下几类：3.8.1 Sou

11、rce格式：source/systemname/tablenamesdm/systemname/tablenamefdm/systemname/tablename说明：systemname为源系统简称tablename为源表名3.8.2 Target格式：systemname/target/tablename说明：systemname为目标系统简称tablename为目标表名3.9 DATASTAGE 中Schema命名格式：$PATH_CFG/schema/systemname_tablename.osh说明：systemname为源系统简称tablename为源表名3.10 Store p

12、rocedure程序命名格式：systemname_functiondescription说明：systemname为系统简称functiondescription为存储过程的功能说明，如果存储过程是为了加载某张表，则直接使用表名，如果该存储过程只是为计算某一特定字段，则可用该字段名表示，如果是同时计算多个字段，则独立命名3.11 Shell Script程序格式：systemname_scriptdescription说明：systemname为系统简称scriptdescription为shell脚本的功能说明3.12 SQL Script程序格式：systemname_scriptdes

13、cription说明：systemname为系统简称scriptdescription为sql脚本的功能说明3.13 Reject文件的相关规范文件命名：WARING和REJECT文件，只出现在从文件系统取数据，加工到SDM，命名为：业务系统_原表表名_属性_wr/rj。业务系统包括：CBS、PBS、CMMS、ATMP属性包括：ADD、ALLReject的内容：长度不对的数据3.14 控制文件的相关规范文件命名:目标文件名_ctl.xml内容规范:(举例) 开发样例：（参考sample job：hdfile_sample_xml）3.15 就绪文件的相关规范文件命名:target_system

14、_source_system_xxx_READY_yyyymmdd.xml内容规范: FF1010_0001_XXX_20060121_000.dat 2344560 117729 所有的输入、输出文件均采用参数赋值，参数名与Sequential file的命名类似。4. 参数规范所有的输入、输出文件、WARING文件以及REJECT文件均采用参数赋值，参数名与Sequential file的命名相同。 Hash文件：同于HASH FILE STAGE的命名Hash文件做匹配的字段需要做去空处理日期采用 par_date以下关于数据库的参数，采用环境变量，用户自定义的参数：数据库:$DB数据库

15、密码:$DB_PASSWD数据库用户:$DB_USER。5. 目录规范开发、测试环境的目录如下：目录名说明/PATH_HOME/bin执行程序目录/PATH_HOME/etc配置文件目录/PATH_HOME/sqlsql脚本目录/PATH_HOME/script引用的脚本目录/PATH_HOME/tools通用工具目录/PATH_HOME/datastageDS的project相关目录/PATH_HOME/log/yyyymmdd日志目录/PATH_HOME/file数据文件目录/PATH_HOME/file/wr存放目录WARING文件/PATH_HOME/file/sdm/存放标准层落地文

16、件/PATH_HOME/file/fdm/存放模型层落地文件/PATH_HOME/home/file/fs/存放FS文件/PATH_HOME/file/rjReject文件目录/PATH_HOME/file/hashhash目录其中file内的目录层次以及目录内的文件命名如下表示：/PATH_HOME/file/fs/cbs/20071011/cbs_源系统的表名_all_20071011.dat/PATH_HOME/file/sdm/cbs/20071011/cbs_sdm_sdm的表名_all_20071011.dat/PATH_HOME/file/fdm/crd/20071011/sdm

17、_fdm_相应主题的表名_20071011_all.dathash文件如下：/PATH_HOME/file/hash/fdm/crd/20071011/sdm_fdm_对应sdm的表名_20071011_all.datrj文件如下：/PATH_HOME/file/rj/cbs/20071011/cbs_源系统的表名_all_rj_20071011.datWr文件如下：/PATH_HOME/file/wr/cbs/20071011/cbs_源系统的表名_all_wr_20071011.dat6. 公共参数、环境变量说明6.1 通用参数系统环境变量静态环境参数（ds project）环境变量名解释

18、类型PATH_HOME主目录StringPATH_DATA数据存放主目录StringPATH_DATA_IN输入数据目录StringPATH_DATA_OUT输出数据目录StringPATH_DATA_TEMP中间数据目录StringPATH_DATA_DATASETdataset数据目录StringPATH_LOG日志目录StringPATH_CFG配置文件目录StringPATH_BIN执行程序目录StringPATH_TOOLS工具目录StringPATH_SQLsql脚本目录StringPATH_SCRIPT其他脚本目录StringSDM_DB数据库StringSDM_DB_USR数据

19、库用户StringSDM_DB_PWD数据库密码EncryptedCBS_DBCMS_DB动态运行参数参数变量名解释类型par_date运行日期Stringpar_branch99位分行号Stringpar_branch33位分行号Stringpar_yyyy四位年Stringpar_mm两位月Stringpar_dd两位日Stringpar_yy两位年Stringpar_m一位月(1-9,10-A,11-B,12-C)Stringpar_t每月的第几旬Stringpar_yesterday昨日Stringpar_btype业务类型String6.2 参数管理、使用环境参数由系统管理员通过DA

20、TASTAGE ADMINISTRATOR进行统一维护；作业开发人员，在开发时定义job的公共变量、私有变量，并将私有变量填写到最新*作业设计模版.xls；作业调度人员通过填写后的*作业设计模版.xls配置生成作业调度的配置表（job sequence登记表）；系统管理员根据填写后的*作业设计模版.xls生成作业参数配置文件；公共组件设计人员根据作业参数配置文件进行相关参数的读取、传递每一个job必须引入5个环境变量值：$APT_CONFIG_FILE $ODS_DB $ODS_DB_USER $ODS_DB_PWD $PATH_HOME6.3 参数传递日常运行：作业调度主控根据job seq

21、uence的登记表按照一定业务规则动态生成run cycle的执行控制文件/表（包括内容：数据日期，job sequence名，前置job sequence名，schedule，执行状态等）；作业调度根据run cycle的执行控制文件/表进行调度，并传递相关的数据日期参数；Job sequence的前处理作业读取“作业参数配置文件”并进行相关参数的组装，并判断相关依赖文件的到达情况，传递作业的参数调用相关job；附录1.SAMPLE附录2.关于开发环境使用及注意事项为规范项目组开发环境使用及保证项目组高效完成开发任务，现将开发环境分配情况及使用中注意事项公布，请项目组成员遵照执行。开发环境：

22、分组开发主机开发用户Project注意事项： 1、各组开发人员请使用分配的开发用户及项目，对于各个Project中的公共部分（表定义、公函、备份等）请各个小组指定专人进行维护。 2、对于每个开发环境下的目录请按照规范使用，不得擅自建立、删除目录。开发Job请在指定目录进行。 3、开发人员完成分配任务后，可将完成的Job或者TableDefine从工具中Export出来进行提交，禁止导出整个Project。 4、开发完成的任务请开发人员主动提交到各个小组负责人处，各个小组负责人审核开发人员提交的任务完成情况，确认无误后提交到项目组版本管理员。项目组正式版本的管理工作由版本管理员进行。5、开发人员每日将阶段的成果（job）导出，并提交CC进行版本管理。注意事项：1、通常一个Project中，Job数量控制在300500个左右以内。2、每个Job中，Stage最多控制在15个左右以内。3、与工程无关的文件尽量不要放在工程目录里，不然对以后备份及版本控制都不利。4、在Job开发作业时，尽量用4个客户端去操纵数据，不要到后台去手工操纵数据，这样属于非法操作，将带来不必要的麻烦

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？