DataService操作手册.docx-资源下载

DataService操作手册.docx

1、DataService操作手册DataServices培训总结-操作手册一、 DS简介二、 DS数据加载方式三、 DS进行数据抽取模型幵发的基本过程四、 DS创建数据源系统和目标系统的数据存储 1、 Oracle数据库作为数据源系统 2、 ECC乍为数据源系统 3、 HANA数据库作为目标系统五、全量加载过程 1、创建 Project 和 Job 2、导入源表的元数据到资源库 3、仓U建 Data Flow 4、设置源表和目标表 5、手工执行 Job 六、基于表比较的增量加载 1、在 Job下定义工作流 2、在工作流中定义数据流 3、加入 Table Compari

2、son 控件 4、设置 Table_Comparison 控件七、基于时间戳的增量加载 1、在 Job下定义工作流 2、定义Script 控件 3、定义处理新增数据的数据流和处理更新数据的数据流八、 DS中常用控件介绍 1、 Key_Generation 2、 Case 3、 Merge 4、 Validation 5、设置过滤器和断点九、定义 Job定期执行 1、登录 Data Services Man ageme nt Con sole 2、定义 Batch Job Schedules 十、其他注意事项一、DS简介SAP BusinessObjects Data S

3、ervices 是通过 SAP HAN献证的 ETL工具。采用数据批量处理的方式，定期执行后台作业，将数据从多个业务系统中抽取出来，并进行必要的处理（转换，合并，过滤，清洗），然后再加载到HANA数据库中。DS的组件之间的关系：Man ageme nt Con sol :管理控制台是网页版DS管理工具，可以进行一些系统配置和定义 Job执行Designer :Designer是一个具有易于使用的图形用户界面的幵发工具。它允许幵发人员定义包括数据映射，转换和控制逻辑的数据管理应用程序，创建包含工作流（作业执行定义)和数据流 (数据转换定义)的应用程序Repository ：应用程序设计器

4、使用的本地资源库用来存储 Data Services 对象(如项目，作业，工作流，和数据流)的定义和源和目标的元数据Job server ：作业服务器启动数据移动的从多个不同种类的源集成数据的引擎，执行复杂的数据转换，并管理从ERP系统和其他源的抽取和事务二、DS数据加载方式全量加载增量上载a)基于表比较作业在执行时读取数据源和目标中的全部数据，在服务器的内存中进行比较，计算数据差异b)时间戳增量需要在数据源中添加时间戳字段，一般为创建时间和最后修改时间，在抽取作业中定义对两个时间戳字段进行对比，符合条件的创建时间条目进行插入，符合条件的修改时间条目进行更新c)利用数据库 C

5、DC(changed data capture )首先需要幵启数据库的 CDC服务，为数据库实例启用 CDC功能，为源表启用 CDC功能。在这种模式下，DS的增量更新不再直接访问源表，而是在与源表相关的变更记录表中读取增量三、DS进行数据抽取模型开发的基本过程为数据源创建数据存储导入源表的元数据到资源库为SAP HANA目标系统创建数据存储新建DS项目和批量作业新建 DS 数据流：定义源表和目标表，定义变量、编辑 Query 和Map_CDC_Operation执行批量作业四、DS创建数据源系统和目标系统的数据存储1、 Oracle 数据库作为数据源系

6、统登录 Data Services Designer ，在本地对象库的数据存储页签中单击鼠标右键，选择新建菜单创建数据存储“ EAM_TES”在弹出的对话框中输入 EAM数据库的连接信息2、 ECC作为数据源系统同样在创建 DataStore时，输入ECC的连接信息3、 HANA数据库作为目标系统在创建DataStore时，输入HANA数据库的连接信息五、全量加载过程1、创建 Project 和 Job在本地对象库的project页签中单击鼠标右键，选择新建菜单，创建项目“ ERP_D” 双击该项目，在“ Project Area ”，可以在该项目下创建 Job2、导入源表的元数据到资源库在

7、本地对象库的数据存储页签中，选择源系统的数据存储，单击鼠标邮件，选择“ Import By Name ”，输入需要导入到资源库的表名称。导入成功后，在数据存储的 table 目录下可以看到导入的表3、创建 Data Flow单击“General ” Job，在右边空白区域单击鼠标邮件，选择“Add New - “ Data Flow”4、设置源表和目标表单击创建的Data Flow，将需要导入到HANA数据库中的源表拖入到 Data Flow区域中，将 Data Flow 区域右侧的工具条中的模版表拖入 Data Flow 区域创建模版表输入模版表名称、HANA目标系统的数据存储、H

8、ANA数据库存放DS抽取数据表的用户名。连接源表和目标表双击模版表，设置“ Options ”中的“ Use NVARCHAR for VARCHAR5、手工执行 Job选择 Job ，单击鼠标右键，选择“ Execute ”执行成功之后，在 HANA数据库中的ERPDSUSER可以看到“ T161T”可以查看数据表的内容。执行过程信息和结果可以在监控器中查看。六、基于表比较的增量加载1、在 Job 下定义工作流2、在工作流中定义数据流在数据流中定义源表和模版表，执行Job,执行成功之后，在目标系统数据存储的Template Table 目录下可以看到创建的模版表3、加入 Tab

9、le_Comparison 控件选择模版表，单击鼠标邮件，选择“ Import Table ”。模版表会更新为 Tables 目录下的数据表。通过将转换 -数据集成中的“ Table_Comparison ”控件拖入到数据流中的方式添加“ Table_Comparison ”控件将源表连接“ Table_Comparison ”控件，“ Table_Comparison ”控件连接目标表。4、设置 Table_Comparison 控件双击“ Table_Comparison ”控件，设置相关参数：比较的目标表、表的主键，需要比较的字段。当需要比较的字段为空时，会比较所有字段。建议按照需

10、要填写需要比较的字段，可以加快处理速度。保存后执行 Job。七、基于时间戳的增量加载1、在 Job 下定义工作流在工作流中定义 Script 控件，读取数据抽取后最新的创建时间和更改时间，定义一个处理新增数据的数据流和一个处理更新数据的数据流2、定义 Script 控件在 Script 控件中需要使用变量存放读取的最新的创建时间和最新的更改时间。选择Job，在工具栏选择“ Variables ”按钮，创建全局变量双击“ Script ”控件，编写SQL语句，从HANA数据库表中读取最新的创建时间和更改时间3、定义处理新增数据的数据流和处理更新数据的数据流双击“ EBAN_Ne”数据流，加

11、载源表， Query，Map_CDC_Operation控件和目标表双击Query，在输出字段中增加“Sequenee”和“Operation ”两个字段。“Sequenee” 字段使用函数gen_row_num()进行赋值，“Operation ”赋值为 T 在Quey中设置Where条件双击 Map_CDC_Operation控件，设置 CDC Columns同样的方式定义“ EBAN_Upd数据流，在Query的where条件中定义为在Query的数据结果中增加 “Sequenee”和“Operation ”两个字段。“Sequenee” 字段使用函数gen_row_num()进行赋值

12、，“Operation ”赋值为U保存后，执行Job。可以通过修改源系统数据测试基于时间戳的增量加载。八、DS中常用控件介绍1、 Key_Generation在源表基础上为目标表重新生成主键在 Query 中增加“ ID ”字段，赋值为 0。在 Key_Generation 控件中设置目标表、主键字段、主键值增加量2、 Case将源表根据规则进行拆分双击 Case 控件，设置拆分条件当 SOURCE = 1 时，输出 SPFLI_1,当 SOURCE =2寸，输出 SPFLI_23、 Merge将具有同样数据结构的源表进行合并Source，在Query中增加输出字段Source,赋值为1。在Q

13、ueryl中增加输出字段赋值为2。在Merge中将两个表的内容合并输出。4、 Validation提取数据源表中的正确数据，将错误数据单独存放在其他表中双击 Validation 控件，设置“ Validation Rule ”5、设置过滤器和断点选择源表到目标表的连接线，单击鼠标右键，选择 Set Filter/Breakpoint ，设置Debug 条件（当满足某种条件时进入断点，或者在满足过滤条件的同时执行多少条数据后时进入断点）选择 Job ，单击鼠标右键，选择 Start debug 工具栏上的按钮可以控制执行下一条数据、继续执行、终止 DebugDebug过程中进入断点后，

14、可以一次查看数据加载结果九、定义 Job 定期执行1、登录 Data Services Management Console单击工具栏的“ Data Services Management Console ”按钮进入 Data Services Management Console 的登录界面单击进入 Administrator 界面2、定义 Batch Job Schedules在 Batch Job Configuration 页签选择 Add Schedules 进入批量执行 Job 的设置界面可以设置每周的某一天执行（一周执行一次）或则每月的某一天执行（一个月执行一次），也

15、可以设置为每天都执行。都选“ Recurring ”则会定期循环执行，否则只执行一次。可以设置一天执行一次，也可以一天执行多次，设置开始执行时间。上图中如果设置为一天多次执行，开始时间为上午 1 点，持续时间为 600 分钟，间隔时间为 360 分钟，则 Job 会在一天的上午 1 点和上午 6 点各执行一次。如果设置时间间隔为 240 分钟，则 Job 会在一天的上午 1 点、上午 5 点和上午 9 点各执行一次。（总持续时间不超过 10 小时）。十、其他注意事项1、客户端安装包需要注意和服务器 DS版本一致2、在第一次登录 CMS信息时，无法成功。ping sapdstest 也

16、失败，需要在 host文件中添加对应的地址和域名3、连接 Oracle 数据库作为数据源时，需要在客户端上安装 Oracle 客户端，设置tnsname.ora文件，设置环境变量ORACLE_HOME后重启服务器；连接HANA数据库时，需要安装HANA客户端4、在连接ECC作为数据源时，需要幵启系统跨客户端编辑权限5、在HANA中新建ERPDSUSE作为存放DS抽取表的Schema将ERPDSUSE给SLTADM赋权限，包括查询和创建的权限6、全量抽取时，目标表不能使用导入表，需要使用模版表，模版表每次会删除重建，导入表会出现主键重复的错误提示7、基于时间戳的增量加载，源表中需要有创建时间和更改时间两个字段，分别处理新增和修改的数据8、如果只是设置过滤器而没有设置断点，在进行 Debug时，Job会执行成功，过滤器有效。如果不进行 Debug,直接执行，设置的过滤器不起作用

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？