ImageVerifierCode 换一换
格式:DOCX , 页数:94 ,大小:2.19MB ,
资源ID:5008383      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/5008383.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(ELT平台操作手册KETTLE.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

ELT平台操作手册KETTLE.docx

1、ELT平台操作手册KETTLE智能数据比对系统ELT平台操作手册【用户手册】广州市灵讯通信科技有限公司2011-01-7第1章 系统介绍1.1 系统简介ETL平台用于数据的抽取、转换、加载,为数据比对提供数据的采集、转换、导入、导出等功能。第2章 系统管理2.1 基本概念1、 数据库连接:用户自定义的,在转换或作业中使用的数据库连接。2、 转换:数据抽取、转换、加载流程的封装。3、 作业:将多个转换或一些任务封装,用于ETL任务的执行。4、 知识库:固定存储已建立好的连接、转换或作业的位置。5、 数据流:分输入流和输出流,输入流是离开一个步骤时的行的堆栈,输出流是进入一个步骤时的行的堆栈。6、

2、 节点连接:连接两个步骤的连线。2.2 主界面介绍【功能描述】1、 浏览和管理知识库。2、 增加数据库连接。3、 增加转换或作业。4、 导入、导出XML文件。【操作步骤或操作内容】功能1:浏览和管理知识库1、用户进入ETL平台,点击知识库页签,可浏览知识库,如下图所示:2、双击其中一个数据库连接、采集作业或转换,可打开相应的页面,进行查看、运行、修改和删除。功能2:增加数据库连接 单击图标,选择新建数据库连接选项,打开如下图所示窗口:连接类型:选择数据库类型。访问方法:推荐使用JDBC。连接名称:用户自定义。服务器主机:填写数据库服务器IP地址。数据库名称:填写数据库名称。数据库表空间:填写数

3、据库的用户数据表空间名称。索引表空间:填写数据库的索引表空间名称。端口号:填写数据库使用的端口号。用户名和密码:登陆数据库的用户名和密码。功能3:增加转换或作业单击图标,选择新建转换或新建转换选项。功能4:导入、导出XML文件单击图标,可将建立好的转换或作业导出为XML文件,存储在本地,也可从本地XML文件导入到知识库。2.3 基本功能【功能描述】1、 转换管理。2、 作业管理。3、 节点连接类型。【操作步骤或操作内容】功能1:转换管理1、新建或打开一个转换,可看到转换设计页面,如下图: 2、单击主对象树,可将菜单中的转换步骤拖到转换设计页面中。 3、单击可运行转换。 4、右键单击空白区域,可

4、设置转换的属性。功能2:作业管理1、新建或打开一个作业,可看到作业设计页面,如下图: 2、单击主对象树,可将菜单中的作业步骤拖到作业设计页面中。 3、单击可运行作业。4、右键单击空白区域,可设置作业的属性。功能3:节点连接类型1、 在一个节点处按住SHIFT拖动鼠标到另一节点可建立节点连接。2、 改变开始复制的数量有时候多次运行相同的步骤是非常有用的。例如,执行一个数据库查询三次或者三次以上,这是因为数据库连接通常有一个反应时间,改变步骤运行的次数,可以有效的减少反应时间,提高效率。要运行一个步骤的多个副本,你只要在图形界面的步骤上点击鼠标右键,选择“改变开始复制的数量”3、 分发或复制 分发

5、表示所有的行被平均分发到各个目标步骤,复制表示所有行被复制到全部目标步骤。4、 串行或并行仅用在作业中,默认串行,右键单击作业步骤,选择并行,可并行运行一个作业中的各个分步骤。5、 有连接条件和无条件连接仅用在作业中,用于控制连接生效的条件,可设置上一步骤运行成功则运行下一步骤,或上一步骤运行失败则运行下一步骤,或无论成功或失败都运行下一步骤,即无条件连接。如下图:带平行线表示是并行连接;绿色表示该连接生效(灰色表示失效);勾号表示结果为真运行下一步骤,圆圈表示结果为假运行下一步骤,锁标志表示无条件连接。 第3章 转换步骤 3.1文本文件输入【功能描述】可通过此步骤读取大量不同的文本文件,可指

6、定读取的文件列表,或者用正则表达式表示的目录列表。【操作步骤或操作内容】功能1:文件名称指定1、 指定文件名后,并按“增加”按钮,你可以添加一个文件到“选择文件”中,如下所示:2、 你也可以用指定正则表达式通配符的形式来搜索文件。正则表达式比简单的用“?”和“*” 通配符更有效。文件名正则选择的文件/dirA/.*userdata.*/.txt所有在/dirA/目录下的并且文件名包含userdata、以txt为后缀的文件。/dirB/AAA.*所有在/dirB/目录下的并且文件名以AAA 开头的文件。/dirC/A-Z0-9.*所有在/dirC/目录下的并且文件名以字母开头、紧接着一个数字的文

7、件。功能2:内容指定1、 内容标签允许你指定正在读取的文本文件的格式:2、 下面是标签的选项列表:选项描述文件类型可以是CSV 或者Fixed length(固定长度)。分隔符在文本的单行中,一个或多个字符将被用来分隔字段,比较有代表性的是;或者一个tab 制表符。封闭字符一些字段能够被一对允许分隔的字符来封闭。封闭字符串是可选的。逃逸字符如果你的数据中有逃逸字符,就指定逃逸字符(或者逃逸字符串)。如果作为逃逸字符,文本Not the nineoclock news.(作为封闭字符),将被解析成Notthe nine oclock news.头部/头部行数量如果你的文本文件有头部行就使用这个。

8、你可以指定头部行出现的次数。尾部/尾部行数量如果你的文本文件有尾部行就使用这个。你可以指定尾部行出现的次数。包装行/包装行数量利用这个来处理被某些页限制包装的数据行。注:头部和尾部从来不考虑被包装。分页布局/每页行数/文档头部行在行打印机上打印的时候,你可以用这个选项作为最终的手段。用头部行的数量来跳过介绍性的文本,用每页的行数来定位数据行。压缩如果你的文件是ZIP 文件或者GZIP 归档文件,就启用这个。注:此刻归档文件中仅仅第一个文件被读取。没有空行不往下一步发送空行。输出包含文件名如果你想文件名作为输出的一部分,可以启用这个。文件名字段名称包含文件名的字段名称。输出行数如果你想行数作为输

9、出的一部分,可以启用这个。行数字段名称包含行数的字段名称。根据文件获取行数允许每个文件重置的行数。格式可以是DOS、UNIX 或者混合模式。UNIX 行终止可以是回车,DOS 中可以是回车或者换行。如果你选择混合模式,将不会验证。编码方式指定文本文件编码方式。如果不设置就使用系统默认的编码方式。如果想用Unicode,可以指定UTF-8 或者UTF-16。第一次使用的时候,Spoon 将搜索系统,寻找可用的编码。记录数量限制设置读取记录的行数。0 代表读取所有的。解析日期时是否严格要求如果你想严格的解析数据字段,可以禁用这个选项。如果启用的时候,Jan 32nd 将变成Feb 1st。本地日期

10、格式在本地日期常常被解析为“February wnd,2006”的形式,在用法语本地化的系统中日期将不会被解析,因为在法语本地化中February 不能理解。功能3:错误处理1、 当错误发生的时候,错误处理标签允许你指定这个步骤将重新做些什么。2、 下面是标签的选项列表选项描述忽略错误如果在解析的时候忽略错误,就指定这个选项。跳过错误行使用这个选项来跳过那些出现错误的行。你可以生成另外的文件来包含发生错误的行号。如果不跳过错误行,解析错误字段将是空的。错误计数字段在输出流行中增加一个字段,这个字段将包含错误发生的行数。错误字段字段名在输出流行中增加一个字段,这个字段将包含错误发生的字段名称。错

11、误文本字段名在输出流行中增加一个字段,这个字段将包含解析错误发生字段的描述。警告文件目录当警告发生的时候,它们将被放进这个目录。文件名将是/文件名.。错误文件目录当错误发生的时候,它们将被放进这个目录。文件名将是/文件名.。失败行数文件目录当解析行的时候发生错误,行号将被放到这个目录。文件名将是/文件名.。功能4:过滤1、 在“过滤”标签中,你可以指定文本文件中要过滤的行。2、 下面是标签的选项列表。选项描述过滤字符搜索字符串。过滤位置在行中过滤字符串必须存在的位置。0 是起始位置,如果你指定一个小于0 的值,过滤器将搜索整个字符。停止在过滤器如果你想在文本文件遇到过滤字符的时候,停止处理,就

12、指定Y。功能5:字段1、 设定要导入的字段。2、 选项。选项描述。名称设置要在输出流中显示的字段名称。类型字段类型(String、Date、Number 等)。长度对于Number:有效数的数量。对于String:字符的长度。对于Date:打印输出字符的长度(例如4 代表返回年份)。精度对于Number:浮点数的数量。对于String,Date,Boolean:未使用。货币类型用来解释如$10,000.00 的数字。小数小数点可以是”.”(10;000.00)或者”,”(5.000,00)。分组分组可以是”.”(10;000.00)或者”,”(5.000,00)。如果为空空值如何处理。默认字段

13、为空的时候的默认值。去空字符串处理之前先去空。重复Y/N:如果在当前行中对应的值为空,则重复最后一次不为空的值。3.2表输入【功能描述】这一步常常用来利用连接和SQL,从数据库中读取信息。自动生成基本的SQL 语句。【操作步骤或操作内容】功能1:指定选项选项描述步骤名称步骤的名称,在单一的步骤中,名称必需唯一。连接读取数据的数据库连接。SQLSQL 语句用来从数据库连接中读取数据。从步骤插入数据指定我们期待读取数据的步骤名称。这些信息能被插入到SQL 语句。限制设置从数据库中读取的行数。0 所有行。示例:指定如下SQL语句:注:日期可以从“获取系统信息”步骤类型中获取。3.3 EXCEL输入【

14、功能描述】这个步骤从EXCEL文件输入数据。【操作步骤或操作内容】功能1:指定文件名 参考 3.1 文本文件输入功能2:指定内容选项描述头部检查是否工作表指定了一个头部行。非空记录检查是否不需要空行输出。停在空记录当步骤在读取工作表遇到一个空行的时候停止读取。限制限制输出的行数,0 代表输出所有行。功能3:字段和错误处理 参考 3.1 文本文件输入3.4 CSV文件输入【功能描述】这个步骤从CSV文件输入数据。【操作步骤或操作内容】功能1:指定选项选项描述文件名CSV文件名。分割符文件中使用的分割符。#附件只将符号内的字符串输入。NIO的缓冲区大小定义缓冲区大小。延迟转换是否延迟转换。标题行存

15、在是否去掉标题行。添加文件名到结果是否在结果中输出文件名。行号字段行号字段命名。并行运行指定并行属性。文件编码选择字符集编码。3.5文本文件输出【功能描述】这个步骤将数据流输出到文本文件。【操作步骤或操作内容】功能1:指定文件选项描述文件名称输出文件名。以命令行方式运行根据指定,把结果输出到命令行或者脚本。扩展名在文件名的最后添加一个点和扩展名(.txt)。文件名里包含步骤数如果你在多个拷贝中运行步骤,拷贝的数量将包含到文件名中(在扩展名之前)。文件名包含分区文件名中包含数据分区数量。文件名包含日期文件名中包含系统日期(_20041231)。文件名包含时间文件名中包含系统时间(_235959)

16、。特殊日期格式指定特殊日期格式。功能2:指定内容选项描述追加是否在指定的文件最后追加行。分隔符指定在文本中分隔字段的字符,例如;或者制表符。封闭符封闭字段的一对字符。可选。头部如果你想有一个头部行,使这个选项可用(文件第一行)。尾部如果你想有一个尾部行,使这个选项可用(文件最后一行)。格式DOS 或者UNIX。UNIX 文件行分隔符是换行符。DOS 文件可以是换行符或者回车符。编码指定文件使用的编码。如果空白就使用系统缺省的编码。压缩指定压缩的类型(zip 或者gzip)。长度固定在字段最后添加空格或者删除字符,直到长度达到指定。快速数据导出当处理大量数据到一个文本文件时,提高性能。(不包含任

17、何格式化信息)。分拆每一行如果N 比0 大,用N 行拆分文本文件,分割成多个部分。增加文件结束行指定输出文本的结束行。功能3:指定字段 参考3.1 文本文件输入3.6表输出【功能描述】这个步骤将数据导入数据库表。【操作步骤或操作内容】功能1:指定选项选项描述连接用来写数据的数据库连接。目标模式数据库的模式名。目标表要写数据的表名。提交记录数量在数据表中用事务插入行。如果N 比0 大,每N 行提交一次连接。否则,不使用事务,速度会慢一些。裁剪表在第一行数据插入之前裁剪表。忽略插入错误使Kettle 忽略比喻违反主键约束之类的插入错误,最多20 个警告将被日志记录。在批量插入的时候这个功能不可用。

18、使用批量插入如果你想批量插入的话,就使用这个选项。这个选项的速度最快,默认被选上。表分区数据使用这个选项可以在多个表之间拆分数据。表名定义在一个字段使用这些选项可以拆分数据到一个或者多个表里,目标表名可以用你指定的字段来定义。例如如果你想存储顾客性别数据,这些数据可能会存储到表M和表F里面(female 女性和male 男性表)。这个选项可以阻止这些字段插入到对应的表里。返回一个自动产生的关键字往表中插入行时,是否产生一个关键字。自动产生关键字的字段名称指定包含关键字的输出字段的字段名称。指定数据库字段只导入指定的字段,多余的字段忽略。功能2:字段值与数据流对应3.7 EXCEL输出【功能描述

19、】这个步骤将数据写入EXCEL表。【操作步骤或操作内容】功能1:指定文件选项描述文件名和扩展名用于指定输出文件。不要在启动时创建文件只写入已存在文件。文件名里包含步骤数允许文件并行创建,并在文件名里包含步骤数。文件名里包含日期在文件名里包含日期。文件名里包含时间在文件名里包含时间。指定日期时间格式指定日期时间格式。添加文件名到结果中输出字段中包含文件名字段。功能2:指定内容选项描述追加追加记录。头检查表单是否有头部。脚检查表单是否有尾部。编码指定EXCEL表单使用的编码。分割所有行分割数据到几个输出文件中。使用模板输出的EXCEL 数据是否使用模板。EXCEL模板格式化EXCEL 输出的模板的

20、名称。追加EXCEL模板是否将EXCEL 输出添加到指定的EXCEL 模板中。功能3:指定字段指定你想输出到EXCEL 文件中的字段3.8插入/更新【功能描述】这个步骤利用查询关键字在表中搜索行。如果行没有找到,就插入行。如果能被找到,并且要被更新的字段没有任何改变,就什么也不做。如果有不同,行就会被更新。【操作步骤或操作内容】功能1:指定选项选项描述连接用来写数据的数据库连接。目标模式数据库的模式名。目标表要写数据的表名。提交记录数量提交之前要改变(插入/更新)的行数。不执行任何更新如果被选择,数据库的值永远不会被更新。仅仅可以插入。用来查询的关键字可以指定字段值或者比较符。可以用以下比较符

21、:=,,LIKE,BETWEEN,IS NULL,IS NOT NULL。更新字段指定你想要插入/更新的字段。3.9更新【功能描述】这个步骤查找当前数据库符合要求的记录,并更新指定字段。【操作步骤或操作内容】功能1:指定选项选项描述连接用来写数据的数据库连接。目标模式数据库的模式名。目标表要写数据的表名。提交记录数量提交之前要改变的行数。跳过扫描不执行查询。忽略查询失败如果被选择,则查询失败时不执行任何操作。用来查询值的关键字可以指定字段值或者比较符。可以用以下比较符:=,,LIKE,BETWEEN,IS NULL,IS NOT NULL。更新字段指定你想要更新的字段。3.10删除【功能描述】

22、这个步骤查找当前数据库符合要求的记录,并删除。【操作步骤或操作内容】功能1:指定选项选项描述连接用来写数据的数据库连接。目标模式数据库的模式名。目标表要写数据的表名。提交记录数量提交之前要改变的行数。查询值所需的关键字可以指定字段值或者比较符。可以用以下比较符:=,,LIKE,BETWEEN,IS NULL,IS NOT NULL。3.11调用DB存储过程【功能描述】这个步骤允许你运行一个数据库存储过程,获取返回结果。【操作步骤或操作内容】功能1:指定选项选项描述连接存储过程所有的数据库的连接名称。存储过程名称调用的存储过程或者函数名称。自动提交在运行存储过程的时候自动提交。返回值名称调用存储

23、过程或者函数返回结果的名称。返回值类型调用存储过程或者函数返回结果的类型。参数存储过程或者函数需要的参数列表。3.12 Switch分支【功能描述】这个步骤允许你将数据流按条件分流,输送到不同的下一个步骤。【操作步骤或操作内容】功能1:指定选项选项描述字段名称转换待判断分流条件的字段名。使用字符串包含开启模糊匹配。类型选择数据类型。格式表达式指定数据的格式(数字格式或日期格式)。小数点符号指定小数点符号。分组符号指定分组符号。值指定不同的值,以及相应的目标步骤。3.13 修改Java Script的值【功能描述】这个步骤允许你用JavaScript 语言做复杂的运算。【操作步骤或操作内容】功能

24、1:指定选项 Java脚本功能针对可用的脚本、函数、输入字段和输出字段,提供一个树菜单浏览。 脚本这个区域为你提供脚本的编辑。你可以插入函数、常量、输入字段等等。 字段字段表包含了脚本变量的列表,其中包括元数据。 获取变量获取脚本中的变量列表。 测试脚本测试脚本的语法。3.14 值映射【功能描述】这个步骤简单的映射字符串,从一个值映射到另一个值。例如:如果你想替换Language codes,你可以:使用的字段名:LanuguageCode目标字段名:LanguageDesc源值/目标值:EN/English,FR/French,NL/Dutch,ES/Spanish,DE/German,。【

25、操作步骤或操作内容】功能1:指定选项选项描述使用的字段名待进行值映射转换的字段名。源值转换前的值。目标值转换后的值。3.15 列转行【功能描述】这个步骤允许你将按列存储的数据转换为按行存储。【操作步骤或操作内容】功能1:指定选项选项描述分隔字段需要列转行的字段名。分隔符字段中的分隔符。新字段名转换后的字段名。3.16 去除重复记录【功能描述】这个步骤允许你去除关键字重复的记录。【操作步骤或操作内容】功能1:指定选项选项描述拒绝重复行增加重复行数到输出。错误描述包含重复行号的字段的名称。用来比较的字段指定重复值字段。3.17去除重复记录(哈希集合)【功能描述】参考 3.16 去除重复记录。3.1

26、8增加常量【功能描述】这个步骤很简单,主要是添加常量到流中。它的使用也很容易:用字符串形式指定名称,类型和值。利用选择的数据类型指定转换格式。【操作步骤或操作内容】功能1:指定选项选项描述名称增加的字段名称。类型字段类型。格式字段格式(数据格式、日期格式)。长度、精度增加的字段的长度和精度。3.19增加序列【功能描述】这个步骤在流中增加一个序列。一个序列是在某个起始值和增量的基础上,经常改变的整数值。你可以使用数据库的序列,也可以使用ETL工具决定的序列。备注:ETL序列在同一个转换中是唯一使用的。每一次转换运行的时候,序列的值又会重新循环一次(从开始值开始)。【操作步骤或操作内容】功能1:指

27、定选项选项描述值的名称新序列值的名称,将被添加到流中。使用数据库获取序列如果想使用数据库的序列,使用些选项。使用计数器来计算序列如果想使用ETL工具生成的序列,使用此选项。计数器名称(可选)如果一个转换中多个步骤生成同样的值名称,这个选项允许你指定计数器的名称,避免按照先后顺序通过多个步骤。3.20字段选择【功能描述】这个步骤常常用来:选择字段、重命名字段、指定字段的长度或者精度。下面是三个不同标签的功能: 1、选择和修改:指定需要流到输出流中的字段的精确顺序和名称。2、删除:指定必须从输出流中删除的字段。3、元数据:修改元数据字段的名称、类型、长度和精度。【操作步骤或操作内容】功能1:指定选

28、项选项描述字段名称选择或者修改的字段名称。改名如果不想改名,就使用空白。长度输入数字指定长度(-1:代表没有长度指定)。精度输入数字指定精度(-1:代表没有精度指定)。3.21字符串裁剪【功能描述】这个步骤允许你将数据流中的字符串进行裁剪,生成新的字符串。【操作步骤或操作内容】功能1:指定选项选项描述在流中输入流中的原字段名。输出流裁剪后的输出字段名。开始开始裁剪位置(若从第一个字符开始,填0)。结束结束裁剪位置(第一个字符为1,依次类推)。3.22封锁步骤【功能描述】这是一个非常简单的步骤。它冻结所有的输出,直到从上一步骤来的最后一行数据到达,最后一行数据将发送到下一步。你可以使用这个步骤触发常用插

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1