Kettle学习手册.docx-资源下载

Kettle学习手册.docx

1、Kettle学习手册Kettle学习手册目录Kettle中元素介绍 2变量 4转换 5转换连接颜色 6步骤（右键属性） 6文本文件输入 7表输入 8获取系统信息 8生成记录 9Cube输入 10Xbase输入 10Excel输入 10XML输入 10获取文件名 10获取文件行数 10文本文件输出 11表输出 11插入/更新 12更新(可以用插入/更新替代) 12删除 12序列化到文件(以前是Cube output) 12XML输出 12Excel输出 13Access输出 13数据库查询(Database lookup) 13流查询 13调用数据库存储过程 14HTTP客户端 14字段选择 1

2、4过滤记录 15排序记录 15添加序列 15空操作(什么也不做) 15行转列(Row Normaliser) 16拆分字段 17去除重复记录 17分组(Statistics) 17设置为空值（Null if） 18计算器 18增加XML(Add XML) 18增加常量 18行转列(Row Denormaliser) 19行扁平化 19值映射 20被冻结的步骤(Blocking Step) 20记录关联（笛卡尔输出） 21数据库连接 21合并记录 21排序合并(Sorted Merge) 22Merge Join（合并连接） 22Java Script值(Modified Java Script

3、 Value) 23执行SQL语句 23Execute row SQL script 24维度更新/查询 25联合更新查询 25映射（子转换） 26从结果获取记录 27复制记录到结果（字符串） 27Set Variables(设置变量) 27Get Variables(获取变量) 28Get files from result(从以前的结果获取文件) 28Set files in result 28Injector(记录注射器) 29Socket reader(套接字读入器) 29套接字输写器(Socket writer) 30聚合记录 30流XML输入(属sax解析，和Get data fr

4、om xml功能相同) 30Abort(中止) 31Oracle Bulk Loader(Oracle 批量装载) 31任务设置（Job Settings）未找到 33任务条目（Job Entries）未找到 33Start 33附录1 ： 33JS函数 33资源库：转换和job的保存地点 1、kettle 有两种方式连接资源库，一种是纯数据库式，所有的转换全部都保存在一个数据库中；另外一种连接方式是使用文本文件，也就是xml 文件，在做完任何转换之后，我们都可以把转换或者Job 变成xml 文件输出。Kettle中元素介绍=Transformation= 输入：1、 Access Input

5、2、 Cube Input3、 Excel 输入4、 Generate random value5、 Get File Names6、 Get Files Rows Count7、 Get SubFolder names8、 Get data from XML9、 Mondrian Input10、 Propperty Input11、 XBase输入12、文本文件输入13、表输入14、获取系统信息15、 CSV file input 输出：1、Access Output2、Cube输出3、Excel Output4、Property Output5、SQL File Output6、X

6、ML输出7、删除8、文本文件输出 (CSV文件输出，将分隔符改为“,”)9、表输出转换：1、增加常量用来给查询增加常量列2、增加序列用来给查询增加序列列3、字段选择用来选择输出字段4、拆分字段将某字段按照某个分隔符分割为多个字段5、排序记录按照某些字段对记录进行排序6、Number range 不同范围输出不同的值 7、Add a checksum md5加密等8、Replace in string 替换字段值为其他值9、去除重复记录使用之前所有记录必须已有序10、值映射 11、Unique rows(HashSet) 12、计算器对字段值进行+、-、*、/、平方、开放、四舍五

7、入等数学计算以及时间计算。 Flow：1、过滤记录2、 Switch/Case 查询：1、数据库查询（多表关联时使用，无关联时只使用表输入即可）连接1、记录关联（笛卡尔输出）将多个表记录关联起来(笛卡尔积，不是表连接) 脚本1、Modified Java Script Value名词解释： 1、hops：节点连接，一个连接连接两个步骤。除了指定执行顺序，也可以指定下一个任务将会被执行的条件。2、常用的工具1、 SQL Editor ：数据库连接右键Sql Editor2、 Explore ：数据库连接右键explore3、搜索元数据：CTRL + F4、设置环境变量：ctrl+

8、alt+j变量1. 环境变量：使用环境变量唯一的问题是：不能动态的使用变量2. Kettle变量：因为环境变量的范围非常广泛，所以我们引入Kettle 变量，它们对于设置变量的任务来说是局部的3. 内部变量：3.1 永远被定义（全局变量）变量名称示例值Internal.Kettle.Build.Date2007/05/22 18:01:39Internal.Kettle.Build.Version2045Internal.Kettle.Version3.0.23.2 转换中被定义变量名称示例值Internal.Transformation.Filename.DirectoryD:KettleS

9、amplesInternal.Transformation.Filename.NameDenormaliser-2 series of key-value paris.ktrInternal.Transformation.Repository/Internal.Transformation.NameDenormaliser-2 series of key-value paris.sample3.3 Job中被定义变量名称示例值Internal.Job.Filename.Directory/home/matt/jobsInternal.Job.Filename.NameNested job.kj

10、bInternal.Job.NameNested job test caseInternal.Job.Repository.Directory/变量的使用：1、 unix下：$variable2、 %java.io.tmpdir%Job和转换的区别与联系：1、转换用来完成数据的转换。2、 Job完成整个工作流的控制。转换1. 转换设置：Ctrl+ta) 状态：“产品”|“草案”b) 版本：转换的版本c) 目录：转换在资源库中存储的位置d) 日志数据库连接：使用此链接写到日志表e) 日志表：指定日志表的名称f) Update 日志步骤：将当前步骤更新行的编号写入日志表。Update：在数据库更

11、新g) 读取日志步骤：将当前步骤读取行的编号写入日志表。Read含义：从源步骤读取h) Input日志步骤：将当前步骤输入行的编号写入日志表。Input含义：从文件或者数据库输入i) Write日志步骤：将当前步骤写入行的编号写入日志表。Write含义：写入到目标步骤j) Output日志步骤：将当前步骤输出行的编号写入日志表。Output含义：输出到文件或者数据库。转换连接颜色外观含义Green分发行Red复制行Yellow给步骤提供信息，分发行Magenta给步骤提供信息，复制行Gray不可用Black命名目标步骤Blue侯选连接，使用鼠标中间按钮+拖拉Orange(Dot line)一直

12、没有使用的，因为没有数据经过Red(Bold Dot line)运输在源步骤中出错的行以上数据与实际有冲突，可选择性参考。步骤（右键属性）1、改变开始复制数量：有时候多次运行相同的步骤是非常有用的。例如，执行一个数据库查询三次或者三次以上，这是因为数据库连接通常有一个反应时间，改变步骤运行的次数，可以有效的减少反应时间，提高效率。相当于2、复制、删除、分离步骤：步骤的复制、删除和分离3、步骤的分发、复制：复制数据意思是说从“A”过来的所有行都被复制到3 个目标步骤。这就意味着最后一个步骤从“A”获取了所有行的三个副本。事实上，由于每个步骤用不同的线程来运行，到达最后一个步骤的行的顺序可

13、能和“A”的顺序不一样。4、定义错误处理：代替一个转换因为某一个步骤发生错误的时候被中断，你可以引起错误的这些行，进入到一个不同的步骤。不是所有步骤都有此功能，Js脚本步骤有此功能5、显示输入/输出字段6、编辑步骤/编辑步骤描述文本文件输入1、没有空行：不往下一步骤发送空行2、输出包括文件名：输出包含文件名字段3、输出包含行数：输出字段包含行号4、格式：可以是DOS、 Unix或混合模式。UNIX行终止可以是回车、DOS是回车或换行。混合模式则不验证。5、编码方式：默认编码方式。Unicode编码方式有Utf-8，utf-166、记录数量限制：设置读取记录的行数，0表示所有的

14、。7、解析日期时是否严格要求：启用时1月32将变为2月1号8、错误处理标签：当错误发生时，错误处理标签可以允许你指定这个步骤将重新做些什么。9、忽略错误10、跳过错误行：如果不跳过错误行，解析错误字段将是空的。11、错误计数字段：在输出流中增加一个字段，这个字段将包含错误发生的行数。12、错误字段字段名：输出流增加字段，该字段包含错误发生的字段名称。13、错误文本字段：输出流增加字段，该字段包含解析错误发生字段的描述。14、警告文件目录：当警告发生时，文件将被放进该目录，文件名为:文件名。.15、错误文件目录：当错误发生时，文件将被放进该目录，文件名为：文件名.16、失败行

15、数文件目录：当解析发生错误，行号将被放进该目录，文件名将是：文件名.17、过滤标签：可以用来指定文件文件中要过滤的行。18、过滤字符串：搜索字符串，将符合条件的行从输出中去掉。19、过滤器位置： 0：起始位置。不填(、=、=、=、between、like、is null、is not null5、用来查询的关键字：输入用来指定记录的关键字。6、更新字段：指定想要插入/更新的字段。更新(可以用插入/更新替代)更新只能用来更新，不能用来插入数据。删除执行删除操作。注意：在输出中，插入/更新、删除、更新对应的是数据库的增、删、改。序列化到文件(以前是Cube output)这个步骤存储数据

16、到一个二进制文件。这个步骤有个优势就是回读的时候，文本文件的内容不需要解析。这是因为元数据也同时存储在cube文件中。用输出的Cube文件，用cube输入读入文件练习下。XML输出1、文件名中包含步骤号码：如果你在多个拷贝中运行一个步骤，在文件扩展名的前面，将包含拷贝的号码。2、分割每一个行：每个xml文件中包含的记录数。0表示不分割。 3、正在编码：在XML文件头部指定。4、字段选项卡5、元素名称：xml文件使用的元素的名称，不指定，则元素名称和字段名相同。6、 10进制：小数点可以是”.”或者”,”7、分组：分组符可以是”,”或者”.”8、空：表示当字段值为空时，则用此字段值

17、代替。Excel输出利用这个步骤，可以写入数据到一个或者多个文件中。1、文件名和扩展名：可以使用变量。2、头部、尾部：给文件添加头部和尾部。3、 Split everyrows：分割数据到几个输出文件中。4、 Use template：使用模板5、追加excel模板：是否将Excel输出添加到指定的Excel模板中。Access输出1、数据库名：注意要写入扩展名，否则输出的文件名不包含扩展名”.mdb”2、创建数据库：选中则创建数据库。3、 Target table：表名。4、 Create table：选中则创建数据表。5、 Commit size：定义输出数据时的提交尺寸。数据库

18、查询(Database lookup)这个步骤允许你在数据库表中查找值（多个表之间需要进行连接查询时用到left join）。1、使用缓存：使用缓存，这意味着在某种查询值的条件下，每次数据库都能返回同样的结果。流查询1、源步骤：数据来源的步骤名称。2、查询值所需要的关键字：允许你来指定用来查询值的字段名称。值总是用“等于”比较符来搜素。3、接收的字段：你可以指定用来接收字段的名称，或者在值没有找到的情况下的缺省值，或者你不喜欢旧的字段名称的情况下的新字段名称。4、 Preserve Memory（保留内存）：排序的时候对数据行进行编码以保护内存。5、 Key and value are

19、 exactly one integer field：排序的时候对数据行进行编码以保护内存。6、 Use sorted list：是否用一个排序列表来存储值，它提供更好的内存使用。7、获取字段：自动获取源步骤的可用字段的名称，你可以删除你不想查询的字段。8、获取查询字段：自动获取输出流中的可用字段名称。你可以删除你不想返回的字段。调用数据库存储过程这个步骤允许运行一个数据库存储过程，获取返回结果。1、存储过程名称：调用的存储过程或者函数名称。2、自动提交：在运行存储过程的时候自动提交。3、结果名称：调用存储过程或者函数返回结果的名称。4、结果类型：返回结果的类型。5、参数：存储过

20、程或者函数需要的参数列表。5.1名称：字段的名称5.2方向：可以是in，out，inout、5.3类型：使用输出参数，以便Kettle知道返回了什么。注意：如果是函数的话，通过结果名称返回值；如果是存储过程的话，通过参数列表返回值。HTTP客户端http客户端根据一个附带条件的基准URL，来调用一个简单的调用。例如：http:/?p1=v1&p2=v2&.,结果存储在指定名称的字符类型字段中。1、 URL：基准url字符串2、结果字段名称：存储结果的字段名称。3、参数：用名称值键值对来定义通过url传递的参数。字段选择这个步骤常常用来：1、选择字段 2、重命名字段 3、指定字段长度或者精度以下是三个不同标签的功能：1、选择和修改：指定输出流中字段的精确顺序和名称。2、删除：指定必须从输出流中删除的字段。3、元数据：修改数据字段的名称、类型、长度和精度。选项：1、字段名称：选择或者修改的字段名称。2、改名：如果不想改名就留空白。3、长度、精度：输入数字指定长度、精度(-1：代表没有长度、精度指定)过滤记录这个步骤允许你根据条件和比较符来过滤记录。一旦这个步骤连接到先前的步骤中，单机“”，“

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？