ImageVerifierCode 换一换
格式:DOCX , 页数:50 ,大小:1.59MB ,
资源ID:16010639      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/16010639.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(kettle培训技术文档Word文档下载推荐.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

kettle培训技术文档Word文档下载推荐.docx

1、创建transformation,job点击页面左上角的创建一个新的transformation,点击保留到本地路径,例如保留到D:/etltest下,保留文件名为EtltestTrans,kettle默许transformation文件保留后后缀名为ktr点击页面左上角的创建一个新的job,点击保留到本地途径,例如保存到D:/etltest下,保留文件名为EtltestJob,kettle默许job文件保留后后缀名为kjb创建数据库连接在transformation页面下,点击左侧的【Main Tree】,双击【DB连接】,进行数据库连接配置。connection name自命名连接名称Co

2、nnection type选择需要连接的数据库Method of access选择连接类型Server host name写入数据库效劳器的ip地址Database name写入数据库名Port number写入端口号Username写入用户名Password写入密码例如如下配置:点击【test】,若是显现如下提示那么说明配置成功点击关闭,再点击确信保留数据库连接。一个简单的ktr 例子目的:将一个数据库导入到另一个数据库中。操作步骤:创建一个transformation,命名为,创建数据库连接ods,点击【Input】,选中【表输入】,拖到主窗口,释放鼠标,双击打开如以下图点击【Transf

3、orm】,选中【字段选择】,拖到主窗口,释放鼠标点击【Output】,选中【表输出】,拖到主窗口,释放鼠标成立【文本文件输入】和【字段选择】与【字段选择】和【表输出】的连接双击【表输出】,目标表中写入ZT_TEST_KETTLE,确信保留双击【字段选择】,点击 获取选择的字段,再点击Edlt Mapping,点击OK确信,编辑所有字段对应关系,点确信。点击运行那个转换。,那么将上一个ktr中生成的文本,导入到数据库当中。一个简单的kjb例子将上一个transformation在一个job里面挪用执行。在etlTestJob页面,点击【Core Objects】,点击【Job entries】,

4、选中【START】拖动到主窗口释放鼠标,再选中【Transformation】,拖动到主窗口释放鼠标,成立【START】和【Transformation】之间的连接。双击【Transformation 】, 在Transformation filename 中写入E:kettleWorkspace,确信保留。保留创建好的job。待所有任务都显示成功,那么为job挪用transformation运行成功。一个增量的例子增量更新依照数据种类的不同可能能够分成:1.只增加,不更新,2.只更新,不增加3.即增加也更新4.有删除,有增加,有更新下面针对前三种做一个增量的ETL抽取。进程如下:依照前面讲解

5、的例子一样,第一成立源表(fina_test1)和目标表(fina_test2),整个设计流程如下:其中第一个步骤(输入-目标表)的sql 可能如下模式:select ifnull(max(date_seal),1900-01-01 00:00:00) from fina_test2你会注意到第二个步骤和第一个步骤的连接是黄色的线,这是因为第二个table input(输入-源表)步骤把前面一个步骤的输出看成一个参数来用,所有Kettle用黄色的线来表示,第二个table input(输入-源表) 的sql 模式可能如下:SELECT * FROM fina_test1 where date_

6、seal?后面的一个问号确实是表示它需要同意一个参数,你在那个table input(输入-源表)下面需要指定replace variable in script 选项和 执行每一行 为选中状态,如此,Kettle就会循环执行那个sql , 执行的次数为前面参数步骤传入的数据集的大小。关于第三个步骤执行插入/更新步骤需要专门说明一下,Kettle执行那个步骤是需要两个数据流对照,其中一个是目标数据库,你在目标表 里面指定的,它放在用来查询的关键字左侧的表字段里面的,另外一个数据流确实是你在前一个步骤传进来的,它放在用来查询的关键字 的右边,Kettle第一用你传进来的key 在数据库中查询这些

7、记录,若是没有找到,它就插入一条记录,所有的值都跟你原先的值相同,若是依照那个key找到了这条记录,kettle会比较这两条记录,依照你指定update field 来比较,若是数据完全一样,kettle就什么都不做,若是记录不完全一样,kettle就执行一个update 步骤。备注:主键被修改得数据以为是新记录 删除的数据由在仓库中需要保留无需考虑然后点击新建-job,然后job的核心对象job entries拉出组建,进行执行抽取。创建kettle资料库资源库是用来保留转换任务的,用户通过图形界面创建的的转换任务能够保留在资源库中。资源库能够是各类常见的数据库,用户通过用户名/密码来访问资

8、源库中的资源,默许的用户名/密码是admin/admin资源库并非是必需的,若是没有资源库,用户还能够把转换任务保留在 xml 文件中。若是用户需要创建一个资源库,在资源库的登录窗口(PDI 启动时的第一个窗口)中有 【新建】 按钮,点击该按钮弹出新建资源库窗口,在该窗口当选择一个数据库连接,若是没有事前概念的数据库连接,那么还要点击【新建】按钮,来创建一个数据库连接。选择数据库连接后,要为该资源库命名,作为那个资源库的唯一标志,最后选择【创建或更新】按钮来创建那个资源库。资源库能够使多用户共享转换任务,转换任务在资源库中是以文件夹形式分组治理的,用户能够自概念文件夹名称。如何利用kettle

9、读取包括多行表的Excel文件若是 Excel 工作表的表头只有一行,利用 Kettle 读取如此的文件是很容易的.如果 Excel 工作表的表头是多行的, 或者是分级的就需要在内容标签下正确设置列名所占行数才可以读取.考虑如此的一个工作表若是想把里面的 12列数据都读出来, 就要考虑如何处置多级表头.步骤设置的详细描述:步骤一 选择文件名,此刻文件或目录里到所要添加的excel文档,然后点击,确信后,点击,步骤二 选择要读取的工作表名称和要读取的内容在工作内外的起始位置, 也确实是表头开始的行号和列号 (那个地址行号和列号是以 0 开始的)步骤三 设置要读取的内容的一些属性, 那个地址要设置

10、表头的所占行数是 4行.步骤四 错误处置, 选择若是有错误终止仍是继续, 错误信息保留的文件等.(图略)步骤五 选择字段, 若是前面的三个步骤(不包括错误处置步骤)都设置正确, 在那个页面选择 获取字段 字段按钮, 就会取得所有的列名称和数据类型.这里我们可以看到: 多级表头中各级表头的名称被叠加起来, 形成了唯一的列名.点击 预览 按钮能够预览到数据关于表头跨持续的多行, 但不分级的情形也能够利用上述方式处置.kettle注释:1、kettle的操纵流能够设置一些简单的时刻,而且能够实现隔间天、周、月(三个只能选一个,不能选那个月的那周那日),可是kettle工具不能关,若是关了,必需从头启

11、动。2、kettle里面缺少一个编辑的字段的插件,致使字段编辑很麻烦,这只能先sql中进行手写,那个对写sql的要求很高。一个kettle字段转换(截取)的例子大致的流程是:表输入仍是正常的sql查询,没有添加参数。字段转换(截取)是在进行修改。具体样式如下:具体的用法:transform Functions 里面包括了字符、数字的一些函数方式,这些函数方式能够解决一些字段需要转化的问题。Input fields和 Output fields 里面包括了从表输入进来的字段(数据)。字段要紧转化的操作界面:注意下:substr(xxx,1,2) 中的1代表是第一名开始,2代表是取2位,在那个地址

12、面还能够添加if等语句,进行编写。在字段选择那里面要配置从js过来的字段,点击列映射(前提是已经和表输出连接上),那个字段对应要依照你实际从js倒过来的字段和目标表相对应的字段一一对应。开源ETL工具kettle系列之常见问题 摘要:本文要紧介绍利用kettle设计一些ETL任务时一些常见问题,这些问题大部份都不在官方FAQ上,你能够在kettle的论坛上找到一些问题的答案Join我得到A 数据流(不管是基于文件或数据库),A包含field1 , field2 , field3 字段,然后我还有一个B数据流,B包含field4 , field5 , field6 , 我现在想把它们 加 起来,

13、 应该怎么样做.这是新手最容易犯错的一个地方,A数据流跟B数据流能够Join,肯定是它们包含join key ,join key 可以是一个字段也可以是多个字段。如果两个数据流没有join key ,那么它们就是在做笛卡尔积,一般很少会这样。比如你现在需要列出一个员工的姓名和他所在部门的姓名,如果这是在同一个数据库,大家都知道会在一个sql 里面加上where 限定条件,但是如果员工表和部门表在两个不同的数据流里面,尤其是数据源的来源是多个数据库的情况,我们一般是要使用Database Join 操作,然后用两个database table input 来表示输入流,一个输入是部门表的姓名,另

14、一个是员工表的姓名,然后我们认为这两个表就可以 ”Join” 了,我们需要的输出的确是这两个字段,但是这两个字段的输出并不代表只需要这两个字段的输入,它们之间肯定是需要一个约束关系存在的。另外,无论是在做 Join , Merge , Update , Delete 这些常规操作的时候,都是先需要做一个compare 操作的,这个compare 操作都是针对compare key 的,无论两个表结构是不是一样的,比如employee 表和department 表,它们比较的依据就是employee 的外键department_id , 没有这个compare key 这两个表是不可能连接的起来的. 对于两个表可能还有人知道是直接sql 来做连接,如果是多个输入数据源,然后是三个表,有人就开始迷茫了,A表一个字段,B表一个字段,C表一个字段,然后就连Join操作都没有,直

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1