Kettle开源ETL平台安装配置及使用说明v11.docx

上传人:b****2 文档编号:1054323 上传时间:2022-10-16 格式:DOCX 页数:19 大小:566.16KB
下载 相关 举报
Kettle开源ETL平台安装配置及使用说明v11.docx_第1页
第1页 / 共19页
Kettle开源ETL平台安装配置及使用说明v11.docx_第2页
第2页 / 共19页
Kettle开源ETL平台安装配置及使用说明v11.docx_第3页
第3页 / 共19页
Kettle开源ETL平台安装配置及使用说明v11.docx_第4页
第4页 / 共19页
Kettle开源ETL平台安装配置及使用说明v11.docx_第5页
第5页 / 共19页
点击查看更多>>
下载资源
资源描述

Kettle开源ETL平台安装配置及使用说明v11.docx

《Kettle开源ETL平台安装配置及使用说明v11.docx》由会员分享,可在线阅读,更多相关《Kettle开源ETL平台安装配置及使用说明v11.docx(19页珍藏版)》请在冰豆网上搜索。

Kettle开源ETL平台安装配置及使用说明v11.docx

Kettle开源ETL平台安装配置及使用说明v11

[]初稿

[]发布

[√]修订

编撰:

肖渺

编撰日期:

****-**-**

保密级别:

公开

文档版本:

1.0

【KETTLE开源ETL软件】

【安装配置与使用说明】

2015年09月

修订记录

版本

修订者

修正日期

修正内容

审核人

审核日期

批准人

批准日期

1.0

肖渺

2015-09

初稿

1.1

肖渺

2015-10

增加HadoopPlugin相关配置对应章节

1.2

肖渺

2015-11

增加2.2-2.5章节

1.3

肖渺

2015-12

增加2.1.6MapReduce开发部分章节

1.安装与配置

2015年下半年公司承接了江苏电信电子渠道中心数据分析项目,项目实现计划使用大数据应用与分析相关的开源组件与技术来实现;针对数据的抽取与清理,需要使用ETL工具;针对不同的数据源的数据整合需求,考虑到项目投资与开发成本,项目组初步计划采用开源ETL工具;ETL(Extract,Transformation,Load)工具是构建数据仓库、进行数据整合工作所必须使用的工具。

目前市面有多种商业ETL工具,如InformaticaPowerCenter,IBMDatastage等。

目前市场上开源且实用的ETL工具比较少,Kettle就是为数不多的优秀开源ETL工具之一。

经过比较与分析,选择了Kettle作为本项目使用的ETL工具。

1.1ETL与Kettle概述

ETL(Extract、Transform、Load,抽取、转换、装载),它是BI项目中最常见、基础的数据加工行为。

构建数据仓库期间,各类业务系统的数据需要经过严格的ETL过程,才能够进入到数据仓库中,进而为后续的数据展现、分析提供支撑。

通常,由于企业的各业务系统数据口径不一致,比如不同应用存储性别的方式存在差异性、银行应用中不同币种的统一、零售应用中商品计价方式的统一等,使得BI项目必须实施ETL工作,否则在含糊、不准确的数据上进行各种数据行为是徒劳的、没有意义的。

在另外一些场合,企业往往需要对TB级别的数据进行各种数据聚合、粗和精加工。

比如,在制作即席报表期间,用户希望这些报表的运行时间越短越好,然而如果报表使用到的数据粒度很细、数据量很大,则要控制好报表的运行时间估计够呛。

此时,我们往往需要对数据进行各种层次的聚合操作,比如可以将“日”级别存储的数据预先聚合成按周、月、季度的数据。

将来,运行报表的时间将得到有效控制,毕竟RDBMS能够更快速响应客户提交的SQL请求。

设计并运行良好的ETL过程可以很好地完成上述任务。

Kettle是一款国外开源的ETL工具,纯Java编写,可以在Window、Linux、Unix等不同的操作系统平台上运行,数据抽取高效稳定。

Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述用户想做什么,而不是用户想怎么做。

在KettleETL解决方案中,主要存在两种ETL工件:

转换(Transformation)和作业(Job)。

ETL转换,专注于数据加工本身,比如装卸数操作、数据编码转换;ETL作业,专注于流程控制,比如执行若干ETL转换、将加工后的文件借助SSH2传输出去等。

通常,ETL作业会包含若干ETL转换,并控制它们的执行,而且作业会以一定周期执行,比如每周二执行、每隔3小时执行等。

Kettle家族目前包括4个产品:

SPOON、PAN、CARTE、KITCHEN。

SPOON允许你通过图形界面来设计ETL转换过程(Transformation)。

PAN允许你批量运行由Spoon设计的ETL转换(例如使用一个时间调度器)。

Pan是一个后台执行的程序,没有图形界面。

CARTE类似于Pentaho管理控制台,它们都宿主在JettyWeb容器中,但各自承担的使命不同。

Carte用于远程执行KettleETL转换和作业。

KITCHEN允许你批量使用由Chef设计的任务(例如使用一个时间调度器)。

KITCHEN也是一个后台运行的程序。

Kettle基于EclipseRCP框架开发,针对运行环境只需要GUI图形用户界面和JDK1.6以上的JVM环境支持即可,Kettle程序运行时典型demo显示截图如下:

在上面SPOON程序中可以使用图元的形式完成用户自定义的transformation,通过运行transformation完成针对数据的基础转换,Demo如下截图所示:

可以从Kettle运行时日志,查看该transformation转换有没有finished、每个步骤的耗时、速度、平均每秒多少行、总共插入了多少记录数等。

1.2Kettle的下载与安装

截止到2015年11月,Kettle(PentahoDataIntegration)软件的最新版本号为v6.0.0.0-353。

新版本的Kettle软件被改名为PentahoDataIntegration(PDI),作为商业开源BI套件PentahoBIEE中默认的ETL工具,可以在Pentaho官方站点下载其最新的版本。

官方网站上Kettle软件的下载链接会重定向到开源下载站点,如下图所示:

图1.2Kettle的下载

上述v6.0.0.0-353版本Kettle软件的DownloadURL下载链接为:

.net/project/pentaho/Data%20Integration/6.0/pdi-ce-6.0.0.0-353.zip

Windows下可以使用通用的http/ftp下载工具下载;Linux下可以使用wget/curl等命令行方式的下载工具下载。

1.2.1Windows下安装配置Kettle

1、检查JDK1.7或者以上版本JDK环境已经完成安装。

如果没有安装,需要从Oracle官网下载对应的JDK二进制软件包并完成安装,并配置好JAVA_HOME,CLASSPATH等相关环境变量。

2、将下载完成的,例如D:

\Kettle

3、运行Kettle,在Windows下定位到$KETTLE_HOME/spoon.bat批处理程序,双击运行

欢迎界面如下图所示:

启动后,SpoonIDE的界面Demo截图如下:

1.2.2Linux下安装配置Kettle

1、安装JDK,版本要在1.7及以上,建议安装JDK1.8.x

在Oracle官网上下载JDK二进制安装包,并安装

rpm:

rpm-ivhjdk-7u2-linux-i586.rpm

bin:

 chmod+xjdk-6u21-linux-i586.bin

        ./jdk-6u21-linux-i586.bin

tar:

tarzxvfjdk-7u2-linux-

配置环境变量:

#vi/etc/profile

编辑加入以下内容

#setjavaJDK

JAVA_HOME=/usr/local/

JRE_HOME=/usr/local/

PATH=$PATH:

$JAVA_HOME/bin:

$JRE_HOME/bin

CLASSPATH=$JAVA_HOME/lib/tools.jar:

$JAVA_HOME/lib/dt.jar

exportJAVA_HOME

exportJRE_HOME

exportPATH

exportCLASSPATH

变更环境变量,检查安装是否成功:

#source/etc/profile

java-version

2、安装配置Kettle:

下载kettle并在服务器上解压

赋予sh执行权限

chmod+x*.sh

运行kitchen.sh

./home/kettle/pdi-ce-

显示图片中的内容即提示Kettle程序在Linux下安装成功。

执行spoon.sh,会报如下错误

Linux下需要安装图形化界面工具,RHEL/CentOS下需要安装gnome和GTK并启动X11服务:

#startx;并在Windows客户端PC上安装连接工具:

VNC-;如果Linux端操作系统发行版为Ubuntu14.04,可以执行以下步骤使用Windows自带的远程桌面mstsc.exe程序基于RDP协议访问Linux的XWindow的GUI图形界面环境:

#sudoapt-getinstallxrdp

#sudoapt-getinstallvnc4server

#sudoapt-getinstallxubuntu-desktop

#echo"xfce4-session">~/.xsession

#sudoservicexrdprestart

Windows下“运行”输入"mstsc"-->回车-->输入Ubuntu主机的IP地址-->"连接"

选择"sesman-Xvnc"-->输入"用户名和密码"-->回车//用户名及密码是linux下的登录用户及密码

在Windows下成功使用VNC或者XManager程序连接到LinuxXWindow的GUI图形环境后,新建Terminal终端窗口

并进入kettle的安装路径下执行:

./spoon.sh

这时候可能会提示如下错误:

这时需要执行如下命令

vi~/.kettle/.spoonrc

输入以下文字:

ShowWelcomePageOnStartup=N

保存,同时修改./kettle/.spoonrc文件中的该参数。

./kettle/.spoonrc此文件夹和文件是隐藏的。

通过ls-a可以看到。

最后在运行./spoon.sh就可以正常打开kettle的图形界面了。

在LinuxX11环境下运行Kettle的主程序Spoon的主窗口MainWindow界面截图如下:

1.2.3Kettle下安装JDBC数据库驱动

Kettle默认不带Oracle驱动,此时在运行时无法使用JDBC连接数据库;这个时候需要下载pdi-ce-stable-JDBC.zip包;解压缩后将jdbc目录下数据库JDBC驱动对应的jar文件拷贝$KETTLE_HOME\data-integration\lib目录下,问题即可解决。

上述Kettle可以使用的稳定版本的JDBC驱动jar包ZIP文件的下载URL地址为:

/andyhuangxl/5414191

1.2.4Kettle下配置资源库连接

默认时,KettleETL转换和作业直接用文件保存,这显然不适合团队模式开发。

如果考虑将这些文件存放到SVN或其它SCM配置工具中,则也是一种选择。

或者,Kettle允许用户将ETL转换和作业存储到其它位置,比如RDBMS中。

为了用数据库取代文件系统存储ETL转换和作业,用户需要在启动SpoonIDE时创建一新的资源库。

在创建资源库前,用户要提供一个RDBMS(常用Oracle或者MySQL)数据库连接用户,比如kettle/kettle。

然后,创建好相应的数据库连接(比如kettle),再并给出资

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 法律文书 > 起诉状

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1