kettle基础教程(一)简要介绍与安装部署

Author Avatar
ebichu 3月 08, 2019
  • 在其它设备中阅读本文章

简要介绍

Pentaho Data Integration(PDI,也称为Kettle)是Pentaho的组件,负责提取,转换和加载(ETL)过程。虽然ETL工具最常用于数据仓库环境,但PDI也可用于其他目的:

  • 在应用程序或数据库之间迁移数据
  • 将数据从数据库导出到平面文件
  • 将数据大量加载到数据库中
  • 数据清理
  • 集成应用程序

Kettle易于使用。每个进程都使用图形工具创建,可以在其中指定要执行的操作,而无需编写代码来指示如何执行操作; 因此可以说Kettle面向元数据的

Kettle可以用作独立应用程序,也可以用作较大的Pentaho Suite的一部分。作为ETL工具,它是最流行的开源工具。Kettle支持大量输入和输出格式,包括文本文件,数据表以及商业和免费数据库引擎。此外,Kettle的转换功能允许用户在极少数限制的情况下操作数据。

下载与安装

下载

https://sourceforge.net/projects/pentaho/
我下载的是pdi-ce-7.0.0.0-25,所以示例都是根据此版本。

https://www.oracle.com/technetwork/java/javase/downloads/index.html

JDK下载地址

PDI Versions 5.1 5.2/5.3/5.4 6.0/6.1 7.0/7.1/8.0/8.1
Java Versions 7 6(build targets)/7 7/8 8

Kettle是由Java编写的免安装软件,运行该软件前需安装jdk,请注意版本适应。

安装

Windows

设置Java环境变量

网上很多教程,本文不再赘述。

安装kettle

kettle不需要安装,只需将zip文件解压缩,进入data-integration文件夹,双击运行Spoon.bat文件即可使用kettle图形用户界面。为了方便使用,建议创建Spoon.bat文件桌面快捷方式,图标使用spoon.ico。

安装成功出现以下界面

Linux

安装jdk并设置环境变量

网上很多教程,本文不再赘述。

安装kettle

创建一个目录,将下载好的kettle解压后放在该文件夹下。

#mkdir  /root/software/kettle
#cp  /root/pdi-ce-7.0.0.0-25.zip  /root/software/kettle
#cd   /root/software/kettle
#unzip pdi-ce-7.0.0.0-25.zip
#cd  data-integration 
#ll  *.sh
#chmod  +x  *.sh  //赋予.sh结尾的文件必须拥有执行权限

测试安装是否成功

在kettle的data-integration目录中执行kitchen.sh文件。

#./kitchen.sh //执行作业
#./pan.sh //执行转换

安装成功出现帮助信息界面

以上。