kettle基础教程(一)简要介绍与安装部署
简要介绍
Pentaho Data Integration(PDI,也称为Kettle)是Pentaho的组件,负责提取,转换和加载(ETL)过程。虽然ETL工具最常用于数据仓库环境,但PDI也可用于其他目的:
- 在应用程序或数据库之间迁移数据
- 将数据从数据库导出到平面文件
- 将数据大量加载到数据库中
- 数据清理
- 集成应用程序
Kettle易于使用。每个进程都使用图形工具创建,可以在其中指定要执行的操作,而无需编写代码来指示如何执行操作; 因此可以说Kettle是面向元数据的。
Kettle可以用作独立应用程序,也可以用作较大的Pentaho Suite的一部分。作为ETL工具,它是最流行的开源工具。Kettle支持大量输入和输出格式,包括文本文件,数据表以及商业和免费数据库引擎。此外,Kettle的转换功能允许用户在极少数限制的情况下操作数据。
下载与安装
下载
https://sourceforge.net/projects/pentaho/
我下载的是pdi-ce-7.0.0.0-25,所以示例都是根据此版本。https://www.oracle.com/technetwork/java/javase/downloads/index.html
JDK下载地址
PDI Versions | 5.1 | 5.2/5.3/5.4 | 6.0/6.1 | 7.0/7.1/8.0/8.1 |
---|---|---|---|---|
Java Versions | 7 | 6(build targets)/7 | 7/8 | 8 |
Kettle是由Java编写的免安装软件,运行该软件前需安装jdk,请注意版本适应。
安装
Windows
设置Java环境变量
网上很多教程,本文不再赘述。
安装kettle
kettle不需要安装,只需将zip文件解压缩,进入data-integration文件夹,双击运行Spoon.bat文件即可使用kettle图形用户界面。为了方便使用,建议创建Spoon.bat文件桌面快捷方式,图标使用spoon.ico。
安装成功出现以下界面
Linux
安装jdk并设置环境变量
网上很多教程,本文不再赘述。
安装kettle
创建一个目录,将下载好的kettle解压后放在该文件夹下。
#mkdir /root/software/kettle
#cp /root/pdi-ce-7.0.0.0-25.zip /root/software/kettle
#cd /root/software/kettle
#unzip pdi-ce-7.0.0.0-25.zip
#cd data-integration
#ll *.sh
#chmod +x *.sh //赋予.sh结尾的文件必须拥有执行权限
测试安装是否成功
在kettle的data-integration目录中执行kitchen.sh文件。
#./kitchen.sh //执行作业
#./pan.sh //执行转换
安装成功出现帮助信息界面
以上。