Spoon用户指南:01Spoon简介
什么是Spoon?
Kettle是“Kettle E.T.T.L. Environment.”的首字母缩写。Kettle旨在帮助您满足您的ETTL需求,包括数据的提取,转换,运输和加载。
Spoon是一个图形用户界面,允许您设计可以使用Kettle工具–Pan和Kitchen运行的转换和作业。Pan是一种数据转换引擎,可执行多种功能,例如从各种数据源读取,操作和写入数据。Kitchen是一个程序,用于执行由Spoon在XML或数据库资源库中设计的作业。作业通常以批处理模式安排,以定期自动运行。
注意:有关Pan或Kitchen的完整说明,请参阅Pan和Kitchen用户指南。
转换和作业可以使用XML文件描述自己,也可以放在Kettle数据库资源库中。然后,Pan或Kitchen可以读取数据以执行转换中描述的步骤或运行作业。总之,Pentaho Data Integration使数据仓库更易于构建,更新和维护。
本节介绍以下主题:
- 安装 Spoon
- 启动 Spoon
- 支持的平台
- 已知的问题
- 用户界面概述
- 命令行选项
- 资源库
- 许可证
- 转换定义
- 作业定义
- 工具栏图标
- Spoon 选项
- 搜索元数据
- 设置环境变量
- 执行日志历史记录
- 重新执行
- 生成针对目标步骤的映射
- 安全模式
- 欢迎界面
安装Spoon
按照以下说明安装Spoon:
- 安装Sun Microsystems Java Runtime Environment 1.5或更高版本。您可以在http://www.javasoft.com/免费下载JRE 。
- 将二进制分发zip文件解压缩到您选择的目录中。
- 在类Unix环境(例如Solaris,Linux,MacOS)下,必须使shell脚本可执行。执行这些命令以使Kettle目录中的所有shell脚本都可执行:
1 | cd Kettle |
启动Spoon
下面的脚本允许您在不同平台上启动Spoon:
- Spoon.bat:在Windows平台上启动Spoon。
- spoon.sh:在类似Unix的平台上启动Spoon,例如Linux,Apple OSX,Solaris
要在Windows平台下创建快捷方式,需要提供一个图标。使用“spoon.ico”设置正确的图标。将快捷方式指向spoon.bat文件。
支持的平台
以下平台支持Spoon GUI:
- Microsoft Windows:自Windows 95以来的所有平台,包括Vista
- Linux GTK:在i386和x86_64处理器上,最适合Gnome
- Apple的OSX:适用于PowerPC和Intel机器
- Solaris:使用Motif接口(GTK可选)
- AIX:使用Motif接口
- HP-UX:使用Motif界面(GTK可选)
- FreeBSD:对i386的初步支持,尚未在x86_64上
已知的问题
以下是与Spoon相关的已知问题列表。
Linux
偶尔的JVM崩溃运行SuSE Linux和KDE。在Gnome下运行没有任何问题。(在SUSE Linux 10.1上检测到但早期版本也存在同样的问题)
FreeBSD
拖放问题。使用画布上的右键单击弹出菜单作为变通方法。
查看http://jira.pentaho.com上的跟踪器列表,以获取有关最近发现的问题的最新信息。
用户界面概述
Spoon左上方面板中的主树允许您浏览与已打开的作业和转换相关联的连接。在设计转换时,左下方面板中的核心对象包含用于构建转换的可用步骤,包括输入,输出,查找,转换,连接,脚本步骤等。设计作业时,核心对象的上下文包含可用的作业条目。核心对象栏包含各种作业条目类型。以下章节将详细介绍这些项目:.03数据库连接,.06连接线,.09转换步骤,.11作业条目,.12图形视图。
命令行选项
以下是启动Spoon应用程序时可以使用的命令行选项:
-file=
运行指定的转换或作业
默认值:上次打开的文件
- .ktr:Kettle Transformation
- .kjb:Kettle Job
1 | -file=transform.ktr |
-logfile =
指定日志文件的位置。
默认值:标准输出。
1 | -logfile=log_file.txt |
-level =
1 | -level=Basic |
以下是可能的值:
Nothing | 不显示任何输出 |
---|---|
Error | 仅显示错误 |
Minimal | 使用最少的日志 |
Basic | 这是默认的基本日志记录级别 |
Detailed | 提供详细的日志输出 |
Debug | 显示详细输出以进行调试。 |
Rowlevel | 行级详细记录。警告 - 这会生成大量数据。 |
-rep=
-rep=
启动时自动从资源库加载转换或作业。
您必须指定选项 -user, -pass , -job and-trans。
资源库详细信息从本地目录或Kettle目录中的文件repositories.xml加载:
- $HOME/.kettle/
- C:\Documents and Settings\
.kettle on Windows.
默认值:对话框将询问资源库详细信息
1 | -rep=repos -user=admin -pass=adminpasswd -trans=trans.ktr |
* 重要*:
- 在Windows上,Pentaho建议您使用/ option:value格式来避免MS-DOS shell的命令行解析问题。
- 斜体字段表示选项使用的值。
- 如果选项值中有空格,请使用引号或双引号; 引号确保选项值保持在一起。
资源库
Spoon允许您将转换和作业文件资源到本地文件系统或Kettle资源库中。Kettle资源库可以存放在任何常见的关系数据库中。要从数据库资源库加载转换,您必须连接到此资源库。启动Spoon时定义与资源库的数据库连接,如下所示:
与资源库关联的信息存储在“repositories.xml”中。此文件位于默认主目录中的隐藏目录“.kettle”中。在Windows上,该文件位于C:\ Documents 和 Settings \ .kettle中
注意:与repositories.xml文件关联的完整路径和文件名将显示在Spoon控制台上。
如果每次启动Spoon时都不想显示“欢迎”对话框,请在启动时禁用“显示此对话框”或使用“编辑/选项”菜单下的“选项”对话框。
注意:管理员的默认密码是 admin。Pentaho强烈建议您使用资源库资源管理器或资源库/编辑用户菜单更改此默认密码。
资源库自动登录
您可以通过设置以下环境变量让Spoon自动登录到资源库:KETTLE_REPOSITORY,KETTLE_USER和KETTLE_PASSWORD。
重要提示:由于日志记录会自动带来安全风险,Pentaho强烈建议您始终锁定计算机以防止未经授权访问资源库。
许可证
从版本2.2.0开始,Kettle根据LGPL许可证发布到公共域。有关本许可证的全文,请参阅附录A.
注意:Pentaho Data Integration在下面被称为“Kettle”。
版权所有(C)2006 Pentaho Corporation
Kettle是免费软件; 您可以根据自由软件基金会发布的GNU宽通用公共许可证条款重新分发和/或修改它; 许可证的2.1版本,或(根据您的选择)任何更高版本。
Kettle的分配是希望它有用,但没有任何保证; 甚至没有适销性或特定用途适用性的暗示保证。有关更多详细信息,请参阅GNU宽通用公共许可证。
您应该已收到GNU宽通用公共许可证的副本以及Kettle分配; 如果没有,请写信给Free Software Foundation,Inc.,51 Franklin St,Fifth Floor,Boston,MA 02110-1301 USA
转换定义
下表包含转换定义列表:
转换 | 描述 |
---|---|
Value | 值是行的一部分,可以包含任何类型的数据:字符串,浮点数,无限精度BigNumbers,整数,日期或布尔值 |
Row | 一行由0个或多个值组成,这些值作为单个条目一起处理。 |
Input Stream | 进入步骤的一堆行 |
hop | 两个步骤之间的一个或多个数据流的图形表示; 一个跃点始终表示一步的输出流,另一个表示输入流 - 流的数量等于目标步骤的副本(一个或多个) |
note | 可以添加到转换的描述性文本 |
作业定义
下表包含作业定义列表:
工作 | 描述 |
---|---|
Job Entry | 执行特定任务的作业的一部分 |
Hop | 两个步骤之间的一个或多个数据流的图形表示; 一个跃点始终表示一步的输出流,另一个表示输入流 - 流的数量等于目标步骤的副本(一个或多个) |
Note | 可以添加到作业的描述性文本 |
工具栏图标
主屏幕工具栏上的图标从左到右:
图标 | 描述 |
---|---|
![]() |
创建新作业或转换 |
![]() |
如果未连接到资源库,则从文件打开转换/作业;如果连接到资源库,则从资源库打开转换/作业。 |
![]() |
将转换/作业保存到文件或资源库。 |
![]() |
使用不同的名称或文件名保存转换/作业。 |
![]() |
打开打印对话框。 |
![]() |
运行转换/作业:从XML文件或资源库运行当前转换。 |
![]() |
预览转换:从内存运行当前转换。您可以预览由选定步骤生成的行。 |
![]() |
在调试模式下运行转换,允许您解决执行错误。 |
![]() |
重播特定日期和时间的转换处理。这将导致某些步骤(文本文件输入和Excel输入)仅处理在特定日期和时间运行期间无法正确解释的行。 |
![]() |
验证转换:Spoon为每个步骤运行一系列检查,以查看是否所有内容都将按预期运行。 |
![]() |
运行影响分析:转换对使用的数据库有何影响。 |
![]() |
生成运行加载的转换所需的SQL。 |
![]() |
启动数据库资源管理器,允许您预览数据,运行SQL查询,生成DDL等。 |
Spoon选项
Kettle选项允许您自定义与图形用户界面的行为和外观相关的属性。示例包括启动选项,例如是否显示提示和Kettle欢迎页面,以及用户界面选项(如字体和颜色)。要访问选项对话框,请从菜单栏中选择“ 编辑”,然后选择“选项… ”。
常规选项卡
特征 | 描述 |
---|---|
最大撤消级别 | 设置Spoon可以撤消(或重做)的最大步数 |
预览对话框中的默认行数 | 允许您更改转换预览期间从步骤请求的默认行数 |
记录窗口中的最大行数nr | 指定要在日志记录窗口中显示的行的最大限制 |
在启动时显示提示? | 设置启动时的提示显示 |
在启动时显示欢迎页面? | 控制启动Spoon时是否显示“欢迎”页面 |
使用数据库缓存? | Spoon缓存存储在源数据库和目标数据库中的信息。在某些情况下,当您进行数据库更改时,缓存会导致错误的结果。为了防止错误,您可以完全禁用缓存,而不是每次都清除缓存。 |
注意:当您向数据库连接启动DDL(数据定义语言)语句时,Spoon会自动清除数据库缓存; 但是,使用第三方工具时,可能需要手动清除数据库缓存。
特征 | 描述 |
---|---|
启动时打开最后一个文件? | 从XML或存储库自动加载您使用(打开或保存)的最后一个转换 |
自动保存更改的文件? | 在运行之前自动保存已更改的转换 |
只显示主树中的活动文件? | 通过仅显示当前活动的文件,减少左侧主树中的转换和作业项的数量 |
仅将已使用的连接保存到XML? | 将转换的XML导出限制为该转换中使用的连接。这在交换样本转换时很有用,以避免包含所有已定义的连接。 |
询问在打开/导入时替换现有连接? | 在导入期间替换现有数据库连接之前请求权限 |
在打开/导入时替换现有连接? | 这是在没有显示对话框时采取的操作。(见上一个选项) |
显示“保存”对话框? | 允许您关闭更改转换时收到的确认对话框 |
自动拆分跳? | 关闭要分割跳跃时获得的确认对话框(另请参见7.4。拆分跳跃) |
显示“复制或分发”对话框? | 关闭将步骤链接到多个输出时出现的警告消息。此警告消息描述了处理多个输出的两个选项:分发行 - 目标步骤轮流接收行(循环法)复制行 - 所有行都发送到所有目标 |
启动时显示存储库对话框? | 控制是否在启动时显示存储库对话框。 |
退出时询问用户? | 控制在用户选择退出应用程序时是否显示确认对话框。 |
清除自定义参数(步骤/插件) | 清除插件或步骤对话框中设置的所有参数和标志。 |
显示工具提示? | 此选项控制是否显示主工具栏上按钮的工具提示。 |
外观和感受选项卡
特征 | 描述 |
---|---|
固定宽度字体 | 对话框,树,输入字段等中使用的字体 |
工作区上的字体 | 图形视图上使用的字体 |
笔记字体 | 在图形视图中显示的注释中使用的字体 |
背景颜色 | 设置Spoon中的背景颜色。它也会影响所有对话框 |
工作区背景颜色 | 在Spoon的图形视图中设置背景颜色 |
标签颜色 | 用于指示活动/选定选项卡的颜色。 |
工作区中的图标大小 | 影响图形窗口中图标的大小。图标的原始大小为32x32像素。最好的结果(图形)可能是16,24,32,48,64和其他32的倍数。 |
工作区上的线宽 | 影响图形视图上的跃点的线宽和步骤周围的边框。 |
工作区上的阴影大小 | 如果此大小大于0,则在画布上绘制步骤,跃点和注释的阴影,使其看起来像转换浮动在画布上方。 |
对话中间百分比 | 默认情况下,参数以对话框宽度的35%绘制,从左侧开始计算。您可以使用此参数更改此设置。在使用异常大字体的情况下可能很有用。 |
画布抗锯齿? | Windows,OSX和Linux等平台通过GDI,Carbon或Cairo支持抗锯齿。选中此选项可在图表视图中启用更平滑的线条和图标。如果启用此选项并且之后环境不再起作用,请将文件$ HOME / .kettle / .spoonrc中的选项“EnableAntiAliasing”的值更改为“N”(C:\ Documents and Settings \ |
使用OS的外观? | 在Windows上进行检查可以使用Spoon中字体和颜色的默认系统设置。在其他平台上,情况总是如此。 |
显示品牌图形 | 启用此选项将在画布上和左侧“展开栏”中绘制Pentaho Data Integration品牌图形。 |
首选语言 | 您可以在此处指定默认语言设置。如果某个文本尚未转换为此语言环境,则Kettle将回退到故障转移语言环境。 |
替代语言 | 由于编写Kettle的原始语言是英语,因此最好将此语言环境设置为英语。 |
搜索元数据
此选项将搜索所有已加载作业的任何可用字段,连接器或注释以及“过滤器”字段中指定的字符串的转换。元数据搜索返回详细的结果集,显示任何搜索命中的位置。通过从菜单栏中选择“编辑”|“搜索元数据”可访问此功能。
设置环境变量
“设置环境变量”功能允许您显式创建和设置当前用户会话的环境变量。在设计用于测试通常由另一个作业或转换动态设置的变量替换的转换时,这是一个有用的功能。
通过从菜单栏中选择“编辑”|“设置环境变量”,可以访问此功能。
注意:运行使用未定义变量的转换时,也会显示此页面。这允许您在执行时间之前定义它们。
显示环境变量
此功能显示当前环境变量列表及其值。可以通过从菜单栏中选择“编辑”|“显示环境变量”选项来访问它。
执行日志历史记录
如果已将作业或转换配置为在数据库表中存储日志信息,则可以通过右键单击主树中的作业或转换并选择“打开历史记录视图”来查看先前执行的日志信息。出现类似于下面的视图:
注意:todo:修复PDI-224时的屏幕截图
注意:下次执行文件时,默认情况下也会打开作业或转换的日志历史记录。
重新执行
重新执行功能允许您重新运行失败的转换。为文本文件输入和Excel输入实现了重放功能。它允许您将有错误的文件发送回源并更正数据。如果存在.line文件,则仅在重放期间处理之前失败的行。重新执行功能使用.line文件的文件名中的日期来匹配输入的重播日期。
生成针对目标步骤的映射
如果您有固定的目标表,请将流中的字段映射到目标输出表中的相应字段。在转换中使用“选择值”步骤。“生成目标映射”选项为您提供了一个易于使用的对话框,用于定义这些映射,自动创建生成的“选择值”步骤,该步骤可以在表输出步骤之前放入转换流中。
要访问“针对目标生成映射”选项,请右键单击表输出步骤。
定义映射后,选择“确定”,包含映射的“选择值”步骤将显示在工作区中。在表输出步骤之前将映射步骤附加到转换中。
生成映射示例
下面是一个简单转换的示例,我们希望在其中生成到目标输出表的映射:
- 首先右键单击Table输出步骤,然后选择“Generate mappings against target”。
- 使用上面显示的Generate Mapping对话框添加所有必需的映射,然后单击OK。您现在将看到一个表输出映射步骤已添加到画布中。
- 在表输出步骤之前将生成的表输出映射步骤拖到转换流中:
安全模式
在混合来自多个源的行时使用安全模式,以确保所有行在所有条件下都具有相同的布局。Spoon日志记录窗口或“执行转换/作业”窗口中提供了安全模式选项。在安全模式下运行时,转换会检查通过的每一行并确保所有布局都相同。如果行与第一行的布局不同,则会生成并报告错误。
注意:Pan中也提供此选项。
欢迎页面
欢迎页面显示您第一次启动Spoon 3.0; 它为您提供有关Pentaho数据集成的其他信息的链接。您可以通过从编辑菜单中选择选项来禁用Spoon选项中的欢迎页面。
以上。
——本文译自Pentaho Data Integration (aka Kettle)官网文档.01 Introduction to Spoon