草庐IT

大数据 ETL 处理工具之 Kettle

目录第1章Kettle概述1.1ETL简介1.2Kettle简介1.2.1Kettle是什么1.2.2Kettle的两种设计1.2.3Kettle的核心组件1.2.4Kettle特点第2章Kettle安装部署2.1Kettle下载2.1.1下载地址2.1.2 Kettle目录说明2.1.3 Kettle文件说明2.2Kettle安装部署2.2.1概述2.2.2安装2.3Kettle界面简介2.3.1首页2.3.2转换2.3.3作业2.4Kettle转换初次体验​2.5Kettle核心概念2.5.1可视化编程2.5.2转换2.5.3步骤(Step)​2.5.4跳(Hop)2.5.5元数据2.5.

在docker上部署kettle web版本

目录前言部署过程kettle部署开始汉化安装vim步骤一:清空sources.list步骤二步骤三:更新软件列表步骤四步骤五:安装vim汉化配置前言因为最近要上数据预处理的网课,我的电脑上没有安装kettle,因为安装kettle需要的jdk版本和我电脑已经安装的版本不匹配,这时候一般就是两种方法,要么把已有的jdk删了重装,要么再下一个jdk,电脑里同时装两个jdk按理说是可行的,也可以找到教程,但是我怕装了之后影响我IDEA和Android的使用,所以两种方法对我来说都不太合适。然后我就在github上找到了withdocker的kettleweb安装。发现真的可行!!!我太兴奋了哈哈哈哈

kettle web 版本 (webspoon) 中文部署 kettle 页面编辑 kettleweb 中文

文章目录webspoon中文切换web版本安装开始汉化安装vim汉化配置webspoon中文切换github地址:https://github.com/HiromuHota/pentaho-kettleweb版本安装安装命令dockerrun-d-p8080:8080hiromuhota/webspoon可以看到已经装好了页面访问,可以看到现在是英文的开始汉化进入webspoon容器#f4bb1f5f06e4为容器iddockerexec-it-u0f4bb1f5f06e4/bin/bash#进入Tomcat的bin目录可以看到有一个setenv.sh的Tomcat环境变量配置脚本cdbin/

Springboot整合ETL引擎Kettle的使用

简介ETL是英文Extract-Transform-Load的缩写,用来描述将数据从源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,它能够对各种分布的、异构的源数据(如关系数据)进行抽取,按照预先设计的规则将不完整数据、重复数据以及错误数据等“脏"数据内容进行清洗,得到符合要求的“干净”数据,并加载到数据仓库中进行存储,这些“干净”数据就成为了数据分析、数据挖掘的基石。kettle是一个开源ETL工具。kettle提供了基于java的图形化界面,使用很方便。kettle提供了基于JAVA的脚步编写功能,可以灵活地自定义ETL过程,使自行定制、批量处理

Kettle变量和参数介绍系列文章3-循环的轻松实现

本文主要讲述在Kettle开发中实现循环操作的两种简单方法,即使没有编程经验的朋友也比较容易掌握。本系列文章的前两篇,感兴趣的朋友可以看下:1、变量的使用;2、参数的使用。循环的实现条件在Kettle中要实现一个正常的循环操作,一般要满足下面四个条件:1、有一个业务执行模块,可以是一个作业或者转换等,用来接收变化值,变化值的载体一般是变量;2、要有需要遍历的值,可以是提前准备好的一组结果值,也可以是循环脚本执行过程中动态生成的;3、要能够实现值的逐行输入;4、要保证循环能够正常结束。针对循环的实现条件,我会在下面具体的循环实现方法中进行详细说明。循环的实现方法1:对一组值进行循环下图是完整的作

CentOS7部署kettle9.3.0并部署自服器远程提交任务

环境说明:主机名:cmcc01为例 操作系统:centos7kettle版本:9.3.01.下载kettle官网:https://sourceforge.net/projects/pentaho/files/2.解压unzip/opt/package/pdi-ce-9.3.0.0-428.zip-d/opt/software/3、配置java环境变量vim~/.bash_profile#添加以下内容#JDKexportJAVA_HOME=/opt/software/jdk1.8.0_321exportPATH=$PATH:${JAVA_HOME}/bin使配置生效source/etc/prof

Kettle用法之Windows定时任务

1概述前文提到了kettle的定时任务计划,但这个任务需要开启kettle,本文将利用windows的任务计划实现kettle的定时任务。2实现方法需要编写bat文件,然后windows的任务计划调用执行。3操作步骤3.1第1步启动spoon,新建一个作业(job),拖入1个Start,1个转换,并按住shift键,画线将二者连起来,如图:将作业保存,命名为job_collectdata.kjb。3.2第2步双击“转换”图标,设置要定时执行的转换(转换的创建见《用Kettle调用RestfulAPI接口》(https://blog.csdn.net/helloworldchina/articl

Kettle(11):SQL脚本组件

接下来,我们来讲解一个高级用法。在实际开发中,也经常容易使用得到。假设我们有一段SQL脚本,想要用Kettle来执行,此时该使用哪个组件呢?1组件介绍执行SQL脚本组件,可以让Kettle执行一段SQL脚本。我们可以利用它来自动执行某些操作。2需求使用Kettle执行SQL脚本,将t_user1表中的数据清空。3构建Kettle数据流图4配置Kettle数据流图组件参数

Kettle的安装以及简单使用

Kettle是一款开源免费的ETL工具,ETL全称Extract-Transform-Load意味着数据抽取,转换,装载的过程。ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据,ETL是BI(商业智能)项目重要的一个环节。一、下载安装官网下载地址:https://sourceforge.net/projects/pentaho/files/Data%20Integration/本次测试mysql,因此需要一个连接mysql的驱动包下载地址:https://dev.mysql.com/downlo

Kettle变量和参数介绍系列文章1-变量的使用

本文主要讲述Kettle中变量的分类,并针对每一类变量的使用进行说明。 变量的分类在Kettle中变量一共可以分为3类,分别是系统变量(对应“kettle.properties”文件)、自定义变量(对应“设置变量”组件)和环境变量,其中系统变量是全局变量,自定义变量是局部变量,而环境变量指的是当前脚本文件中出现的所有变量,包括系统变量、自定义变量以及环境变量自身定义的变量。系统变量和自定义变量的最大区别:系统变量是在文件中定义的,对所有脚本文件都始终有效;自定义变量是在脚本中定义的,只有定义后才能使用,其有效范围和范围参数有关。最后也会对"从步骤获取数据"(以"表输入"为例)和"作为参数的字段