草庐IT

一百八十二、大数据离线数仓完整流程——步骤一、用Kettle从Kafka、MySQL等数据源采集数据然后写入HDFS

一、目的经过6个月的奋斗,项目的离线数仓部分终于可以上线了,因此整理一下离线数仓的整个流程,既是大家提供一个案例经验,也是对自己近半年的工作进行一个总结。二、项目背景项目行业属于交通行业,因此数据具有很多交通行业的特征,比如转向比数据就是统计车辆左转、右转、直行、掉头的车流量等等。三、业务需求(一)预估数据规模(二)指标查询频率指标的实时查询由Flink实时数仓计算,离线数仓这边提供指标的T+1的历史数据查询四、数仓技术架构(一)简而言之,数仓模块的数据源是Kafka,终点是ClickHouse数据库第一步,用kettle采集Kafka的数据写入到HDFS中;第二步,在Hive中建数仓,ODS

基于Kettle开发的web版数据集成开源工具(data-integration)-部署篇

目录📚第一章前言📗背景📗目的📗总体方向📚第二章下载编译📗下载📗编译📚第三章部署📗准备工作📕安装数据库&redis&consul📕修改配置文件的数据库、redis、consul信息📘`/dataintegration-gateway/src/main/resources/application-local.yaml`修改用户认证服务SSO📗服务器-应用目录结构📗重新编译并上传jar包📗启动后台服务📕consul监控页面可以看到启动成功的服务📗前端部署📕编译📕nginx配置📕登录验证⁉️问题记录❓问题一:-cp方式启动报错:找不到类❗解决方式:直接jar包启动❓问题二:Failedtohandle

Kettle Local引擎使用记录(一)(基于Kettle web版数据集成开源工具data-integration源码)

KettleWeb📚第一章前言📚第二章demo源码📗pom.xml引入Kettle引擎核心文件📗java源码📕controller📕service📕其它📕mavensettings.xml📗测试📕测试文件📕测试结果⁉️问题记录❓问题一:jar包冲突-`Anattemptwasmadetocallthemethodjavax.servlet.ServletContext.setInitParameter(Ljava/lang/String;Ljava/lang/String;)Zbutitdoesnotexist.Itsclass,javax.servlet.ServletContext,isa

【kettle】pdi/data-integration 集成kerberos认证连接hdfs、hive或spark thriftserver

一、背景kerberos认证是比较底层的认证,掌握好了用起来比较简单。kettle完成kerberos认证后会存储认证信息在jvm中,之后直接连接hive就可以了无需提供额外的用户信息。sparkthriftserver本质就是通过hivejdbc协议连接并运行sparksql任务。二、思路kettle中可以使用js调用java类的方法。编写一个jar放到kettle的lib目录下并。在启动kettle后会自动加载此jar中的类。编写一个javascript转换完成kerbero即可。二、kerberos认证模块开发准备使用scala语言完成此项目。hadoop集群版本:cdh-6.2.0ke

kettle之http调用简单介绍(carte)

1.介绍Carte:轻量级的HTTP服务器(基于Jetty),后台运行,监听HTTP请求来运行一个作业。可以用来http请求允许,停止,监控job和trans的运行。其也用于分布式和协调跨机器执行作业,也就是Kettle的集群。运行Carte的服务器在kettle术语里称为slaveserver。2.启动carte1.Kettle当前目录打开cmd窗口,输入下列命令Windows下:carte.batIP地址端口##例如:carte.bat127.0.0.18081linux下:nohup./carte.shpwd/carte-config-master-8080.xml>app.log2>&

kettle的下载安装以及问题点

1、kettle下载以安装1)kettle的官网下载地址:PentahofromHitachiVantara-BrowseFilesatSourceForge.net2)如果需要下载其他版本:直接点击对应的版本Name(8.0以下的是在DataIntegration文件夹里面)进去,再选择client-tools点击进去,最后选择pdi-ce-xxx.zip进行下载。​ 3)安装不管是windows和linux环境下安装都是直接解压即可,再配置jdk环境。同步数据时,需要在lib加入对应的数据库驱动包。2、Kettle的注意点与问题点【Kettle-201】${Internal.Entry.C

2023.12.15 FineBI与kettle

1.结构化就是可以用schema描述的数据,就是结构化数据,能转为二维表格,如CSV,Excel,2.半结构化就是部分可以转换为二维表格,如JSON,XML3.非结构化数据,就是完全无法用二维表格表示的数据,如Word文档,Mp4,图片,等文件.kettle的流程新建转换-构建流图-配置组件-保存运行使用windos的黑窗口进行任务流执行kettle_crontab.bat编写黑窗口默认ansi,要先改脚本的编码先进安装kettle的盘符然后 cd安装的路径然后pan.bat/file盘符/想要执行转换的工作流的所在路径windos本地定时功能,控制面板-任务计划程序-创建基本任务,FineR

【Kettle 工具】如何安装及连接达梦数据库

Kettle工具如何安装及连接达梦数据库1如何下载进入Kettle官网下载点击此处链接下载2解压zip包双击解压即可。3安装jdk配置环境变量参考【Java】如何安装配置环境变量4打开kettle双击spoon.bat运行kettle,打开spoon工具(此处是windows环境,若是linux,对应工具是spoon.sh)启动成功会出现如下界面:5添加数据库驱动包(jar包)将数据库的驱动jar包(达梦数据库的驱动在数据库安装目录drivers下的jdbc包里)放到D:\Kettle\pdi-ce-7.1.0.0-12\data-integration\lib目录下,重启spoon.bat达

ETL数据清洗Kettle工具

文章目录一、简介二、资源库(新建、管理)三、转换1.新建数据源2.简单的输入输出配置步骤2.1配置表输入2.2配置表输出2.3保存2.4启动与执行结果3.转换1.去重(去重前需要排序)2.剪切字符串3.拆分字段4.增加常量5.增加序列6.字段选择7.字符串操作8.字符串替换9.计算器10.值映射11.行/列转换11.1列转行(在数据库中叫做行专列)行转列类比SQL11.2行转列(在数据库中叫做列转行)类比列转行SQL4.应用4.1写日志5.流程5.1switch/case6.脚本7.查询8.连接9.统计四、作业案例一作业的调度一、简介Kettle是一项进行数据清洗的工具。概念:资源库官方提供的

Kettle组件介绍

1.Kettle转换转换里面有个DB连接,新建连接之后共享这个连接。1.1输入控件csv文件输入文本文件输入Excel输入XML输入JSON输入表输入勾选裁剪表:相当于先清空表truncatetablecsv;再插入insertintocsvvalues(…)1.2输出控件Excel输出文本文件输出SQL文件输出表输出更新&插入/更新更新需要更新emp1表,必须保证两张表的数据行数相同,根据id作比较进行更新插入/更新需要更新emp1表,两张表的数据行数可以不相同,更新字段添加id,把Y改成N删除需求:删除emp1表格中emp表里面已经有的数据(按照emp表对emp1表数据进行去重)emp表里