草庐IT

DolphinScheduler——流程调度工具

目录一、平台简介二、竞品软件分析三、安装部署 3.1基础环境3.2安装前操作3.3具体安装操作步骤3.4名词解释四.功能介绍4.1首页&项目管理4.1.1首页4.1.2项目管理4.1.3任务节点类型和参数设置4.2资源中心4.2.1文件管理4.2.2UDF管理4.3数据源中心4.4监控中心4.5安全中心4.5.1租户管理4.5.2用户管理4.5.3告警组管理4.5.4Worker分组管理4.5.5队列管理4.5.6令牌管理五、参数设置5.1系统参数5.2时间自定义参数5.3用户自定义参数六、平台升级6.1升级流程6.2 升级内容6.3 新版本问题七、常见问题7.1jar包问题7.2权限问题附录

datax、dataxweb、kettle的安装与简单使用及常见报错处理

目录一DataX简介1.1DataX1.1.1DataX概览1.1.2DataX3.0框架设计1.1.3DataX3.0插件体系1.1.4DataX3.0六大核心优势1.2DataX-Web二DataX及DataX-Web部署2.1DataX安装2.1.1解压安装2.1.2验证安装可能遇到的问题:解决办法解决办法2.2DataX-Web安装2.2.1基础软件2.2.2打包安装2.2.3配置2.2.4验证安装2.2.5运行简单任务2.3增量同步2.3.1主键自增进行增量同步(MySQL->MySQL)可能遇到的问题:问题原因解决办法2.3.2时间自增进行增量同步(MySQL->MySQL)2.4

datax、dataxweb、kettle的安装与简单使用及常见报错处理

目录一DataX简介1.1DataX1.1.1DataX概览1.1.2DataX3.0框架设计1.1.3DataX3.0插件体系1.1.4DataX3.0六大核心优势1.2DataX-Web二DataX及DataX-Web部署2.1DataX安装2.1.1解压安装2.1.2验证安装可能遇到的问题:解决办法解决办法2.2DataX-Web安装2.2.1基础软件2.2.2打包安装2.2.3配置2.2.4验证安装2.2.5运行简单任务2.3增量同步2.3.1主键自增进行增量同步(MySQL->MySQL)可能遇到的问题:问题原因解决办法2.3.2时间自增进行增量同步(MySQL->MySQL)2.4

ETL工具 - Kettle 介绍及基本使用

一、Kettle介绍在介绍Kettle前先了解下什么是ETL,ETL是Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程,对于企业或行业应用来说,经常会遇到各种异构数据的处理、转换、迁移等操作,这些操作有可能会面对大量的数据和繁琐的步骤,因此就萌生了一些ETL处理工具,市面上常见的ETL工具有很多,比如Sqoop、DataX、Kettle、Talend等,本篇文章就主要来介绍下Kettle工具。Kettle(水壶)是一款国外开源的ETL工具,现在已经更名为PDI,PentahoDataIntegration-Pentaho的缩写,由纯java编写,可以在Windo

DolphinScheduler3.0正式版本安装教程

Standalone极速体验版:下载:ApacheDownloads前置准备工作安装并配置 JAVA_HOME 环境变量,并将其下的 bin 目录追加到 PATH 环境变量中。如果你的环境中已存在,可以跳过这步。安装:解压并运行: 1.tar-xvzfapache-dolphinscheduler-*-bin.tar.gz2.cdapache-dolphinscheduler-*-bin3.bash./bin/dolphinscheduler-daemon.shstartstandalone-server登录DolphinScheduler浏览器访问地址 http://localhost:12

DolphinScheduler3.0正式版本安装教程

Standalone极速体验版:下载:ApacheDownloads前置准备工作安装并配置 JAVA_HOME 环境变量,并将其下的 bin 目录追加到 PATH 环境变量中。如果你的环境中已存在,可以跳过这步。安装:解压并运行: 1.tar-xvzfapache-dolphinscheduler-*-bin.tar.gz2.cdapache-dolphinscheduler-*-bin3.bash./bin/dolphinscheduler-daemon.shstartstandalone-server登录DolphinScheduler浏览器访问地址 http://localhost:12

大型数据SET-SSIS DT_WSTR字段在缓冲区ETL SIS中分配空间到VARCHAR字段

我正在通过SSIS将大型数据集推入SQL。我试图从SSISETL中挤出更多的性能(无转换)我们有一些DT_WSTR在SSIS和SQL中,大小为1000的字段,我们也具有1000个varchar。运行最大尺寸时,总尺寸约为200。我知道SQL中的Varchar只会占据记录中所需的大小。当通过SSIS经过时,如何处理并将其作为完整的1000次处理?在SQL和SSIS中将其降低到200,是否有任何性能好处?看答案您唯一可以做的就是卸下列,也可以减小尺寸。您可能必须截断数据才能获得较小的尺寸。如果您需要完整的数据,则可以更改DefaultBufferSize具有更高的价值。这将使用更多的内存,以便可以

使用 Apache Flink 开发实时 ETL

ApacheFlink是大数据领域又一新兴框架。它与Spark的不同之处在于,它是使用流式处理来模拟批量处理的,因此能够提供亚秒级的、符合Exactly-once语义的实时处理能力。Flink的使用场景之一是构建实时的数据通道,在不同的存储之间搬运和转换数据。本文将介绍如何使用Flink开发实时ETL程序,并介绍Flink是如何保证其Exactly-once语义的。示例程序让我们来编写一个从Kafka抽取数据到HDFS的程序。数据源是一组事件日志,其中包含了事件发生的时间,以时间戳的方式存储。我们需要将这些日志按事件时间分别存放到不同的目录中,即按日分桶。时间日志示例如下:{"timestam

如何部署WebSpoon9.0.0(Kettle的Web版本)

前言Kettle是小有名气的开源ETL工具,现已改名为PDI(PentahoDataIntegration),其Web版本为:WebSpoon,本文记录了从官方Git仓库中拉取代码并成功运行的过程。一、在本地拉取并编译项目参考来源:Kettle的Git官方页面的webspoon-9.0分支的README文件编译依赖项目根据_Buildandlocallypublishdependentlibraries_部分可知,需要预先在本地编译部分依赖项目。pentaho-xul-swt$gitclone-bwebspoon-9.0https://github.com/HiromuHota/pentaho

如何部署WebSpoon9.0.0(Kettle的Web版本)

前言Kettle是小有名气的开源ETL工具,现已改名为PDI(PentahoDataIntegration),其Web版本为:WebSpoon,本文记录了从官方Git仓库中拉取代码并成功运行的过程。一、在本地拉取并编译项目参考来源:Kettle的Git官方页面的webspoon-9.0分支的README文件编译依赖项目根据_Buildandlocallypublishdependentlibraries_部分可知,需要预先在本地编译部分依赖项目。pentaho-xul-swt$gitclone-bwebspoon-9.0https://github.com/HiromuHota/pentaho