datax开启hana支持以及dolphinscheduler开启datax任务

funnyZpC 2023-03-28 原文

datax开启hana支持以及dolphinscheduler开启datax任务

前面(@,@)

前段时间因为要做异构数据导入导出，所以搜了下，发现这类工具收费的居多，使用起来未必趁手~
于是我找了下相关开源工具,目前，对于非开源的，我找到的大概有三种方式:

1.springboot+mybatis写代码做导入导出->固定表可以这样做，换张表结构不一样又要重新开发
2.使用kattle...一开始同事用的这款工具，不过它太重了，启动卡半天、操作个字段也卡半天，换个表还要重新建任务，屎一样的操作体验...
3.使用datax,需要配置环境（java、python) ，以及写任务文件(json) 似乎也不是很高效快捷，真难为我了

直到最近我发现了一款工具可以配合着dolphinscheduler使用，那体验简直了..：爽歪歪?,这次我就讲讲如何操作~

一.准备

1.java环境(默认您已经安装)
2.python环境(默认您已经安装),我这边使用linux自带的2.7版本
3.dolphinschedule (默认您已经安装)
4.下载并解压datax安装版(我使用的是2022年3月份左右的版本)https://datax-opensource.oss-cn-hangzhou.aliyuncs.com/20220530/datax.tar.gz
5.测试表及数据：


-- postgresql(pg)
CREATE  TABLE TMPP ( 
 ID int8 primary key, 
 NUM int4, 
 NAME VARCHAR(20) , 
 EXT1 date , 
 EXT2 timestamp ,
 EXT3 timestamp , 
 EXT4 DECIMAL(20, 4) , 
 EXT5 text    , 
 EXT6 CHAR(1) , 
 EXT7 float4  
);
INSERT INTO TMPP (ID,NUM,NAME,EXT1,EXT2,EXT3,EXT4,EXT5,EXT6,EXT7) VALUES (-3,33,'这是名称',NULL,NULL,NULL,830.9123,NULL,NULL,NULL);
INSERT INTO TMPP (ID,NUM,NAME,EXT1,EXT2,EXT3,EXT4,EXT5,EXT6,EXT7) VALUES (-2,22,'n_22','2021-10-28','2021-10-27 11:46:25.000','2021-10-29 11:46:33.000',999.1230,'hello youth!','2',19.8799991607666);
INSERT INTO TMPP (ID,NUM,NAME,EXT1,EXT2,EXT3,EXT4,EXT5,EXT6,EXT7) VALUES (-1,11,'n_11',NULL,NULL,NULL,NULL,NULL,NULL,NULL);
INSERT INTO TMPP (ID,NUM,NAME,EXT1,EXT2,EXT3,EXT4,EXT5,EXT6,EXT7) VALUES (0,1000,'NAME_1000',NULL,'2021-10-28 16:23:30.000',NULL,NULL,NULL,NULL,NULL);
INSERT INTO TMPP (ID,NUM,NAME,EXT1,EXT2,EXT3,EXT4,EXT5,EXT6,EXT7) VALUES (1,1001,'NAME_1001','2021-10-28',NULL,'2021-10-28 16:22:41.000',177.3330,'你好啊~','0',NULL);
INSERT INTO TMPP (ID,NUM,NAME,EXT1,EXT2,EXT3,EXT4,EXT5,EXT6,EXT7) VALUES (-99,99,'hello hana','2021-11-02','2021-11-02 14:56:45.758','2021-11-02 14:56:45.758',99.9900,'HELLO TEXT','9',22.329999923706055);
  
-- hana(sap db)
CREATE ROW TABLE "TMPP" ( "ID" INT CS_INT NOT NULL, "NUM" INT CS_INT, "NAME" NVARCHAR(20) CS_STRING, "EXT1" DAYDATE CS_DAYDATE, "EXT2" LONGDATE CS_LONGDATE, "EXT3" LONGDATE CS_LONGDATE, "EXT4" DECIMAL(20, 4) CS_FIXED, "EXT5" CLOB MEMORY THRESHOLD 1000 , "EXT6" CHAR(1) CS_FIXEDSTRING, "EXT7" DOUBLE CS_DOUBLE );
INSERT INTO TMPP (ID,NUM,NAME,EXT1,EXT2,EXT3,EXT4,EXT5,EXT6,EXT7) VALUES (-3,33,'这是名称',NULL,NULL,NULL,830.9123,NULL,NULL,NULL);
INSERT INTO TMPP (ID,NUM,NAME,EXT1,EXT2,EXT3,EXT4,EXT5,EXT6,EXT7) VALUES (-2,22,'n_22','2021-10-28','2021-10-27 11:46:25.000','2021-10-29 11:46:33.000',999.1230,NULL,'2',19.8799991607666);
INSERT INTO TMPP (ID,NUM,NAME,EXT1,EXT2,EXT3,EXT4,EXT5,EXT6,EXT7) VALUES (-1,11,'n_11',NULL,NULL,NULL,NULL,NULL,NULL,NULL);
INSERT INTO TMPP (ID,NUM,NAME,EXT1,EXT2,EXT3,EXT4,EXT5,EXT6,EXT7) VALUES (0,1000,'NAME_1000',NULL,'2021-10-28 16:23:30.000',NULL,NULL,NULL,NULL,NULL);
INSERT INTO TMPP (ID,NUM,NAME,EXT1,EXT2,EXT3,EXT4,EXT5,EXT6,EXT7) VALUES (1,1001,'NAME_1001','2021-10-28',NULL,'2021-10-28 16:22:41.000',177.3330,NULL,'0',NULL);
INSERT INTO TMPP (ID,NUM,NAME,EXT1,EXT2,EXT3,EXT4,EXT5,EXT6,EXT7) VALUES (-99,99,'hello postgres','2021-11-02','2021-11-02 14:56:45.758','2021-11-02 14:56:45.758',99.9900,NULL,'9',22.329999923706055);

二.`datax`(通用`rdbms`方式)开启`hana`支持

首先，要说明的是一般datax支持hana有两种方式：

1.二次开发，写hana专属的writer以及reader插件->配置jdbc->编译上线
2.直接使用datax提供的rdbmswriter以及rdbmsreader插件->添加jdbc->配置对应的plugin.json中的driver路径即可
这里我使用的是第二种方式，当然下面也会讲到这中间碰到的坑哈?

2.1 `datax`的基本结构

上图为datax解压后的主目录.

bin:启动脚本，主要是python脚本，启动一个任务实例时会用到
conf: 一些基本的配置文件，很少用到
job: 任务配置文件(json格式),这个目录是可选的，一般手写任务配置文件会放到这个目录
lib: 通用及基本的jar包依赖
log: 任务日志目录，这个目录也是可选的，一般是启动任务时指定
log_perf: 也是任务执行统计日志文件，一般是空的
plugin: 里面包含具体的writer以及reader插件及插件配置
script: 脚本目录，这也是可选的，一般脚本文件是统一采用git等版本管理
tmp: 临时目录，个人建的哈??

2.2 添加`jdbc`驱动文件(jar)

一般这个jdbc需要到包管理网站或者对应数据库厂商官网下载，这里下hana的driver：https://mvnrepository.com/artifact/com.sap.cloud.db.jdbc/ngdbc
这里的主要操作是将下载好的jar包放到lib目录内，这里需要特别说明的是:网上有博客写的是放入的plugin目录，可能我的版本较新或者和他们的集成方式不同吧，对我来说这个jar放入到plugin目录肯定是不行的！！！
以下是我的lib目录：

2.3 给通用`rdbms`添加`hana`支持

这个操作在plugin目录下，对应其中的plugin/writer/rdbmswriter 以及 plugin/reader/rdbmsreader目录下的plugin.json文件 ,修改drivers这一项，这个一定不能错！！！
下图为我添加的 hana driver :

到这里，datax的hana配置已经ok了，下面是dolphinscheduler内的datax相关配置~

三.`dolphinscheduler`中配置`datax`环境变量

其实这一步很简单，主要是在dolphinscheduler的->安全中心->环境管理 菜单下配置datax的位置，这步操作一定要在管理员账号 (admin)下操作，一般普通用户是没有权限的，这个很重要!!!
如果您是多机集群部署，建议将datax放在相同的目录位置，不然统一的环境变量找不到，同时JAVA_HOME这个环境变量也建议配置下，不然会有些莫名其妙的问题发生就不好了??

以下是我的配置：

oh，我忘记了，dolphinscheduler默认是没有hana的数据源支持的，需要的可以找我哦(后面会有博客聊到的，关注哟~)?

四.小测一下?

我的测试的是postgresql内的数据抽取到hana 以及 hana的数据抽取到postgresql 两个任务，由于dolphinscheduler的基本使用上一篇博客已经讲过了(具体看这个:https://www.cnblogs.com/funnyzpc/p/16395094.html )，这里我只给出具体的任务节点配置哈?

(dolphinscheduler任务具体配置,表sql脚本上文有)

postgresql to hana
hana to postgresql
执行结果:

还有几个小的注意事项是：

dolphinscheduler的datax任务下查询sql需要将字段显式的写出，不可以用*号代替
查询的字段要注意不同的数据库下会有大小写区分,比如否用 ` 以及 " 装饰字段别名
dolphinscheduler下配置datax任务时 环境名称 (配置的datax环境变量) 这一项为必选，不然任务抛错我不负责哟?

有关datax开启hana支持以及dolphinscheduler开启datax任务的更多相关文章

ruby - 其他文件中的 Rake 任务 - 2
我试图在一个项目中使用rake，如果我把所有东西都放到Rakefile中，它会很大并且很难读取/找到东西，所以我试着将每个命名空间放在lib/rake中它自己的文件中，我添加了这个到我的rake文件的顶部:Dir['#{File.dirname(__FILE__)}/lib/rake/*.rake'].map{|f|requiref}它加载文件没问题，但没有任务。我现在只有一个.rake文件作为测试，名为“servers.rake”，它看起来像这样:namespace:serverdotask:testdoputs"test"endend所以当我运行rakeserver:testid时
ruby - 什么是填充的 Base64 编码字符串以及如何在 ruby 中生成它们？ - 2
我正在使用的第三方API的文档状态:"[O]urAPIonlyacceptspaddedBase64encodedstrings."什么是“填充的Base64编码字符串”以及如何在Ruby中生成它们。下面的代码是我第一次尝试创建转换为Base64的JSON格式数据。xa=Base64.encode64(a.to_json) 最佳答案他们说的padding其实就是Base64本身的一部分。它是末尾的“=”和“==”。Base64将3个字节的数据包编码为4个编码字符。所以如果你的输入数据有长度n和n%3=1=>"=="末尾用于填充n%
ruby - 如何使用 RSpec::Core::RakeTask 创建 RSpec Rake 任务？ - 2
如何使用RSpec::Core::RakeTask初始化RSpecRake任务？require'rspec/core/rake_task'RSpec::Core::RakeTask.newdo|t|#whatdoIputinhere?endInitialize函数记录在http://rubydoc.info/github/rspec/rspec-core/RSpec/Core/RakeTask#initialize-instance_method没有很好的记录；它只是说:-(RakeTask)initialize(*args,&task_block)AnewinstanceofRake
【鸿蒙应用开发系列】- 获取系统设备信息以及版本API兼容调用方式 - 2
在应用开发中，有时候我们需要获取系统的设备信息，用于数据上报和行为分析。那在鸿蒙系统中，我们应该怎么去获取设备的系统信息呢，比如说获取手机的系统版本号、手机的制造商、手机型号等数据。1、获取方式这里分为两种情况，一种是设备信息的获取，一种是系统信息的获取。1.1、获取设备信息获取设备信息，鸿蒙的SDK包为我们提供了DeviceInfo类，通过该类的一些静态方法，可以获取设备信息，DeviceInfo类的包路径为：ohos.system.DeviceInfo.具体的方法如下：ModifierandTypeMethodDescriptionstatic StringgetAbiList()Obt
阿里云国际版免费试用：如何注册以及注意事项 - 2
作为新的阿里云用户，您可以50免费试用多种优惠，价值高达1,700美元（或8,500美元）。这将让您了解和体验阿里云平台上提供的一系列产品和服务。如果您以个人身份注册免费试用，您将获得价值1,700美元的优惠。但是，如果您是注册公司，您可以选择企业免费试用，提交基本信息通过企业实名注册验证，即可开始价值$8,500的免费试用！本教程介绍了如何设置您的帐户并使用您的免费试用版。关于免费试用在我们开始此试用之前，您还必须遵守以下条款和条件才能访问您的免费试用：只有在一年内创建的账户才有资格获得阿里云免费试用。通过此免费试用优惠，用户可以免费试用免费试用活动页面上列出的每种产品一次。如果您有多个帐
ruby-on-rails - Rake 任务仅调用一次时执行两次 - 2
我写了一个非常简单的rake任务来尝试找到这个问题的根源。namespace:foodotaskbar::environmentdoputs'RUNNING'endend当在控制台中执行rakefoo:bar时，输出为:RUNNINGRUNNING当我执行任何rake任务时会发生这种情况。有没有人遇到过这样的事情？编辑上面的rake任务就是写在那个.rake文件中的所有内容。这是当前正在使用的Rakefile。requireFile.expand_path('../config/application',__FILE__)OurApp::Application.load_tasks这里
ruby - 帮助使用 Ruby 中的 "Whenever"gem 来执行 cron 任务 - 2
我以前没有使用过cron，所以我不能确定我这样做是对的。我想要自动化的任务似乎没有运行。我在终端中执行了这些步骤:sudogeminstall每当切换到应用程序目录无论何时。(这创建了文件schedule.rb)我将此代码添加到schedule.rb:every10.minutesdorunner"User.vote",environment=>"development"endevery:hourdorunner"Digest.rss",:environment=>"development"end我将此代码添加到deploy.rb:after"deploy:symlink","depl
ruby - 在 rake 任务中运行 capybara - 2
如何在Rake任务中运行Capybara功能？例如:访问('http://google.com')谢谢! 最佳答案在任务中尝试这样的事情:require'capybara'require'capybara/dsl'Capybara.current_driver=:seleniumBrowser=Class.new{includeCapybara::DSL}page=Browser.new.pagepage.visit("http://www.google.com")puts(page.html)
ruby - ruby 中的同一个程序如何接受来自用户的输入以及命令行参数 - 2
我的ruby脚本从命令行参数获取某些输入。它检查是否缺少任何命令行参数，然后提示用户输入。但是我无法使用gets从用户那里获得输入。示例代码:test.rbname=""ARGV.eachdo|a|ifa.include?('-n')name=aputs"Argument:#{a}"endendifname==""puts"entername:"name=getsputsnameend运行脚本:rubytest.rbraghav-k错误结果:test.rb:6:in`gets':Nosuchfileordirectory-raghav-k(Errno::ENOENT)fromtes
ruby - 如何使用 readline 支持重新安装 ruby？ - 2
我已经按照https://github.com/wayneeseguin/rvm#installation上的说明通过RVM安装了Ruby.有关信息，我有所有文件(readline-5.2.tar.gz、readline-6.2.tar.gz、ruby-1.9.3-p327.tar.bz2、rubygems-1.8.24.tgz、wayneeseguin-rvm-stable.tgz和yaml-0.1.4.tar.gz)在~/.rvm/archives目录中，我不想在任何目录中重新下载它们方式。当我这样做时:sudo/usr/bin/apt-getinstallbuild-essent

datax开启hana支持以及dolphinscheduler开启datax任务