Datax-ETL-SqlServerToHDFS
全部标签一.概述ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。kettle,最受欢迎的ETL工具之一,本文将从安转到简单使用过一遍二.kettle安转2.1环境准备jdk8下载地址image.pngkettle下载地址image.png2.2配置修改1.下载kettle后解压进入文件夹/data-integrationimage.pngspoon.sh:macos/linux的启动脚本Spoon.bat:win系统启动脚本2.mac系统修改文件spoon.sh,配置启动脚本
1.摘要对于数据仓库,大数据集成类应用,通常会采用ETL工具辅助完成。ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程。当前的很多应用也存在大量的ELT应用模式。常见的ETL工具或类ETL的数据集成同步工具很多,以下对开源的Sqoop、dataX、Kettle、Canal、StreamSetst进行简单梳理比较。通过分析,笔者个人建议优先DataX更优。2.内容2.1Sqoop2.1.1介绍Sqoop,SQL-to-Hadoop即“SQL到Hadoop和Hadoop
1.摘要对于数据仓库,大数据集成类应用,通常会采用ETL工具辅助完成。ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程。当前的很多应用也存在大量的ELT应用模式。常见的ETL工具或类ETL的数据集成同步工具很多,以下对开源的Sqoop、dataX、Kettle、Canal、StreamSetst进行简单梳理比较。通过分析,笔者个人建议优先DataX更优。2.内容2.1Sqoop2.1.1介绍Sqoop,SQL-to-Hadoop即“SQL到Hadoop和Hadoop
前言存在一些业务场景,需要离线同步数据到异构数据库,DataX算是一个不错的选择。不过开源版本只支持单进程,多线程,如果是需要多进程,需要业务在reader层面查询的时候就规划好对应进程需要读取的数据分片。1.png2.png实践当前例子为elasticsearch同步数据到clickhouse1,下载DataX源码编译(参考https://github.com/alibaba/DataX/blob/master/userGuid.md)gitclonehttps://github.com/alibaba/DataX.gitmvn-Ucleanpackageassembly:assembly-
前言存在一些业务场景,需要离线同步数据到异构数据库,DataX算是一个不错的选择。不过开源版本只支持单进程,多线程,如果是需要多进程,需要业务在reader层面查询的时候就规划好对应进程需要读取的数据分片。1.png2.png实践当前例子为elasticsearch同步数据到clickhouse1,下载DataX源码编译(参考https://github.com/alibaba/DataX/blob/master/userGuid.md)gitclonehttps://github.com/alibaba/DataX.gitmvn-Ucleanpackageassembly:assembly-
一、概述 Hadoop的版本更新挺快的,已经到了2.4,但是其周边工具的更新速度还是比较慢的,一些旧的周边工具版本对hadoop2.x的兼容性做得还不完善,特别是sqoop。最近,在为hadoop2.2.0找适合的sqoop版本时遇到了很多问题。尝试了多个sqoop1.4.x版本的直接简单粗暴的报版本不兼容问题,其中测了sqoop-1.4.4.bin__hadoop-0.23这个版本,在该版本中直接用sqoop的脚本exportHDFS的数据是没有问题的,但是一旦调用JAVAAPI来进行对HDFS的数据的export的时候就各种不兼容问题,原因是这个版本的API也是基于hadoop1.x
一、概述 Hadoop的版本更新挺快的,已经到了2.4,但是其周边工具的更新速度还是比较慢的,一些旧的周边工具版本对hadoop2.x的兼容性做得还不完善,特别是sqoop。最近,在为hadoop2.2.0找适合的sqoop版本时遇到了很多问题。尝试了多个sqoop1.4.x版本的直接简单粗暴的报版本不兼容问题,其中测了sqoop-1.4.4.bin__hadoop-0.23这个版本,在该版本中直接用sqoop的脚本exportHDFS的数据是没有问题的,但是一旦调用JAVAAPI来进行对HDFS的数据的export的时候就各种不兼容问题,原因是这个版本的API也是基于hadoop1.x