草庐IT

Datax与hadoop2.x兼容部署与实际项目应用工作记录分享

一、概述    Hadoop的版本更新挺快的,已经到了2.4,但是其周边工具的更新速度还是比较慢的,一些旧的周边工具版本对hadoop2.x的兼容性做得还不完善,特别是sqoop。最近,在为hadoop2.2.0找适合的sqoop版本时遇到了很多问题。尝试了多个sqoop1.4.x版本的直接简单粗暴的报版本不兼容问题,其中测了sqoop-1.4.4.bin__hadoop-0.23这个版本,在该版本中直接用sqoop的脚本exportHDFS的数据是没有问题的,但是一旦调用JAVAAPI来进行对HDFS的数据的export的时候就各种不兼容问题,原因是这个版本的API也是基于hadoop1.x

Hadoop周边生态软件和简要工作原理(二)

接着Hadoop周边生态软件和简要工作原理(一)Sqoop:sqoop在hadoop生态系统中也是应用率比较高的软件,主要是用来做ETL工具,由yadoo研发并提交给Apache。Hadoop整个生态圈里面,大部分的应用都是Yadoo研发的,贡献非常大。Yahoo里面出来两拨人,分别组建了Cloudera和Hortonworks。所谓ETL,就是数据的抽取(extract)加载(load)转换(transform)。将一种格式或表现形式的数据,通过代码,改变形态,变成另一种格式或表现形式的数据。哪怕是把矩阵里的排列顺序改变,也算是ETL。Sqoop最主要的特点是可以在很多数据库和数据格式之间转

Datax与hadoop2.x兼容部署与实际项目应用工作记录分享

一、概述    Hadoop的版本更新挺快的,已经到了2.4,但是其周边工具的更新速度还是比较慢的,一些旧的周边工具版本对hadoop2.x的兼容性做得还不完善,特别是sqoop。最近,在为hadoop2.2.0找适合的sqoop版本时遇到了很多问题。尝试了多个sqoop1.4.x版本的直接简单粗暴的报版本不兼容问题,其中测了sqoop-1.4.4.bin__hadoop-0.23这个版本,在该版本中直接用sqoop的脚本exportHDFS的数据是没有问题的,但是一旦调用JAVAAPI来进行对HDFS的数据的export的时候就各种不兼容问题,原因是这个版本的API也是基于hadoop1.x

Hadoop周边生态软件和简要工作原理(二)

接着Hadoop周边生态软件和简要工作原理(一)Sqoop:sqoop在hadoop生态系统中也是应用率比较高的软件,主要是用来做ETL工具,由yadoo研发并提交给Apache。Hadoop整个生态圈里面,大部分的应用都是Yadoo研发的,贡献非常大。Yahoo里面出来两拨人,分别组建了Cloudera和Hortonworks。所谓ETL,就是数据的抽取(extract)加载(load)转换(transform)。将一种格式或表现形式的数据,通过代码,改变形态,变成另一种格式或表现形式的数据。哪怕是把矩阵里的排列顺序改变,也算是ETL。Sqoop最主要的特点是可以在很多数据库和数据格式之间转

sqoop入门教程

目录一、Sqoop概述    1、简介    2、Sqoop架构原理    3、Sqoop连接器二、Sqoop安装    1、sqoop下载解压    2、sqoop配置文件    3、mysql的jar包设置    4、sqoop环境变量设置    5、sqoop安装验证        1)sqoop环境变量验证        2)sqoop连接mysql验证三、Sqoop导入    1、操作前提;        1)将数据库连接驱动拷贝到$SQOOP_HOME/lib里;        2)启动软件;    2、导入机制;    3、导入数据与HDFS;    4、导入数据与Hive;  

sqoop入门教程

目录一、Sqoop概述    1、简介    2、Sqoop架构原理    3、Sqoop连接器二、Sqoop安装    1、sqoop下载解压    2、sqoop配置文件    3、mysql的jar包设置    4、sqoop环境变量设置    5、sqoop安装验证        1)sqoop环境变量验证        2)sqoop连接mysql验证三、Sqoop导入    1、操作前提;        1)将数据库连接驱动拷贝到$SQOOP_HOME/lib里;        2)启动软件;    2、导入机制;    3、导入数据与HDFS;    4、导入数据与Hive;