草庐IT

hadoop - sqoop 安装hadoop 2.2.0?

我正在尝试在我的系统中安装所有apachehadoop组件。我安装了hadoop-2.2.0、hive-0.11.0、pig-0.12.0、hbase-0.96.0,现在是时候安装sqoop了。所以请建议我安装与hadoop-2.2.0和hbase兼容的sqoop的安装步骤。希望尽快回复预先感谢您的回复。 最佳答案 @Naveen:您提供的链接是针对Sqoop2的。它不是专门针对Hadoop2.0分支的。基本上它试图通过将设计更改为客户端服务器模型来解决和增强Sqoop(即它的主要promise包括易用性,易于扩展,安全)。有关更多

hadoop - 如何在 Java 中执行 Sqoop?

我创建了一个新的Java项目,然后添加了库Sqoop和Hadoop。(库是“hadoop-core-1.1.1.jar、sqoop-1.4.2.jar等....”。)然后我尝试了下面的代码:publicclassMySqoopDriver{publicstaticvoidmain(String[]args){String[]str={"export","--connect","jdbc:mysql://localhost/mytestdb","--hadoop-home","/home/yoonhok/development/hadoop-1.1.1","--table","tbl_1

java - 是否可以在 Java 中使用 SQOOP 从 MySQL 读取/写入 Hadoop 作业?

我目前正在开发一个项目,该项目使用JDK1.7进行编译,使用Cascading1.2(即将升级到2.1)创建和运行Hadoop作业,并使用Hadoop的Cloudera发行版(0.20.2-cdh3u3)。我正在研究如何修改我的级联/Hadoop作业以从MySQL数据库读取和写入所有数据。看起来SQOOP或许能够处理这个问题。然而,据我目前所见,关于如何在Java中执行此操作的信息或文档很少(我知道SQOOP主要用于从shell调用的批处理作业)——我拥有的Java示例followed没有为我工作。我已经尝试使用SQOOP1.4并将我的项目切换为使用JDK1.6,因为我认为这是必需的,

hadoop - 如何使用 Sqoop 只导入新数据?

我举个例子:我昨天导出了1TB的数据。今天,数据库又得到了1GB的数据。如果我今天再次尝试导入数据,Sqoop将导入1TB+1GB的数据,然后我正在合并它。所以很头疼。我只想导入新数据并将其附加到旧数据。这样,我每天都会将RDBMS数据拉入HDFS。 最佳答案 您可以使用sqoop增量导入:Sqoop提供了一种增量导入模式,可用于仅检索比先前导入的一组行更新的行。增量导入参数:--check-column(col)指定在确定要导入的行时要检查的列。--incremental(mode)指定Sqoop如何确定哪些行是新的。mode的合

hadoop - 如何通过 Sqoop 从多个源导入数据

“如何通过Sqoop从多个源导入数据”。我对此一无所知..请告诉我这个机制。谢谢 最佳答案 这可以通过shell脚本完成。1)准备一个包含DBNAME.TABLENAME列表的输入文件2)shell脚本将此文件作为输入,逐行迭代并为每一行执行sqoop语句。whilereadline;doDBNAME=`echo$line|cut-d'.'-f1`tableName=`echo$line|cut-d'.'-f2`sqoopimport-Dmapreduce.job.queuename=$RM_QUEUE_NAME--connect'

hadoop - Sqoop 导入成功完成。如何在 Hive 中查看这些表

我正在尝试一些关于hadoop及其相关的东西。为此,我在Ubuntu机器上配置了hadoop、hase、hive、sqoop。raghu@system4:~/sqoop$bin/sqoop-import--connectjdbc:mysql://localhost:3306/mysql--usernameroot--passwordpassword--tableuser--hive-import-m1一切正常,但是当我输入hive命令行并执行showtables时,什么也没有。我能够看到这些表是在HDFS中创建的。我在Sqoop导入中看到了一些选项-它可以导入到Hive/HDFS/HB

hadoop - 从 mysql 到 hbase 的 sqoop 导入问题

我正在尝试使用sqoop将数据从mysql导入到hbase:sqoopimport--connectjdbc:mysql://:3306/test--usernameUSERNAME-P--tabletesttable--direct--hbase-tabletesttable--column-familyinfo--hbase-row-keyid--hbase-create-table过程运行顺利,没有任何错误,但是数据去了hdfs,没有到hbase。这是我的设置:HBase和Hadoop在我的三台服务器集群中以分布式模式安装。Namenode和HBaseMaster是一台服务器。D

hadoop - 在特定队列上运行 sqoop 作业

我正在尝试创建一个在特定队列中运行的Sqoop作业,但它不起作用。我试过两件事:1st:在作业创建中声明队列sqoopjob\--createmyjob\--import\--connectjdbc:teradata://RCT/DATABASE=MYDB\-Dmapred.job.queue.name=shortduration\--drivercom.teradata.jdbc.TeraDriver\--usernameDBUSER-P\--query"$query"\--target-dir/data/source/dest/$i\--check-columnDAT_CRN_AG

hadoop - Sqoop 导入将 TINYINT 转换为 BOOLEAN

我正在尝试使用Sqoop将NFL比赛结果的MySQL表导入HDFS。我发出了以下命令来实现这一点:sqoopimport\--connectjdbc:mysql://127.0.0.1:3306/nfl\--username-P\--tableplay不幸的是,TINYINT类型的列在导入时被转换为bool值。例如,有一个“quarter”列表示比赛发生在比赛的哪个季度。如果比赛发生在第一节,则此列中的值将转换为“true”,否则转换为“false”。事实上,我做了一个sqoopimport-all-tables,导入了我拥有的整个NFL数据库,它的行为都是这样的。是否有解决此问题的方

hadoop - Sqoop 创建包含多条记录的插入语句

我们正在尝试将数据从sqoop加载到netezza。我们面临着以下问题。java.io.IOException:org.netezza.error.NzSQLException:ERROR:示例输入数据集如下所示:1,2,31,3,4sqoop命令如下图:sqoopexport--table--export-dir--input-fields-terminated-by'\t'--input-lines-terminated-by'\n'--connect'jdbc:netezza:///'--driverorg.netezza.Driver--username--passwordSq