草庐IT

Sqoop-Export

全部标签

sql-server - Sqoop 导出到 SQL Server 失败/挂起更多列

我正在尝试将数据从HDFS导出到SQLServer。原始表有超过500列,每次我执行Sqoop导出作业时,它都会卡住,显示mapreduce已完成100%。我创建了两个虚拟表,如下所示,以找出确切问题仍然存在的位置。table1和table2的唯一区别是后者多了一个列[col14varchar(5)]首先,我为Table1运行了导出作业,它有13列[数据类型varchar(5)]。作业成功完成并将所有3条记录导出到SQLServer。接下来,我为包含14列的Table2执行了导出作业。当我运行这个作业时,我没有看到任何错误消息/异常,但它在map以100%完成后永远挂起。SQLServ

hadoop - 从 oracle 到有条件的 hdfs 的增量 sqoop

我正在对hdfsoracle进行增量查询,给出类似的条件(LST_UPD_TMST>TO_TIMESTAMP('2016-05-31T18:55Z','YYYY-MM-DD"T"HH24:MI"Z"')ANDLST_UPD_TMST但它没有使用索引。我如何强制索引,以便通过仅考虑过滤记录来使sqoop更快。执行增量sqoop的最佳选择是什么。oracle中的表大小以TB为单位。表有数十亿行,在where条件下它有几百万 最佳答案 Youcanuse--whereor--querywithwhereconditioninselectt

hadoop - 如何优化Sqoop导入?

有哪些技术可以用来优化sqoopimport?我尝试使用按列拆分来启用并行性并根据表的数据量增加映射器的数量。从FIFO更改为FairScheduler会有帮助吗?提前致谢!sqoopimport-Dmapred.job.queue.name=$queuename-Dmapred.job.name=$table_SQOOP_INITIAL_LOAD-Djava.security.egd=file:/dev/../dev/urandom-Dmapred.child.java.opts="-Djava.security.egd=file:/dev/../dev/urandom"--driv

hadoop - sqoop 安装hadoop 2.2.0?

我正在尝试在我的系统中安装所有apachehadoop组件。我安装了hadoop-2.2.0、hive-0.11.0、pig-0.12.0、hbase-0.96.0,现在是时候安装sqoop了。所以请建议我安装与hadoop-2.2.0和hbase兼容的sqoop的安装步骤。希望尽快回复预先感谢您的回复。 最佳答案 @Naveen:您提供的链接是针对Sqoop2的。它不是专门针对Hadoop2.0分支的。基本上它试图通过将设计更改为客户端服务器模型来解决和增强Sqoop(即它的主要promise包括易用性,易于扩展,安全)。有关更多

hadoop - 如何在 Java 中执行 Sqoop?

我创建了一个新的Java项目,然后添加了库Sqoop和Hadoop。(库是“hadoop-core-1.1.1.jar、sqoop-1.4.2.jar等....”。)然后我尝试了下面的代码:publicclassMySqoopDriver{publicstaticvoidmain(String[]args){String[]str={"export","--connect","jdbc:mysql://localhost/mytestdb","--hadoop-home","/home/yoonhok/development/hadoop-1.1.1","--table","tbl_1

java - 是否可以在 Java 中使用 SQOOP 从 MySQL 读取/写入 Hadoop 作业?

我目前正在开发一个项目,该项目使用JDK1.7进行编译,使用Cascading1.2(即将升级到2.1)创建和运行Hadoop作业,并使用Hadoop的Cloudera发行版(0.20.2-cdh3u3)。我正在研究如何修改我的级联/Hadoop作业以从MySQL数据库读取和写入所有数据。看起来SQOOP或许能够处理这个问题。然而,据我目前所见,关于如何在Java中执行此操作的信息或文档很少(我知道SQOOP主要用于从shell调用的批处理作业)——我拥有的Java示例followed没有为我工作。我已经尝试使用SQOOP1.4并将我的项目切换为使用JDK1.6,因为我认为这是必需的,

hadoop - 如何使用 Sqoop 只导入新数据?

我举个例子:我昨天导出了1TB的数据。今天,数据库又得到了1GB的数据。如果我今天再次尝试导入数据,Sqoop将导入1TB+1GB的数据,然后我正在合并它。所以很头疼。我只想导入新数据并将其附加到旧数据。这样,我每天都会将RDBMS数据拉入HDFS。 最佳答案 您可以使用sqoop增量导入:Sqoop提供了一种增量导入模式,可用于仅检索比先前导入的一组行更新的行。增量导入参数:--check-column(col)指定在确定要导入的行时要检查的列。--incremental(mode)指定Sqoop如何确定哪些行是新的。mode的合

hadoop - 如何通过 Sqoop 从多个源导入数据

“如何通过Sqoop从多个源导入数据”。我对此一无所知..请告诉我这个机制。谢谢 最佳答案 这可以通过shell脚本完成。1)准备一个包含DBNAME.TABLENAME列表的输入文件2)shell脚本将此文件作为输入,逐行迭代并为每一行执行sqoop语句。whilereadline;doDBNAME=`echo$line|cut-d'.'-f1`tableName=`echo$line|cut-d'.'-f2`sqoopimport-Dmapreduce.job.queuename=$RM_QUEUE_NAME--connect'

hadoop - Sqoop 导入成功完成。如何在 Hive 中查看这些表

我正在尝试一些关于hadoop及其相关的东西。为此,我在Ubuntu机器上配置了hadoop、hase、hive、sqoop。raghu@system4:~/sqoop$bin/sqoop-import--connectjdbc:mysql://localhost:3306/mysql--usernameroot--passwordpassword--tableuser--hive-import-m1一切正常,但是当我输入hive命令行并执行showtables时,什么也没有。我能够看到这些表是在HDFS中创建的。我在Sqoop导入中看到了一些选项-它可以导入到Hive/HDFS/HB

hadoop - 从 mysql 到 hbase 的 sqoop 导入问题

我正在尝试使用sqoop将数据从mysql导入到hbase:sqoopimport--connectjdbc:mysql://:3306/test--usernameUSERNAME-P--tabletesttable--direct--hbase-tabletesttable--column-familyinfo--hbase-row-keyid--hbase-create-table过程运行顺利,没有任何错误,但是数据去了hdfs,没有到hbase。这是我的设置:HBase和Hadoop在我的三台服务器集群中以分布式模式安装。Namenode和HBaseMaster是一台服务器。D