草庐IT

hadoop - sqoop import Job期间如何保持故障恢复

我们计划创建Oozie作业,该作业运行Sqoop命令以每小时为基础将数据从SQL服务器导入HDFS。但我们面临着挑战,如果该作业在此期间失败,如何发出警报,以及sqoop将如何检查哪些数据导入成功,哪些数据仍在等待中。sqoop导入时是否有维护事务和重试机制的流程。我们也会对他们的失败发出警报。 最佳答案 您可以将Oozie的工作流程配置为在失败时发送电子邮件。您可以通过将错误标记从任何操作重定向到发送电子邮件操作来实现此目的。电子邮件配置的示例如下。${emailToAddress}Failedtoimporttable.Thef

mysql - SQOOP:com.mysql.jdbc.exceptions.MySQLSyntaxErrorException:未知数据库

我正在研究多节点设置(7个节点)上的SQOOP。客户名称节点二级名称节点工作追踪器数据节点1数据节点2数据节点3在ClientNode上我安装了hadoop,sqoop。在其他节点上仅安装了Hadoop。我正在使用mySQL。我已经创建了数据库GAME_OF_THRONES。我创建了表kings_battles如下:createtablekings_battles(nameVARCHAR(50)NOTNULL,yearINTNOTNULL,battle_numberINTNOTNULL,attacker_kingVARCHAR(50),defender_kingVARCHAR(50),

hadoop - Sqoop 创建配置单元表 SQL Server 非默认架构

使用Ambari2.2.2.0安装HDP-2.4.2.0-258在SQLServer中:TABLE_CATALOGTABLE_SCHEMATABLE_NAMEManagementAdministrationSettingAttributeManagementAdministrationSettingAttributeGroupManagementAdministrationSettingAttributeValueManagementAdministrationSettingValueManagementapeDatabaseScriptLogManagementapeDatabase

hadoop - 单个sqoop作业是否可以用于多个表并同时运行

我刚开始接触Sqoop。我有一个问题,假设我在数据库中有300个表,我想对这些表执行增量加载。我知道我可以使用追加模式或上次修改模式进行增量导入。但是如果作业中唯一不同的是表名、CDC列和最后一个值/更新值,我是否必须创建300个作业?有没有人尝试过使用相同的作业并将上面的东西作为参数传递,可以从循环中的文本文件中读取参数并为所有表并行执行相同的作业。行业标准和建议是什么?另外,有没有办法截断并重新加载非常小的hadoop表,而不是执行CDC并稍后合并表? 最佳答案 有import-all-tables“从数据库导入表到HDFS”但

hadoop - 在增量更新中选择时间戳作为列时,Sqoop 合并失败

我想练习sqoopmerge命令。我所做的是将数据从MySQLDB导入HDFS,然后使用1个更新和1个插入更新源表,我的表将id作为主键和time作为时间戳。接下来,我再次使用--incremental=lastmodified--check-column="time"选项进行导入。然后执行sqoopmerge,但失败并出现以下错误。我认为早期导入的数据集和最新导入的数据集之间存在一些不匹配,但无法理解哪里出了问题。那是因为用--check-column=time导入了吗?如果我使用--where子句进行更新,它会起作用。我用过:---Initialloadsqoopimport\--

apache - 由于 YARN 的旋转 hadoop 连接问题导致 SQOOP 1 导入缓慢

我正在通过包括sqoop1.4.6的Cloudera5.8.0使用Hive/Hadoop/Sqoop。我的Hadoop集群有4个Hadoop数据节点,每个节点有16GB内存,并且都在运行ImpalaDaemons和YarnNodeManagers。Yarn服务器与Hue、Hive和Sqoop2一起在具有32GBRAM(具有多种角色)的服务器上运行。使用Sqoop从MySQL数据库导入(从使用Sqoop1的主服务器通过bash脚本导入到增量作业中的parquetfile格式),即使导入只有200行(甚至30行)的表,它似乎也很慢(平均50秒)在一种情况下)。即使在Ubermode中,它也

hadoop - Sqoop 使用 Java 从 Mysql 导入到 Hadoop hdfs

我正在尝试使用Java从Mysql加载到HDFS。我的Hadoop版本2.7.2和Sqoop1.4.6。我收到以下异常ERRORsecurity.UserGroupInformation:PriviledgedActionExceptionas:xxxxcause:org.apache.hadoop.ipc.RemoteException:ServerIPCversion9cannotcommunicatewithclientversion416/11/1617:40:57ERRORtool.ImportTool:EncounteredIOExceptionrunningimportj

hadoop - 用于 sqoop 导入的 Oozie 工作流在 Amazon emr hue 中失败

我创建了一个oozie工作流来执行从mysql到hive系统的sqoop导入。我用于创建sqoop作业的Sqoop作业成功运行,但是当我尝试执行作业以从MySQL导入Hive时,它​​失败了。这里我附上了日志sqoop--hive-import(失败的sqoop操作所做的)分两步发生。首先将sqoop导入到HDFS目录(我的xml中引用了targetDir)。然后将此sqoop导入的输出移动并导入到Hive中。当我通过oozie运行我的sqoop作业时,我在targetDir中看到一个_SUCCESS文件,表明sqoop导入成功。只有后期(第2步)失败了。我以hue用户身份运行Oozi

java - Sqoop HBase 导入 : java. lang.NoSuchMethodError : org. apache.hadoop.hbase.HTableDescriptor.addFamily

我在Ubuntu14.04上将Hadoop作为伪分布式集群运行。我也安装了HBase,一切正常。现在我想使用Sqoop的“导入”命令将数据从我本地的MySql服务器导入到HBaseHadoop版本:2.7.3HBase版本:1.2.4Sqoop版本:1.4.6(Hadoop2.0.4-alpha)Hadoop和HBase工作正常没有问题,但是运行命令./sqoopimport--connectjdbc:mysql://localhost:3306/company--tablepeople--usernamemysqluser-P--hbase-tablepeople_import--c

mysql - 无法使用sqoop从配置单元分区表mysql表中导出数据

我正在研究POC,我们需要将数据从MySQLDb获取到Hive分区表,然后需要将数据传输到MySQLDB表。我创建了支持酸属性并按年和月分区的表。所以目前我无法将数据传输到MySQLDB。那么有人可以建议我如何实现这一目标吗? 最佳答案 您可以使用Sqoopimport将表数据传输到hive,方法如下:sqoopimport--connect--username-P--table--target-dir--fields-terminated-by","--hive-import--create-hive-table--hive-ta