草庐IT

SQOOP_CONF_DIR

全部标签

Hadoop - 当有 Spark 作业正在运行时,Sqoop 作业卡在已接受状态

目前我有一个始终需要运行的spark作业(java)。它不需要太多资源。但是,每当我运行sqoop作业(MapReduce)时,该作业都会卡在已接受状态:WAITING分配、启动AM容器并向RM注册。我检查了Ambari,用于调度的spark配置是公平的。为了进行测试,我尝试运行2个相同的spark作业,但没有出现任何问题(两者的状态均为RUNNING)。应该有足够的内核和内存来运行mapreduce作业。Spark提交命令:/usr/hdp/current/spark-client/bin/spark-submit\--classcom.some.App\--masteryarn-c

Hadoop 2.9.0 - hadoop namenode -format 和 hdfs-site.xml dfs.namenode.name.dir

我的第一个问题,我会尽量不把事情搞砸:)出于学习目的,我正在4节点集群上安装Hadoop2.9.0。我已经按照官方ApacheHadoop2.9.0文档和一些谷歌页面开始安装/配置名称节点。我像这样编辑了位于$HADOOP_HOME/etc/hadoop目录下的hdfs-site.xml:dfs.namenode.name.dirfile:///apps/hdfs/namenode/datadfs.datanode.data.dirfile:///apps/hdfs/datanode/datadfs.namenode.checkpoint.dirfile:///apps/hdfs/na

hadoop - Sqoop:多字符定界符

因为我在Hive表中的一个字段包含所有特殊字符,所以我使用MultiDelimitSerDe(~#)分隔了配置单元字段。现在需要使用Sqoopexport将这些数据导出到Mysql。而且我没有看到Sqoop使用多个分隔符导出。还有其他方法吗?这些字段具有数据类型-date、bigint、decimal(16,2)和char(3)。因此不能使用substr。 最佳答案 因为你的数据中有所有特殊字符,所以你可以在表中使用空格或制表符分隔符,并将sqoop导出的分隔符​​称为空格或制表符分隔符。arguments--input-field

hadoop - Hadoop-3.0.0 与旧版本的 Hive、Pig、Sqoop 和 Spark 的兼容性如何

我们目前在10节点集群上使用hadoop-2.8.0,并计划升级到最新的hadoop-3.0.0。我想知道如果我们将hadoop-3.0.0与旧版本的Spark和其他组件(如Hive、Pig和Sqoop)一起使用,是否会出现任何问题。 最佳答案 最新的Hive版本不支持Hadoop3.0,看来以后Hive可能会建立在Spark或者其他计算引擎上。 关于hadoop-Hadoop-3.0.0与旧版本的Hive、Pig、Sqoop和Spark的兼容性如何,我们在StackOverflow上找

mysql - Sqoop:从 MySQL 导入 Hive 时替换字符?

当从MySQL导入数据到Hive时,我需要在电话号码中删除两个字符+7。以下请求返回SQL错误。我应该使用什么正确的replace命令?sqoopimport--connectjdbc:mysql://server/db--usernamexxxx--passwordyyyy--query'selectname,last_name,email,second_name,Replace(personal_phone,'+7',''),Replace(mobile,'+7',''),Replace(phone,'+7','')来自$CONDITIONS'--target-dir/data/t

hadoop - sqoop 导出到 sql server 失败

我正在尝试将250mb的数据(75个字符数组列)从hdfs导出到sqlserver。它因以下错误而失败,Causedby:java.io.IOException:com.microsoft.sqlserver.jdbc.SQLServerException:Theincomingtabulardatastream(TDS)remoteprocedurecall(RPC)protocolstreamisincorrect.ToomanyparameterswereprovidedinthisRPCrequest.Themaximumis2100.然后我通过"-Dsqoop.export.

hadoop - Sqoop 运行到本地作业运行器模式

当我运行sqoop时,我不确定它为什么会进入本地作业运行器模式,然后说我为LocalJobRunner提供了无效的jobtrackerurl。谁能告诉我这是怎么回事?$bin/sqoopimport-jtmyjobtracker:50070--connectjdbc:mysql://mydbhost.com/mydata--usernamefoo--passwordbar--as-parquetfile--tablecampaigns--target-dirhdfs://myhdfs:8020/user/myself/campaigns14/08/2021:04:50INFOsqoop

hadoop - Sqoop中--connection-manager的意义

我已经编写了sqoop脚本来将数据从Teradata导入到Hive。`sqoopimport\--connect$JDBC_URL\--drivercom.teradata.jdbc.TeraDriver\--username$Username\--password$Password\--table$TD_Table\--hive-import\--hive-overwrite\--hive-drop-import-delims\--hive-table$Hive_Database.$Hive_Staging_Table\--split-by$Split_Col\-m$Mapper_N

hadoop - Sqoop 以 avro 格式导入日期数据类型

**我的问题是日期少了两天在SQLServer中,日期为2015-06-12(日期类型为日期),它被转换为hive表avro格式的字符串值为2015-06-10。使用的脚本。sqoop导入--connect"xxx"--query'select*fromdbo.tableNameWHERE$CONDITIONS'--target-dirxxx--fields-terminated-by'\001'--split-bytableName.columnName1-m8--as-avrodatafile--compression-codecsnappy--map-column-javacol

mysql - 使用 '--direct' 选项的 Sqoop 失败,mysqldump 退出代码为 2 和 3

我在AWSEMR中运行Sqoop。我正在尝试将~10GB的表从MySQL复制到HDFS。我得到以下异常15/07/0612:19:07INFOmapreduce.Job:TaskId:attempt_1435664372091_0048_m_000000_2,Status:FAILEDError:java.io.IOException:mysqldumpterminatedwithstatus3atorg.apache.sqoop.mapreduce.MySQLDumpMapper.map(MySQLDumpMapper.java:485)atorg.apache.sqoop.mapr