草庐IT

mysql - sqoop 将本地 csv 导出到 mapreduce 上的 MySQL 错误

我试图将本地csv文件导出到MySQL表“test”:$sqoopexport-fslocal-jtlocal--connectjdbc:mysql://172.16.21.64:3306/cf_ae07c762_41a9_4b46_af6c_a29ecb050204--usernameusername--passwordpassword--tabletest--export-dirfile:///home/username/test.csv但是,我收到一个奇怪的错误提示mapreduce.tar.gznotfound:Warning:/usr/hdp/2.5.0.0-1245/hba

hadoop - 我如何指向 Sqoop 以使用 TAB 作为分隔符?

我正在尝试将数据从Hadoop获取到MySQL。为此,我正在使用Sqoop。在输出()中的Hadoop(HDFS)端,我收到由TAB分隔的key,value。现在我想通过Sqoop将输出输出到数据库:sqoop-export--connectjdbc:mysql://localhost/test--usernameroot--passwordpswd--tablecounter--export-dir/usr/local/hadoop/output--input-fields-terminated-by'***TAB***'如何在--input-fields-terminated-by

mysql - Sqoop 导出到 MySQL 导出作业失败工具.ExportTool 但得到记录

这是来自的后续问题sqoopexportlocalcsvtoMySQLerroronmapreduce我能够运行sqoop作业并使用以下命令将数据从本地.csv文件导入MySQL:$sqoopexport-fslocal-jtlocal-D'mapreduce.application.framework.path=/usr/hdp/2.5.0.0-1245/hadoop/mapreduce.tar.gz'--connectjdbc:mysql://172.52.21.64:3306/cf_ae07c762_41a9_4b46_af6c_a29ecb050204--usernameuse

hadoop - Sqoop Merge 命令中的 FileNotFound 错误

我正在尝试执行一个sqoop合并命令,为此,我执行了一个Sqoopcodegen以将类和表的jar放入HDFSSqoopCodeGen命令:sqoopcodegen--connectjdbc:mysql://127.0.0.1/mydb--tablemergetab--usernameroot--passwordcloudera--outdir/user/cloudera/codegenclasses--fields-terminated-by'\t'我在outdir中有以下文件:/user/cloudera/codegenclasses-rw-r--r--1clouderacloud

java - Sqoop导入表报错ORA-01843

我已经将一个包含5400万行的表导入到我的Hadoop集群的HDFS,现在,从OracleDB导入该表的一部分[我创建了一个View,只选择了一小段时间。结果只有26万行],我收到以下错误:Error:java.io.IOException:SQLExceptioninnextKeyValueatorg.apache.sqoop.mapreduce.db.DBRecordReader.nextKeyValue(DBRecordReader.java:277)atorg.apache.hadoop.mapred.MapTask$NewTrackingRecordReader.nextKe

hadoop - 使用 Sqoop 导入时 Parquet 文件中的脏值

我正在使用Sqoop1(版本1.4.6,CDH5.7.4)从Oracle导入。Sqoop创建一个临时的ParquetHive表,然后我使用Hive(直线)插入目标表。这种双步摄取是由于目标表具有与Sqoop的不同的列类型映射,因此使用insertinto我可以即时转换它们。我也在Snappy中即时压缩。这工作正常。目前,我没有控制Sqoop导入命令的类型映射。在我的特殊情况下它太复杂了。一开始我是在平面文件中导入的,但是我的字段包含一堆字符,这些字符会破坏我的行,例如换行符、回车符、制表符等等。出于这个和其他原因,我决定转向Parquet(不幸的是,avro不是一个选项,因为我们使用的

hadoop - 如何将 Sqoop 导入命令与 --map-column-hive 一起使用?

我正在尝试将Teradata中的数据Sqoop到配置单元。我想到了以下步骤:1)在Hue中创建一个包含所有必填字段的Hive表。2)通过使用Sqoopimport命令和--map-column-hive属性将数据从Teradata加载到hive。Sqoopimport命令如何指向已经创建的Hive表,以便将Sqooped数据放到对应的Hive表中? 最佳答案 您可以使用shell和awk从现有表生成map-column-hive属性。它将以COL1=TYPE,COL2=TYPE,...COLN=TYPE的形式生成#!/bin/bas

hadoop - 在包含连接的表上执行增量 Sqoop?

我有一些非常大的表,我正试图将它们从源系统数据仓库sqoop到HDFS,但这样做的带宽有限。我只想拉出我需要的列,并尽量减少让表格站起来的运行时间。sqoop目前拉取了这样的东西:SELECTColumnA,ColumnB,....ColumnNFROMTABLE_ALEFTJOINTABLE_BON...LEFTJOINTABLE_N....假设数据以星型模式格式存储,并且维度可以独立于事实更新,是否可以执行增量sqoop?或者,对于我需要的列,增量地对整个表进行sqoop并在HDFS端执行连接的唯一解决方案是什么? 最佳答案 对

hadoop - Cloudera - 导入时的 Sqoop codegen 自定义 ORM 类

我是Cloudera环境的新手,我正在尝试使用Sqoop从RDBMS导入数据我需要在导入过程中对数据应用一些转换。具体来说,我需要在将某些字段存储到HadoopDFS之前对其进行加密。为此,我尝试使用codegen命令,它生成一个我可以修改的ORMJava类。假设我在MySQL数据库中有一个表“产品”,我想使用Sqoop将其导入HDFS并加密“品牌”字段。首先,我运行了这个命令:sqoopcodegen\--connectjdbc:mysql://localhost/test\--usernameusername--passwordpassword\--tableproducts这会在

hadoop - 使用cloudera hadoop UI自动化sqoop增量

有什么方法可以使用时间戳以外的列值自动执行sqoop导入。我试图在我的表中使用一列(ID)。但它没有用。下面是示例代码,我正在使用clouderahadoopUI来实现自动化。问题是最后一个值不会自动更新。import--connectjdbc:mysql://172.26.122.123:3306/books--usernamehadoop--password********--incrementalappend--check-columnid--last-value0--tableauthors--as-textfile--fields-terminated-by","--null