草庐IT

Sqoop-Export

全部标签

hadoop - 不应该在包安装期间配置 Oozie/Sqoop jar 位置吗?

我在CentOS6.7中使用HDP2.4。我已经用Ambari创建了集群,所以Oozie是由Ambari安装和配置的。我在运行与jar文件位置相关的Oozie/Sqoop时遇到两个错误。第一个涉及postgresql-jdbc.jar,因为Sqoop作业是从Postgres增量导入的。我将postgresql-jdbc.jar文件添加到HDFS并在workflow.xml中指向它:/user/hdfs/sqoop/postgresql-jdbc.jar问题解决了。但第二个错误似乎与kite-data-mapreduce.jar有关。然而,对这个文件做同样的事情:/user/hdfs/s

hadoop - 使用 hcatalog 的 Sqoop 增量导出?

有没有办法使用sqoop进行增量导出?我正在为sqoop使用Hcatalog集成。我尝试使用用于增量导入的--last-value、--check-column选项,但sqoop给我错误提示这些选项无效。 最佳答案 我还没有看到增量sqoop导出参数。您可以尝试的另一种方法是在配置单元中创建一个contol_table,您可以在其中记录每次上次导出时的表名和时间戳。createtableifnotexistscontrol_table(table_namestring,export_datetimestamp);insertinto

hadoop - 阻止 sqoop 将 datetime 转换为 bigint

最近我注意到,每当我使用Sqoop从SQL数据库中提取数据时,所有日期时间字段都会转换为bigint(epoch*1000)而不是字符串。重要提示:我存储为Parquet。我一直在尝试一堆sqoop标志,例如"--map-column-java"但我不想为数千个表中的数百列手动定义它。我缺少什么标志来防止这种sqoop行为?sqoop在明文存储的时候好像没有这样做 最佳答案 我决定不让sqoop在我的table上施展神秘魔法,而是决定执行以下操作:提取到临时表,以文本形式存储。像临时表一样创建一个表(如果不存在),存储为parque

hadoop - Apache Sqoop Where 子句在使用 SQOOP IMPORT 时不起作用

谁能告诉我这个命令的输出是什么:这里的departments表有默认的6行(从dept_id2到7),然后我向Mysqldb'retail_db.departments'表(department_id8和9)添加了2条新记录。我想做的是通过使用–where参数并将其附加(–append)到部门的现有HDFS目录来仅选择新添加的记录。因此,当我运行以下命令时,它创建了一个新的part-m-000006文件(之前默认的6条记录被拆分为part-m-00000到part-m-00005文件)和department_id2到9的所有记录(这includes2newlyaddedrecs)被添加

hadoop - 包含 Sqoop 导入失败的 Oozie 脚本操作

我正在尝试制作一个oozie工作流操作,以通过shell脚本使用sqoop从mysql导入数据。工作流程步骤:1.删除任何现有目录。Java操作读取元数据配置单元表并创建table_metadata目录和*.cf文件。Shell脚本遍历table_metadata目录并扫描配置文件(*.cf)。每个文件都包含一个要导入的表名。然后它将表名抓取到sqoop导入查询中使用的table_name变量中。当我从命令行以(shscript.sh)运行时,包含Sqoop的同一脚本工作正常。但是,当我尝试通过Oozie(ClouderaHueGUI)脚本操作作为工作流运行时,它失败并出现以下错误。知

hadoop - Sqoop 导入失败 “No Space Left on Device”

Sqoop无法将数据导入hadoopthorwing错误为随机表上的“设备上没有剩余空间”。我们在HDFS和LocalFS上都有足够的空间。不知道为什么,请让我知道如何解决它。SELECTALTR_DESCWHERE1=1WITHUR2017-03-2900:32:27ERRORSqoopThread:165-ErroroccurredwhileimportingdataHALS.CLOUD_AESCjava.lang.RuntimeException:java.io.FileNotFoundException:/apps/data/cloud.log170329.003227.HAL

hadoop - 使用 Sqoop 导入数据,时间戳数据类型

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗?更新问题,使其只关注一个问题editingthispost.关闭5年前。Improvethisquestion是否可以通过Sqoop将数据导入Hive表,存储为Parquet,并且之前使用小数和时间戳数据类型创建?

hadoop - 与 sqoop-import 相关的查询?

场景:我已将数据从SQlServer导入到HDFS。HDFS目录中的数据存储在多个文件中为:part-m-00000part-m-00001part-m-00002part-m-00003问题:我的问题是,在从HDFS目录读取存储的数据时,我们必须读取所有文件(part-m-00000,01,02,03)或仅读取part-m-00000。因为当我读取那个数据的时候,我发现HDFS里面的数据有点少了。那么,是它发生了还是我错过了什么? 最佳答案 您需要读取所有文件,而不仅仅是00000。存在多个文件的原因是sqoop以map-redu

hadoop - 如何通过sqoop从sql server导入表到hdfs

我已经安装了hadoop、hive、sqoop。我将表从我的数据库导入到hdfs但无法将其导入配置单元。我需要在配置单元中配置任何文件吗?另外,当我浏览网页时,会显示MySQL的配置,但我使用的是驱动程序jdbc:sqlserver。任何人都请帮助我,因为我已经坚持了很多天了。 最佳答案 jdbc:mysql用于mysql,它不适用于sqlserver,我已经尝试使用它,但它给出了错误。我已经尝试了以下命令并且效果很好。命令——导入从数据库表复制数据到HDFS文件系统在下面的示例中,我们的数据库和hdfs配置为:服务器名称:-lab

java - java中如何实现sqoop

我是hadoop的新手。我正在尝试使用sqoop将数据从RDMS导出到HDFS。我正在通过命令行提示符实现它。我找到了在java中实现sqoop的指南here,但我在哪里可以找到sqoop.jar文件? 最佳答案 您可以从here下载jar。. 关于java-java中如何实现sqoop,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/12195816/