草庐IT

HIVE-SQOOP

全部标签

mysql - Oozie - 运行 sqoop : Could not load db driver class: com. mysql.jdbc.Driver 时出现异常

我正在尝试通过Oozie在HDP沙箱2.1上执行sqoop导出。当我运行Oozie作业时,出现以下Java运行时异常。'>>>InvokingSqoopcommandlinenow>>>7598[main]WARNorg.apache.sqoop.tool.SqoopTool-$SQOOP_CONF_DIRhasnotbeensetintheenvironment.Cannotcheckforadditionalconfiguration.7714[main]INFOorg.apache.sqoop.Sqoop-RunningSqoopversion:1.4.4.2.1.1.0-385

json - 使用 JsonSerDe 的 Hive 中的 ClassNotFoundException

我们在CDH5上使用Hive0.12。我们使用它来将JSON记录转换为柱状格式,使用https://github.com/rcongiu/Hive-JSON-Serde中的org.openx.data.jsonserde.JsonSerDe。.我们读取的外部表定义为:addjarjson-serde-1.3-SNAPSHOT-jar-with-dependencies.jar;sethive.exec.dynamic.partition.mode=nonstrict;sethive.exec.max.dynamic.partitions.pernode=366;sethive.stat

hadoop - Sqoop 自由格式查询在 Hue/Oozie 中导致无法识别的参数

我正在尝试运行带有自由格式查询的sqoop命令,因为我需要执行聚合。它作为Oozie工作流通过Hue界面提交。以下是命令和查询的缩小版本。处理命令时,“--query”语句(用引号括起来)导致查询的每个部分都被解释为无法识别的参数,如命令后的错误所示。此外,目标目录被误解。是什么阻止了它运行,如何解决它?${env}和${shard}变量正在被正确解析,如上一条错误消息所示。谢谢!===========import--connectjdbc:mysql://irbasedw-${shard}.db.xxxx.net:3417/irbasedw_${shard}?dontTrackOpe

Hadoop Hive 外部表位置?

我正在研究HIVE。我应该在哪里创建一个外部表。在我的本地文件系统中或在HDFS文件系统中?。推荐用于项目。 最佳答案 它必须位于集群节点可访问的文件系统中。虽然99%的情况下这意味着集群文件系统,而99%的情况下这意味着HDFS,但这并不是严格意义上的:Hadoop可以访问其他文件系统,简单的例子是S3FileSystem或Azureblobs.您不能用于外部Hive表的一个地方是您的本地文件系统。本地文件URI对远程节点没有意义。它可能适用于伪分布式(单节点)“集群”,但不适用于现实世界。

hadoop - 哪个条件函数在HIVE中性能有效?如果还是案例?

ConditionalFunction中的哪个在HIVE中性能有效?如果还是案例? 最佳答案 我可以根据与Hortonworks的专家一起优化复杂查询的经验来谈一谈。我们处理了包含多个IF/THEN和CASE的数百行查询。性能差异小到无法衡量。担心您的连接-即mapside与侧数据与reduce侧连接-和UDF:这些是可以找到性能改进的地方。我们对许多领域进行了大量调整,包括许多不同类型和偏斜的联接、UDF和内联View。这不是一个曾经浮出水面的区域。 关于hadoop-哪个条件函数在H

java - Hive UDTF 返回 ArrayList 列

我是HiveUDTF的新手。我有一个要求,我必须在UDTF中将字符串值作为Paratmeter传递,并且返回的Column应该是ArrayList。我写了下面的代码:publicStructObjectInspectorinitialize(ObjectInspector[]arg0)throwsUDFArgumentException{ArrayListfieldNames=newArrayList();ArrayListfieldOIs=newArrayList();fieldNames.add("col1");stringOI=(PrimitiveObjectInspector)

scala - Spark-Scala HBase 表创建失败(MetaException(消息 :file:/user/hive/warehouse/src is not a directory or unable to create one)

我的VM中运行着hortonworks沙盒。我已经完成了所有的hive-site.xml配置并放置在Spark/conf文件中。我可以使用PySpark访问HBase并创建/更新表,但是当我在Scala中执行相同的实现时,会出现以下错误:FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.DDLTask.MetaException(message:file:/user/hive/warehouse/srcisnotadirectoryorunabletocreateone)我也更改了对“hive/war

hadoop - HIVE QUERY SELECT * FROM bookfreq where freq IN (SELECT Max(freq) FROM bookfreq);

我正在编写配置单元查询,因为获取记录具有最大频率值。tablenamebookfreq,havingtwocolumnyear&freqyearfreq19992200041989419905查询:SELECT*FROMbookfreqwherefreqIN(SELECTMax(freq)FROMbookfreq);我遇到了这样的异常FAILED:ParseExceptionline1:38cannotrecognizeinputnear'SELECT''Max''('inexpressionspecification 最佳答案 如

hadoop - HDP 2.2 沙箱找不到 SQOOP 目录

我正在学习教程http://hortonworks.com/hadoop-tutorial/import-microsoft-sql-server-hortonworks-sandbox-using-sqoop/我无法找到/usr/lib/sqoop/lib。我可以看到Sqoop在沙箱中运行。只是找不到要删除驱动程序的文件夹。我还能在哪里放置jdbc驱动程序?还有sqoop的安装目录在哪里? 最佳答案 它在/usr/hdp/2.2.0.0-2041/sqoop/lib 关于hadoop-

hadoop - 如何给 Sqoop 输出文件自定义名称

当我默认使用sqoop将数据导入配置单元时,它会在HDFS上创建文件名为part-m-0000、part-m-0001等。是否可以重命名这些文件?如果我想给一些有意义的名字,比如在文件名后加上日期来指示加载,我该怎么做呢?请推荐 最佳答案 不能直接用sqoop做,但是可以在sqoop导入完成后在HDFS中重命名:today=`date+%Y-%m-%d`files=$(hadoopfs-ls/path-to-files|awk'{print$8}')forfin$files;dohadoopfs-mv$f$f$today;done第