hive-overwrite

hadoop - 如何从 Java 代码运行 Hive Explain 命令？

我想从Java代码运行Hive和ImpalaExplain和计算统计命令。这样我就可以将收集到的信息用于我的分析目的。如果有人有任何想法请帮忙最佳答案您可以像针对impala的任何其他jdbc查询一样运行它。名为temp的表的计算统计查询将是“computestatstemp”，您可以将其作为参数传递给jdbcstatement.execute类似地，为了解释一个查询，说“selectcount(*)fromtemp”作为参数传递给statement.execute的查询是“explainselectcount(*)fromte

arrays - Hive 表数组列 - 使用 array_index 展开

嗨，我有一个Hive表selecta,b,c,dfromriskfactor_tableIntheabovetableB,CandDcolumnsarearraycolumns.BelowismyHiveDDLCreateexternaltableriskfactor_table(astring,barray,carray,darray)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'~'storedastextfilelocation'user/riskfactor/data';这是我的表格数据:ID400S,["jms","jndi","jaxb","ja

array_index arrays section blockquote riskfactor hadoop hive getjson hiveql

hadoop - 从vertica导入数据到hive

我尝试使用Sqoop将数据从Vertica上传到Hive。我可以看到它在HIVE上创建了一个文件和一个表，但是当我尝试从HIVE或文件中选择数据时，我看不到数据。它向我显示错误(文件列上没有分隔符)选择。这是我的代码:sqoopimport-m-1--drivercom.vertica.jdbc.Driver--connect"jdbc:vertica://serverName:5443/DBName"--username"user"--password"pass"--query'selectid,namefromcontactslimit10'--target-dir"folder/

vertica hadoop section contacts hive sqoop

java - org.apache.hive.jdbc.HiveStatement/org.apache.hadoop.hive.jdbc.HiveStatement 之间的区别

我一直在使用围绕Hadoop的产品，但对于使用Java开发应用程序还是个新手。我想用一些像HiveStatement这样的类，但是发现有同名类不同包。ex)org.apache.hive.jdbc.HiveStatement,org.apache.hadoop.hive.jdbc.HiveStatement.我在尝试将Statement对象转换为HiveStatement时注意到了这一点。我试图将对象转换为org.apache.hadoop.hive.jdbc.HiveStatement，但转换为org.apache.hive.jdbc.HiveStatement似乎对我来说是正确的案

HiveStatement apache code section java hadoop hive package

hadoop - Apache Hive - 单次插入日期值

我正在尝试使用Hive将日期插入到日期列中。到目前为止，这是我尝试过的INSERTINTOtable1(EmpNo,DOB)VALUES('Clerk#0008000',cast(substring(from_unixtime(unix_timestamp(cast('2016-01-01'asstring),'yyyy-MM-dd')),1,10)asdate));和INSERTINTOtabletable1values('Clerk#0008000',cast(substring(from_unixtime(unix_timestamp(cast('2016-01-01'asstr

hadoop Apache 39 code section hiveql apache-hive

SQL/HIVE - 不同计数查询 - SELECT COUNT (DISTINCT columns,..) 与 SELECT COUNT(*) 与 DISTINCT 记录的子查询有何不同

在HIVE中，我尝试使用2种方法获取不同行的计数，SELECTCOUNT(*)FROM(SELECTDISTINCTcolumnsFROMtable);SELECTCOUNT(DISTINCTcolumns)FROMtable;两者都产生了不同的结果。第一个查询的计数大于第二个查询。他们的工作方式有何不同？提前致谢。最佳答案对您的查询做一点小改动，例如将您的子查询命名为:SELECTCOUNT(*)FROM(SELECTDISTINCTcolumnsFROMtable)myquery;

DISTINCT SELECT section sql hadoop hive hiveql

hadoop - 将 NULL 值从 Hive 导出到 Teradata

我在Hive中有一个表，其中某些列具有NULL值，我正在使用Teradata连接器将该表从Hadoop导出到Teradata。我的问题是NULL值被视为字符串NULL而不是NULL。如何将NULL值直接导出到Teradata？请帮忙。最佳答案您是否在导出命令中使用了input-null-string参数？根据documentation:The--input-null-stringand--input-null-non-stringargumentsareoptional.If--input-null-stringisnotspe

Teradata hadoop string section null hive sqoop

java - 用于查找最常出现的列值的 Hive UDAF

我正在尝试创建一个HiveUDAF来查找最常出现的列(字符串)值(不是单个字符或子字符串，使用精确的列值)。假设以下是我的名为my_table的表(破折号用于在视觉上分隔列)。User_Id-Item-Count1-A-11-B-11-A-11-A-11-A-11-C-12-C-12-C-12-A-12-C-1假设我调用以下脚本:SelectUser_Id,findFrequent(*)frommy_tablegroupbyUser_Id我应该得到以下输出，因为对于User_Id=1，A出现了4次而B和C只出现了一次。所以，User_Id=1最频繁的是A。同样，User_Id=2最频繁

java Hive StringCountAgg parameters User_Id hadoop aggregate-functions

hadoop - 如何循环 Hive 查询并使用循环变量

假设我有两个表Externaltable-etableInternaltable-itable我的表是根据日期分区的。现在，为了每天从etable的数据中填充我的itable，我在hue中使用HiveQuery的工作流和协调器如下所示:ALTERTABLEetableADDIFNOTEXISTSPARTITION(date='${date}')LOCATION'path/date=${date}';INSERTOVERWRITETABLEitablepartition(date='${date}')SELECT*FROMetableWHEREdate='${date}';现在假设每天我

hadoop Hive code date section hiveql hue

hadoop - Hive 中 MetaStore 的主要用途？

我对MetaStore的用途有点困惑。在hive中创建表时:CREATETABLE(column1data_type,column2data_type);LOADDATAINPATHINTOtablemanaged_table;所以我知道这个命令获取HDFS中文件的内容并创建它的MetaData形式并将其存储在MetaStore中(包括每行的列类型，列名，它在HDFS中的位置等)在HDFS文件中)。它实际上并没有将数据从HDFS移动到Hive。但是存储这个元数据的目的是什么？例如，当我使用SparkSQL连接到Hive时，MetaStore不包含HDFS中的实际信息，而只包含元数据。那

MetaStore 用途 section HDFS Hive hadoop hive-metastore