草庐IT

hive-overwrite

全部标签

hadoop - 如何在 Hive 中编写子查询和使用 "In"子句

如何在Hive中使用In子句我想在Hive中写这样的东西selectxfromywherey.zin(selectdistinctzfromy)orderbyx;但我没有找到任何方法来做到这一点..我在Hive0.7中尝试了In子句,它抛出了错误,我也尝试了Find_in_Set..使用find_in_set(y.z,subquery)..但作业失败了。我想在Hive上执行此操作。如果有人知道如何在Hive中执行此操作,请帮助我。感谢和问候,阿图尔 最佳答案 你可以使用半连接(https://cwiki.apache.org/Hiv

date - Hive:动态分区添加到外部表

我正在运行配置单元071,处理具有以下目录布局的现有数据:-表名-d=(例如2011-08-01)-d=2011-08-02-d=2011-08-03...等等在每个日期下我都有日期文件。现在加载我正在使用的数据CREATEEXTERNALTABLEtable_name(iint)PARTITIONEDBY(dateString)LOCATION'${hiveconf:basepath}/TableName';**我希望我的配置单元脚本能够根据一些输入日期和天数加载相关分区。所以如果我通过date='2011-08-03'和days='7'该脚本应加载以下分区-d=2011-08-03

hadoop - Hive 查询结果的 JSON 输出格式

有没有办法将Hive查询结果转换为JSON格式? 最佳答案 这似乎经常出现。使用来自Brickhouse(http://github.com/klout/brickhouse)的to_jsonUDF。如果您将结果转换为named_struct,它会将其解释为JSON映射,并相应地输出。SELECTto_json(named_struct("field1",field1,"field2",field2,"field3",field3))FROMmytable;to_json也会相应地解释数组和映射。

sql - 为什么 Select Count(*) 比 Hive 中的 Select * 慢

当我使用配置单元在VirtualBoxSandbox中运行查询时。我觉得Selectcount(*)比Select*慢太多了。谁能解释一下背后发生了什么?为什么会出现这种延迟? 最佳答案 select*fromtable它可以是一个只有Map的工作但是SelectCount(*)fromtable它可以是Map和Reduce作业希望这对您有所帮助。 关于sql-为什么SelectCount(*)比Hive中的Select*慢,我们在StackOverflow上找到一个类似的问题:

hadoop - 如何从 Hadoop-Hive 中删除/截断表?

请告诉我如何从配置单元中删除表,并告诉我从哪里可以获得有关配置单元查询的更多信息。 最佳答案 您可以使用drop从HDFS中删除元数据和实际数据的命令。并且只是为了删除数据并保留表结构,使用truncate命令。有关hiveql的更多帮助,请查看languagemanualofhive. 关于hadoop-如何从Hadoop-Hive中删除/截断表?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/q

hadoop - Hive 有等同于 DUAL 的东西吗?

我想运行这样的语句SELECTdate_add('2008-12-31',1)FROMDUALHive(在AmazonEMR上运行)是否有类似的东西? 最佳答案 最好的解决办法是不提表名。select1+1;给出结果2。但是可怜的Hive需要生成mapreduce才能找到这个! 关于hadoop-Hive有等同于DUAL的东西吗?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/9

hadoop - 如何计算 hive 中的日期差异

我是新手。我有一个员工表,其中有一列指定加入日期,我想检索过去3个月内加入的员工列表。我知道我们可以使用from_unixtime(unix_timestamp())获取当前日期。如何计算datediff?是否有像MSSQL中那样的内置DATEDIFF()函数?请指教! 最佳答案 datediff(to_date(Stringtimestamp),to_date(Stringtimestamp))例如:SELECTdatediff(to_date('2019-08-03'),to_date('2019-08-01'))

hadoop - Apache Pig 和 Apache Hive 有什么区别?

Pig和Hive之间的确切区别是什么?我发现两者具有相同的功能意义,因为它们用于完成相同的工作。唯一不同的是实现方式。那么什么时候使用什么技术呢?是否有任何规范可以清楚地表明两者在适用性和性能方面的差异? 最佳答案 ApachePig和Hive是两个位于Hadoop之上的项目,它们为使用Hadoop的MapReduce库提供了更高级的语言。ApachePig提供了一种脚本语言来描述读取、过滤、转换、连接和写入数据等操作——这正是MapReduce最初设计的目的。Pig不是用直接使用MapReduce的数千行Java代码来表达这些操作

apache-spark - 如何在没有 hive-site.xml 的情况下将 Spark SQL 连接到远程 Hive Metastore(通过节俭协议(protocol))?

我将HiveContext与SparkSQL一起使用,并且我正在尝试连接到远程Hive元存储,设置Hive元存储的唯一方法是在类路径中包含hive-site.xml(或将其复制到/etc/spark/conf/).有没有办法在不包含hive-site.xml的情况下以编程方式在java代码中设置此参数?如果是这样,要使用什么Spark配置? 最佳答案 对于Spark1.x,您可以设置:System.setProperty("hive.metastore.uris","thrift://METASTORE:9083");finalSp

hadoop - 如何将用双引号括起来并用制表符分隔的 CSV 数据加载到 HIVE 表中?

我正在尝试从csv文件加载数据,其中的值用双引号'"'括起来,制表符分隔'\t'。但是当我尝试将其加载到配置单元时,它不会抛出任何错误并且数据加载时没有任何错误但我认为所有数据都被加载到单个列中并且大多数值显示为NULL。下面是我的建表语句。CREATETABLEexample(organizationSTRING,orderBIGINT,created_onTIMESTAMP,issue_dateTIMESTAMP,qtyINT)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'ESCAPEDBY'"'STOREDASTEXTFILE;输入文件样本;-"