hive-overwrite

hadoop - 底层目录更改时Hive表能否自动更新

如果我像这样在某个S3(或HDFS)目录之上构建一个Hive表:createexternaltablenewtable(namestring)rowformatdelimitedfieldsterminatedby','storedastextfilelocation's3a://location/subdir/';当我将文件添加到该S3位置时，Hive表不会自动更新。仅当我在该位置创建新的Hive表时才会包含新数据。有没有一种方法可以构建Hive表(可能使用分区)，以便每当将新文件添加到底层目录时，Hive表会自动显示该数据(无需重新创建Hive表)？最

底层 hadoop section stackoverflow Hive amazon-s3 hdfs

hadoop - 在 Hive 中启动 MapReduce 作业的标准

我是Hadoop的新手，所以请帮我解决这个基本问题。当我做"select*fromtablewhere;"在Hive中，我知道它将启动mapreduce，因为它需要对底层HDFS文件应用过滤。但是当我做select*fromtable在Hive上没有任何where子句，有时会启动mapreduce，有时不会。我的理解是，理想情况下它不应该启动mapreduce，因为没有过滤条件。那么有人可以解释一下为什么在少数情况下mapreduce会在Hive上启动吗？提前致谢。最佳答案这由两个Hive属性控制hive.fetch.task.

MapReduce hadoop code section hive

hadoop - 分区表上的 Hive alter 语句

我在Hive中有一个空的分区表，我正在尝试命名列的名称以及表中列的顺序:>describeformattedtest_hive;col_namedata_type注释col1日期col2字符串col3字符串abc十进制(11,2)分区信息col_namedata_type注释第mth_year字符串尝试将abc重命名为xyz并将其移动到col1之后，但是当我运行时altertabletest_hivepartition(mth_year)CHANGEabcxyzDECIMAL(11,2)AFTERcol1;但出现错误:FAILED:SemanticException[Error1000

hadoop alter section code pre hive hiveql

json - 使用 JsonSerDe 的 Hive 中的 ClassNotFoundException

我们在CDH5上使用Hive0.12。我们使用它来将JSON记录转换为柱状格式，使用https://github.com/rcongiu/Hive-JSON-Serde中的org.openx.data.jsonserde.JsonSerDe。.我们读取的外部表定义为:addjarjson-serde-1.3-SNAPSHOT-jar-with-dependencies.jar;sethive.exec.dynamic.partition.mode=nonstrict;sethive.exec.max.dynamic.partitions.pernode=366;sethive.stat

ClassNotFoundException JsonSerDe java CliDriver apache json hadoop hive

Hadoop Hive 外部表位置？

我正在研究HIVE。我应该在哪里创建一个外部表。在我的本地文件系统中或在HDFS文件系统中？。推荐用于项目。最佳答案它必须位于集群节点可访问的文件系统中。虽然99%的情况下这意味着集群文件系统，而99%的情况下这意味着HDFS，但这并不是严格意义上的:Hadoop可以访问其他文件系统，简单的例子是S3FileSystem或Azureblobs.您不能用于外部Hive表的一个地方是您的本地文件系统。本地文件URI对远程节点没有意义。它可能适用于伪分布式(单节点)“集群”，但不适用于现实世界。

Hadoop Hive section noreferrer noopener external

hadoop - 哪个条件函数在HIVE中性能有效？如果还是案例？

ConditionalFunction中的哪个在HIVE中性能有效？如果还是案例？最佳答案我可以根据与Hortonworks的专家一起优化复杂查询的经验来谈一谈。我们处理了包含多个IF/THEN和CASE的数百行查询。性能差异小到无法衡量。担心您的连接-即mapside与侧数据与reduce侧连接-和UDF:这些是可以找到性能改进的地方。我们对许多领域进行了大量调整，包括许多不同类型和偏斜的联接、UDF和内联View。这不是一个曾经浮出水面的区域。关于hadoop-哪个条件函数在H

中性 hadoop section stackoverflow hive hiveql

java - Hive UDTF 返回 ArrayList 列

我是HiveUDTF的新手。我有一个要求，我必须在UDTF中将字符串值作为Paratmeter传递，并且返回的Column应该是ArrayList。我写了下面的代码:publicStructObjectInspectorinitialize(ObjectInspector[]arg0)throwsUDFArgumentException{ArrayListfieldNames=newArrayList();ArrayListfieldOIs=newArrayList();fieldNames.add("col1");stringOI=(PrimitiveObjectInspector)

ArrayList java String section hadoop hive

scala - Spark-Scala HBase 表创建失败(MetaException(消息 :file:/user/hive/warehouse/src is not a directory or unable to create one)

我的VM中运行着hortonworks沙盒。我已经完成了所有的hive-site.xml配置并放置在Spark/conf文件中。我可以使用PySpark访问HBase并创建/更新表，但是当我在Scala中执行相同的实现时，会出现以下错误:FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.DDLTask.MetaException(message:file:/user/hive/warehouse/srcisnotadirectoryorunabletocreateone)我也更改了对“hive/war

MetaException Spark-Scala strong section hive scala hadoop hbase apache-spark pyspark

hadoop - HIVE QUERY SELECT * FROM bookfreq where freq IN (SELECT Max(freq) FROM bookfreq);

我正在编写配置单元查询，因为获取记录具有最大频率值。tablenamebookfreq,havingtwocolumnyear&freqyearfreq19992200041989419905查询:SELECT*FROMbookfreqwherefreqIN(SELECTMax(freq)FROMbookfreq);我遇到了这样的异常FAILED:ParseExceptionline1:38cannotrecognizeinputnear'SELECT''Max''('inexpressionspecification 最佳答案如

bookfreq SELECT code freq hadoop hive hiveql

shell - 如果 Hive 失败则停止 Bash 脚本

我有一个循环遍历文件夹并处理所有*.hql文件的bash脚本。有时，其中一个配置单元脚本失败(语法、资源限制等)，而不是脚本失败，它将继续到下一个.hql文件。无论如何，我可以阻止bash处理剩余的部分吗？下面是我的示例bash:foriin`ls${layer}/*.hql`;doecho"Processing$i..."hive${hiveconf_all}-hiveconfDATE=${date}-f${i}&if[$j-le5];thenj=$((j+1))elsewaitj=0fidone 最佳答案我会检查前一个命令的进

shell Hive section code stackoverflow hadoop

72 73 747576 77 78