HIVE2_草庐IT

hadoop - 具有 unix 时间戳的 Hive float 据类型

我正在使用float数据类型的hive外部表(错误地)来存储Unix纪元时间戳。当我在配置单元外部表上发出where子句时，它会返回一些奇怪的结果。举个例子。selectevent_timefromtbl_namewhereevent_time=1478649561limit10输出:1478649600任何人都可以帮助我理解这里有什么问题吗？最佳答案这与其说是Hive问题，不如说是浮点精度的一般问题。您将看到1478649561(整数类型)在浮点表示中被近似以适应32位Java浮点类型的效果。为了在Hive上下文之外以更简单的

hadoop - Hive修改分区表数据

问题:一列值为空。它应该是'ab'。不幸的是我写了''而不是'ab'。我的表是分区表。有什么办法可以改变吗？我找到了下面的方法。但它似乎效率低下。像我的表一样创建一个临时表使用插入覆盖。从我的旧表中读取数据并写入新表。我正在使用case语句将''更改为'ab'然后将我的临时表更改为原始表。我正在寻找类似更新分区和msck的解决方案。有什么办法吗？最佳答案您可以通过这种方式覆盖单个分区:sethive.exec.dynamic.partition=true;sethive.exec.dynamic.partition.mode=n

hadoop Hive section partition column

hadoop - 错误 : while processing statement: FAILED: Hive Internal Error: hive. mapred.supports.subdirectories 必须为真

我遇到了一个错误Errorwhileprocessingstatement:FAILED:HiveInternalError:hive.mapred.supports.subdirectoriesmustbetrueifanyoneoffollowingistrue:hive.optimize.listbucketing,mapred.input.dir.recursiveandhive.optimize.union.remove.当我尝试从HDFS目录递归加载数据到hive表时发生此错误我尝试设置以下参数:SETmapred.input.dir.recursive=true;SETh

subdirectories processing section blockquote mapred hadoop recursion optimization hive bigdata

hadoop - 底层目录更改时Hive表能否自动更新

如果我像这样在某个S3(或HDFS)目录之上构建一个Hive表:createexternaltablenewtable(namestring)rowformatdelimitedfieldsterminatedby','storedastextfilelocation's3a://location/subdir/';当我将文件添加到该S3位置时，Hive表不会自动更新。仅当我在该位置创建新的Hive表时才会包含新数据。有没有一种方法可以构建Hive表(可能使用分区)，以便每当将新文件添加到底层目录时，Hive表会自动显示该数据(无需重新创建Hive表)？最

底层 hadoop section stackoverflow Hive amazon-s3 hdfs

hadoop - 在 Hive 中启动 MapReduce 作业的标准

我是Hadoop的新手，所以请帮我解决这个基本问题。当我做"select*fromtablewhere;"在Hive中，我知道它将启动mapreduce，因为它需要对底层HDFS文件应用过滤。但是当我做select*fromtable在Hive上没有任何where子句，有时会启动mapreduce，有时不会。我的理解是，理想情况下它不应该启动mapreduce，因为没有过滤条件。那么有人可以解释一下为什么在少数情况下mapreduce会在Hive上启动吗？提前致谢。最佳答案这由两个Hive属性控制hive.fetch.task.

MapReduce hadoop code section hive

hadoop - 分区表上的 Hive alter 语句

我在Hive中有一个空的分区表，我正在尝试命名列的名称以及表中列的顺序:>describeformattedtest_hive;col_namedata_type注释col1日期col2字符串col3字符串abc十进制(11,2)分区信息col_namedata_type注释第mth_year字符串尝试将abc重命名为xyz并将其移动到col1之后，但是当我运行时altertabletest_hivepartition(mth_year)CHANGEabcxyzDECIMAL(11,2)AFTERcol1;但出现错误:FAILED:SemanticException[Error1000

hadoop alter section code pre hive hiveql

json - 使用 JsonSerDe 的 Hive 中的 ClassNotFoundException

我们在CDH5上使用Hive0.12。我们使用它来将JSON记录转换为柱状格式，使用https://github.com/rcongiu/Hive-JSON-Serde中的org.openx.data.jsonserde.JsonSerDe。.我们读取的外部表定义为:addjarjson-serde-1.3-SNAPSHOT-jar-with-dependencies.jar;sethive.exec.dynamic.partition.mode=nonstrict;sethive.exec.max.dynamic.partitions.pernode=366;sethive.stat

ClassNotFoundException JsonSerDe java CliDriver apache json hadoop hive

Hadoop Hive 外部表位置？

我正在研究HIVE。我应该在哪里创建一个外部表。在我的本地文件系统中或在HDFS文件系统中？。推荐用于项目。最佳答案它必须位于集群节点可访问的文件系统中。虽然99%的情况下这意味着集群文件系统，而99%的情况下这意味着HDFS，但这并不是严格意义上的:Hadoop可以访问其他文件系统，简单的例子是S3FileSystem或Azureblobs.您不能用于外部Hive表的一个地方是您的本地文件系统。本地文件URI对远程节点没有意义。它可能适用于伪分布式(单节点)“集群”，但不适用于现实世界。

Hadoop Hive section noreferrer noopener external

hadoop - 哪个条件函数在HIVE中性能有效？如果还是案例？

ConditionalFunction中的哪个在HIVE中性能有效？如果还是案例？最佳答案我可以根据与Hortonworks的专家一起优化复杂查询的经验来谈一谈。我们处理了包含多个IF/THEN和CASE的数百行查询。性能差异小到无法衡量。担心您的连接-即mapside与侧数据与reduce侧连接-和UDF:这些是可以找到性能改进的地方。我们对许多领域进行了大量调整，包括许多不同类型和偏斜的联接、UDF和内联View。这不是一个曾经浮出水面的区域。关于hadoop-哪个条件函数在H

中性 hadoop section stackoverflow hive hiveql

java - Hive UDTF 返回 ArrayList 列

我是HiveUDTF的新手。我有一个要求，我必须在UDTF中将字符串值作为Paratmeter传递，并且返回的Column应该是ArrayList。我写了下面的代码:publicStructObjectInspectorinitialize(ObjectInspector[]arg0)throwsUDFArgumentException{ArrayListfieldNames=newArrayList();ArrayListfieldOIs=newArrayList();fieldNames.add("col1");stringOI=(PrimitiveObjectInspector)

ArrayList java String section hadoop hive