HIVE2

hadoop - Hive 没有完全遵守 core-site.xml 中的 fs.default.name/fs.defaultFS 值

我在一台名为hadoop的机器上安装了NameNode服务。core-site.xml文件的fs.defaultFS(等同于fs.default.name)设置如下:fs.defaultFShdfs://hadoop:8020我有一个名为test_table的非常简单的表，它当前存在于HDFS上的Hive服务器中。即存放在/user/hive/warehouse/test_table下。它是在Hive中使用一个非常简单的命令创建的:CREATETABLEnew_table(record_idINT);如果我尝试将数据加载到本地表中(即使用LOADDATALOCAL)，一切都会按预期进行

apache-spark - Spark Streaming to Hive，每个分区的小文件太多

我有一个批处理间隔为2分钟(可配置)的Spark流作业。此作业从Kafka主题读取并创建数据集并在其上应用模式并将这些记录插入到Hive表中。Spark作业在Hive分区中每个批处理间隔创建一个文件，如下所示:dataset.coalesce(1).write().mode(SaveMode.Append).insertInto(targetEntityName);现在传入的数据不是那么大，如果我将批处理持续时间增加到10分钟左右，那么即使我最终也可能只获得2-3mb的数据，这远小于block大小。这是SparkStreaming中的预期行为。我正在寻找有效的方法来进行后处理以合并所有

apache-spark Streaming section Spark Hive hadoop apache-kafka spark-streaming

hadoop - 有了Hive TEZ，Hive的LLAP有什么用？

在我们的项目中，我们将数据从Greenplum数据库加载到HDFS(HIVE)。最近，我了解到Hive2有一个新的包，“LLAP”。我一直对LLAP的概念感到困惑。LLAP的具体用途是什么？当我们已经有了Hive的TEZEngine时，LLAP有什么用呢？我们项目中的一位开发人员告诉我，我们正在使用HiveLLAP将数据加载到HDFSHive表中。使用LLAP是一种好习惯吗？如果不是，为什么不是？任何人都可以让我清楚地了解上述问题吗？最佳答案 https://cwiki.apache.org/confluence/display/

Hive hadoop LLAP section hdfs

hadoop - Hive:Mapreduce 文件丢失

我可以输入Hive-cli并创建新表。但是，当我尝试向表中插入数据时，它显示:java.io.FileNotFoundException:Filedoesnotexist:hdfs://nameservice1/user/yarn/mapreduce/mr-framework/3.0.0-cdh6.0.1-mr-framework.tar.gz但是HDFS路径hdfsdfs-ls/user/yarn根本不存在。HDFS、YARN/MR、Hive状态正常，我尝试重启所有框架。为什么Yarn没有在HDFS上生成路径，也没有把tar文件放到HDFS路径下？如何解决这个问题？感谢您的帮助。

Mapreduce hadoop code section HDFS hive hadoop-yarn

sql - hive 日期转换问题

您好，在我的Hive表中，我有一列包含这样的日期值。cl1311020190000003011201900000031122019000000我试过像这样将列值转换为日期格式Selectfrom_unixtime(unix_timestamp(cl1,'yyyy/MM/dd'),'yyyy-MM-dd')fromtable1;它打印NULl。任何帮助将不胜感激。最佳答案您说您有dd-mm-yyyy格式的日期，但随后发布的数据中根本没有任何连字符假设31102019000000是31-oct-201900:00:00Selectf

hive sql section code pre hadoop bigdata hiveql

sql - hive 中两条记录之间的差异

我有一个包含5列的表，我需要找到前两条记录的计数列差异。我能够根据某些条件获得前两项记录。例如，我的table看起来像:nameaddresscountcurrent_date_timejohnLA1022019-07-1212:24:38peterMAC1052019-07-1212:24:40johnNY2102019-07-1212:24:02johnWD182019-07-1212:24:12选择查询以获取前两行:SELECTcountFROMtable_nameWHEREname="john"ORDERBYcurrent_date_timeDESCLIMIT2它返回如下:co

hive sql code current_date_time section hadoop count

hadoop - 在 Hive 中编写带有 where 子句的嵌套 select 语句

我需要在Hive查询的where子句中进行嵌套选择。示例代码片段如下；选择*来自表AwhereTA_timestamp>(selecttimestmpfromTableBwhereid="hourDim")这是可能的还是我在这里做错了什么，因为我在运行上述脚本时遇到错误？!为了进一步详细说明我正在尝试做的事情，有一个cassandra键空间，我发布了带有时间戳的统计信息。定期(例如每小时)使用hive汇总此统计信息，一旦汇总，数据将与相应的小时分开存储。因此，当查询第二次运行(和连续运行)时，查询应该只在新数据上运行(即-timestamp>previous_execution_tim

编写 hadoop strong section https hive hiveql

join - Hive 中排序合并桶映射连接的输入

我想按照Hive手册(BucketedMapJoin)中的描述使用以下选项执行排序合并连接sethive.input.format=org.apache.hadoop.hive.ql.io.BucketizedHiveInputFormat;sethive.optimize.bucketmapjoin=true;sethive.optimize.bucketmapjoin.sortedmerge=true;两个表都必须在连接列上分桶和排序。我的问题是-排序是否必须是全局的，即第一个桶中的键小于第二个桶中的键，或者每个桶都排序就足够了吗？最佳答案

中排 join code section strong hadoop map hive bucket

hadoop - 如何检查 sort merge bucket join 是否在 HIVE 中工作？

我想验证我的SMB连接是否有效。我可以通过日志验证映射连接，但不能通过SMB。我也通过了解释计划，但没有得到任何提示。请帮助我。最佳答案您可以对查询使用EXPLAINEXTENDED。到目前为止，我只能生成一个带有map-reduce的SMB映射连接。当hive正在执行SMBmapjoin时，您可以在explain的输出中的阶段计划下看到“SortedMergeBucketMapJoinOperator”。这是在我的设置中使用map-reduce生成SMB映射连接的代码片段:sethive.execution.engine=mr

中工 hadoop key value section hive

join - 如何在 HIVE 中连接两个表。

我有两个表A和B，它们都具有以下结构。//TableANameAgeactualdateno//TableBCitysdateedateid我希望使用JOIN从A和B获取所有字段，其中id=no和sdate=actualdate。我尝试如下使用where子句，但它不起作用。selectv3.*,t3.*fromAv3JOINBt3wherev3.id=t3.noandv3.sdate=t3.actualdatelimit1;使用On子句:selectv3.*,t3.*fromAv3JOINBt3ON(v3.id=t3.noandv3.sdate=t3.actualdate)limit1

何在 join actualdate section code hadoop hive hiveql

63 64 656667 68 69