hive-overwrite

hadoop - Hive:Mapreduce 文件丢失

我可以输入Hive-cli并创建新表。但是，当我尝试向表中插入数据时，它显示:java.io.FileNotFoundException:Filedoesnotexist:hdfs://nameservice1/user/yarn/mapreduce/mr-framework/3.0.0-cdh6.0.1-mr-framework.tar.gz但是HDFS路径hdfsdfs-ls/user/yarn根本不存在。HDFS、YARN/MR、Hive状态正常，我尝试重启所有框架。为什么Yarn没有在HDFS上生成路径，也没有把tar文件放到HDFS路径下？如何解决这个问题？感谢您的帮助。

sql - hive 日期转换问题

您好，在我的Hive表中，我有一列包含这样的日期值。cl1311020190000003011201900000031122019000000我试过像这样将列值转换为日期格式Selectfrom_unixtime(unix_timestamp(cl1,'yyyy/MM/dd'),'yyyy-MM-dd')fromtable1;它打印NULl。任何帮助将不胜感激。最佳答案您说您有dd-mm-yyyy格式的日期，但随后发布的数据中根本没有任何连字符假设31102019000000是31-oct-201900:00:00Selectf

hive sql section code pre hadoop bigdata hiveql

sql - hive 中两条记录之间的差异

我有一个包含5列的表，我需要找到前两条记录的计数列差异。我能够根据某些条件获得前两项记录。例如，我的table看起来像:nameaddresscountcurrent_date_timejohnLA1022019-07-1212:24:38peterMAC1052019-07-1212:24:40johnNY2102019-07-1212:24:02johnWD182019-07-1212:24:12选择查询以获取前两行:SELECTcountFROMtable_nameWHEREname="john"ORDERBYcurrent_date_timeDESCLIMIT2它返回如下:co

hive sql code current_date_time section hadoop count

hadoop - 在 Hive 中编写带有 where 子句的嵌套 select 语句

我需要在Hive查询的where子句中进行嵌套选择。示例代码片段如下；选择*来自表AwhereTA_timestamp>(selecttimestmpfromTableBwhereid="hourDim")这是可能的还是我在这里做错了什么，因为我在运行上述脚本时遇到错误？!为了进一步详细说明我正在尝试做的事情，有一个cassandra键空间，我发布了带有时间戳的统计信息。定期(例如每小时)使用hive汇总此统计信息，一旦汇总，数据将与相应的小时分开存储。因此，当查询第二次运行(和连续运行)时，查询应该只在新数据上运行(即-timestamp>previous_execution_tim

编写 hadoop strong section https hive hiveql

join - Hive 中排序合并桶映射连接的输入

我想按照Hive手册(BucketedMapJoin)中的描述使用以下选项执行排序合并连接sethive.input.format=org.apache.hadoop.hive.ql.io.BucketizedHiveInputFormat;sethive.optimize.bucketmapjoin=true;sethive.optimize.bucketmapjoin.sortedmerge=true;两个表都必须在连接列上分桶和排序。我的问题是-排序是否必须是全局的，即第一个桶中的键小于第二个桶中的键，或者每个桶都排序就足够了吗？最佳答案

中排 join code section strong hadoop map hive bucket

hadoop - 如何检查 sort merge bucket join 是否在 HIVE 中工作？

我想验证我的SMB连接是否有效。我可以通过日志验证映射连接，但不能通过SMB。我也通过了解释计划，但没有得到任何提示。请帮助我。最佳答案您可以对查询使用EXPLAINEXTENDED。到目前为止，我只能生成一个带有map-reduce的SMB映射连接。当hive正在执行SMBmapjoin时，您可以在explain的输出中的阶段计划下看到“SortedMergeBucketMapJoinOperator”。这是在我的设置中使用map-reduce生成SMB映射连接的代码片段:sethive.execution.engine=mr

中工 hadoop key value section hive

join - 如何在 HIVE 中连接两个表。

我有两个表A和B，它们都具有以下结构。//TableANameAgeactualdateno//TableBCitysdateedateid我希望使用JOIN从A和B获取所有字段，其中id=no和sdate=actualdate。我尝试如下使用where子句，但它不起作用。selectv3.*,t3.*fromAv3JOINBt3wherev3.id=t3.noandv3.sdate=t3.actualdatelimit1;使用On子句:selectv3.*,t3.*fromAv3JOINBt3ON(v3.id=t3.noandv3.sdate=t3.actualdate)limit1

何在 join actualdate section code hadoop hive hiveql

java - 从 HIVE UDF 读取 HDFS 文件 - 执行错误，返回代码 101 FunctionTask。无法初始化类

我们一直在尝试创建一个简单的HiveUDF来屏蔽Hive表中的某些字段。我们正在使用一个外部文件(放在HDFS上)来抓取一段文本，以便对屏蔽过程进行加盐处理。看起来我们一切正常，但是当我们尝试创建外部函数时它抛出错误:org.apache.hive.service.cli.HiveSQLException:Errorwhileprocessingstatement:FAILED:ExecutionError,returncode-101fromorg.apache.hadoop.hive.ql.exec.FunctionTask.Couldnotinitializeclassco.co

FunctionTask java apache hadoop hive hue

hadoop - HIVE中如何提高从非分区表加载数据到ORC分区表的性能

我是Hive查询的新手，我正在寻找从Hive表中检索数据的最佳实践。我们启用了TeZ执行引擎并启用了矢量化。我们想从Hive表进行报告，我从TEZ文档中读到它可以用于实时报告。场景来self的WEB应用程序，我想在UI上显示HiveQuerySelect*fromHive表的结果，但是对于任何查询，在hive命令提示符中至少需要20-60秒，即使hive表有60GB数据。1)谁能告诉我如何通过查询Hive表来显示实时报告并在10-30秒内立即在UI上显示结果2)我们发现的另一个问题是，当我们将未分区表中的数据转储到ORC时，最初我们有一个未分区表指向HDFS中的一个Blob/文件，它的

hadoop HIVE section hadoop-yarn azure-hdinsight

hadoop - 如何获取工资高于HIVE部门平均工资的员工姓名

Dept_idEmp_nameSal1amit25002neha36003ankit4500需要找出工资高于整个部门平均工资的员工姓名。使用配置单元。最佳答案 Hive在使用子查询时有限制....我们可以使用以下查询解决您的问题...根据您的表更改列名...选择*FROMemployeesJOIN(SELECTs2.deptiddeptid,avg(s2.salary)salfromemployees2groupbydeptid)s3ONs.deptid=s3.deptidWHEREs.sal>s3.sal;复制代码

hadoop HIVE section deptid stackoverflow hiveql

64 65 666768 69 70