hive-overwrite

sql - 使用时间轴列作为 Hive 分区字段时出现异常

我正在尝试将数据从普通表加载到Hive分区表。这是我的普通表格语法:createtablex(namestring,date1string);这是我的新分区表语法:createtabley(namestring,date1string)partitionedby(timestamp1string);下面是我是如何加载数据到y的:insertintotableyPARTITION(SUBSTR(date1,0,2))selectname,date1fromx;这是我的异常(exception):FAILED:ParseExceptionline1:39missing)at'('near'

时出 Hive section code pre sql hadoop hive-partitions

hadoop - 如何删除 Hive 中的两个分区列之一？

我创建了一个包含两个分区列的配置单元表，例如col1和col2，现在出于某些分析目的，我希望删除col2分区。基本上我希望从分区列列表中删除列-col2，但我不应该丢失col2中的数据。很明显，最终表应仅由col1分区，而col2也应存在于最终分区表中，但作为普通列而不是分区列。请提出前进的方向。最佳答案下面是最好的方法之一。只需更新配置单元分区:ALTERTABLEPARTITION(year=2018,month=05)SETLOCATION'hdfs://some/temp/location/tale_name/2018/

之一 hadoop section col 配置单 hive hiveql cloudera

hadoop - 在 GCP 上连接 b/w R studio server pro 和 hive

这不是与编程相关的问题，请耐心等待。我目前在GCP上设置了两个实例——一个是RstudioserverPRO，另一个是我的HiveDB集群。我希望使用我的rstudioserverpro访问配置单元中的数据库。两者都在GCP上运行。有人可以指导我吗？(我看过有关rstudio桌面的文章--->hive连接以及从spark集群中运行rstudio-server的文章，但我必须将RstudioserverPRO链接到hivedb，两者都在GCP上运行:O) 最佳答案供将来引用:Rstudio-Dataproc-在这种特殊情况下，我将数

hadoop studio code image pre hive google-cloud-platform google-cloud-dataproc rstudio-server

hadoop - Hive - Hive 如何在内部执行多个 BIG 表连接查询(在 MapReduce 中)以及如何对其进行优化？

假设我有4-5个所有大表(TB中的数据)并且我想将它们连接到配置单元中。Hive内部(在MapReduce中)如何以最佳方式执行连接。最佳答案可以使用Bucketized-Join或Sort-Merge-Join以最佳方式连接许多大表，请参阅HIVEJoinstrategies.所有表都需要进行相应的结构化(相同的存储桶，或以相同的方式排序和存储)。如果您的表的组织方式不同(存储相同)，那么剩下的唯一选择就是随机连接，这将复制整个表(慢)。关于hadoop-Hive-Hive如何在

Hive MapReduce section stackoverflow noreferrer hadoop

apache-spark - Snappydata 和外部 Hive 兼容性

我正在尝试使用Snappydata1.0.1从Hadoop(HDP2.6.3)读取和处理数据。当指向Hivemetastore(通过Snappydata配置中的hive-site.xml)时，来自Snappydata发行版的Spark可以读取数据库列表，但不能在Snappydata中创建表。它告诉“找不到表”。此外，Snappydata集群UI显示该表，但Snappydata无法进一步使用它-使用此表的INSERT、SELECT、DROP命令会抛出表未找到错误，随后的CREATETABLE会提示“表已存在”。在不指定Hive元存储的情况下，它运行良好。hive-site.xml中的配置

apache-spark Snappydata section 中创 hadoop hive

hadoop - Hive:Decimal(12,9) 的列类型使用 JSONSerDe 抛出 NullPointerException

我有一个指向json数据的外部表。我正在使用serdeorg.apache.hive.hcatalog.data.JsonSerDe。我使用DDL在这个外部表之上创建了一个View:CREATEVIEW`my_table`ASSELECTa.col1,a.col2,......a.longitude,a.latitudeFROM(SELECTmytable.body.col1,mytable.body.col2,......mytable.body.longitude,mytable.body.latidute,ROW_NUMBER()OVER(PARTITIONBYmytable.b

NullPointerException JSONSerDe java apache TezTaskRunner hadoop hive hiveql hadoop2

hadoop - Hive 查询以根据多个可选键分配分组键

我们有一个包含三个不同ID的Hive表，所有ID都是可选的。在每一行中，必须至少提供三个ID中的一个。如果提供了多个ID，这将在多个ID之间建立等价关系。我们需要根据在任何行中建立的等价关系，为每一行分配一个唯一的主ID。例如:Lineid1id2id3masterID--------------------------------------(1)A1M1(2)A2M1(3)A3M1(4)A1A2M1(5)A2A3M1(6)B1A2M1(7)C1C3M2因为在第4行，A1和A2都存在，我们知道这些ID是等价的。同样，在第5行，A2和A3都存在，我们知道这些ID也是等价的。同样在第6行

hadoop Hive table select section mapreduce hadoop2

hadoop - Hive 外部表的最大列数

我正在尝试在Amazon的EMR上设置Hive，以从DynamoDB表中提取数据并将其转储到S3。我已按照找到的说明进行操作here，并在我们的大多数table上取得了成功。然而，对于一个DynamoDB表，我收到一个错误(如下所示)。有问题的表有很多列(>100)，将映射减少到它们的一个子集允许脚本运行，所以我假设这是问题，但我找不到关于此的任何文档。我可以定义的列数是否有某种硬性限制？还是我可能会在这里遇到其他限制？有办法解决这个问题吗？我得到的错误看起来像:FAILED:Errorinmetadata:javax.jdo.JDODataStoreException:Putrequ

hadoop Hive section code col amazon-web-services amazon-dynamodb

hadoop - Hadoop 和 Hive 的基本知识

我最近开始使用Hadoop。我通过Hive访问名为Checkout的表。下面是数据进入HDFS和其他信息的路径。那么，如果我必须阅读以下三行，我可以获得什么信息？PathSizeRecordCountDateLoaded/sys/edw/dw_checkout_trans/snapshot/2012/07/04/001.13TB9,294,245,8002012-07-0507:26/sys/edw/dw_checkout_trans/snapshot/2012/07/03/001.13TB9,290,477,9632012-07-0409:37/sys/edw/dw_checkout

基本知识 hadoop section Hive dw_checkout_trans

hadoop - hive 表丢失

我在配置单元中创建了几个表。我对他们提出了一些疑问。然后退出hive，之后关闭hadoopmapred和dfs。然后第二天回来才发现table不见了!!我的配置单元使用本地元存储。经过大量搜索后，我只看到有人发布了一个这样的问题。答案中建议如果使用metastore，则本地应从同一位置启动配置单元。我也这样做了。我只从主人那里运行hive，甚至从未登录过奴隶。Metastore文件夹仍然存在。那么一定是出了什么问题呢？我检查了hadoop和hivemetastore日志的数据节点日志。却一无所获。我在哪里可以找到哪里出了问题？请帮我解决一下这个。还有什么可以避免这样的事情？

hadoop hive section 配置单 metastore

56 57 585960 61 62