HIVE

hadoop - MSCK REPAIR TABLE 表名耗时较长

我在包含超过28K分区的配置单元表上运行MSCKREPAIRTABLE表名，我们将每10分钟接收一个分区。当我们每10分钟在此表上运行一次MSCKREPAIRTABLE时，它会花费很多时间有人可以建议为什么需要更多时间吗？(即超过5-10分钟)提前致谢。hive版本:1.1.0 最佳答案这是一个非常糟糕的做法。无论目录是否已经映射到分区，MSCKREPAIR仍然需要获取所有目录的列表以及所有分区的列表并进行比较。相反，您应该在每次添加目录时使用altertable...addpartition...添加一个分区。

hadoop - 通过 HQL 更改 hive 表中映射列中的一个键值

我有一个Hive表，其架构如下，col是map类型:selectcolfromtablecol{"name":"abc","value":"val_1"}我需要做的是将val_1更改为val_2并从中创建另一个表。createtabletable_2asselectcol--TODO:needtodosomethingherefromtable有什么建议吗？谢谢! 最佳答案 withtas(selectmap("name","abc","value","val_1")ascol)selectmap("name",col["name"

hadoop hive 34 code section hql hiveql

hadoop - Apache HIVE 中的表定义问题

以下是我推送到名为temp_stat的Hive表中的数据集:COUNTRYCITYTEMP-----------------------------------USArizona51.7USCalifornia56.7USBullheadCity51.1IndiaJaisalmer42.4LibyaAziziya57.8IranLutDesert70.7IndiaBanda42.4当我尝试通过select命令查看数据时，我得到以下数据集:US,Arizona,51.7NULLNULLUS,California,56.7NULLNULLUS,BullheadCity,51.1NULLNU

hadoop Apache NULL strong code hive mapreduce hiveql

hadoop - hive insert overwrite table with inner sub query of count of columns 作为结果

你好，我在源表“状态表”下面有datestatusname2017-06-22true1.tar2017-06-22true2.tar2017-06-22false3.tar2017-06-22true4.tar2017-06-22false5.tar2017-06-21false6.tar2017-06-21false6.tar2017-06-21false6.tar2017-06-21true6.tar我在目标表列下面有预期的数据TrueFalseTotalDate3252017-06-221342017-06-21我在下面写了查询将数据从源表加载到目标表，但它说表达式不在GROU

overwrite columns code section 2017 hadoop hive hql hadoop-yarn

hadoop - Sqoop snappy 压缩不起作用

我有以下sqoop脚本，它应该以parquet格式获取数据并使用snappy压缩。sqoopimport\--hive-drop-import-delims\--fields-terminated-by'\001'\--connect''\--query'select*from.where$CONDITIONS'\--username\--password\--split-by''\-m=4\--input-null-string''\--input-null-non-string''\--inline-lob-limit0\--target-dir\--compression-cod

hadoop snappy section parquet code hive

hadoop - 在S3上创建Hive外部表将引发 “org.apache.hadoop.fs.s3a.S3AFileSystem not found”异常

我在本地计算机上使用beeline在DDL下运行，并引发异常。DDL是CREATETABLE`report_landing_pages`(`google_account_id`stringCOMMENT'fromdeserializer',`ga_view_id`stringCOMMENT'fromdeserializer',`path`stringCOMMENT'fromdeserializer',`users`stringCOMMENT'fromdeserializer',`page_views`stringCOMMENT'fromdeserializer',`event_valu

hadoop S3AFileSystem java apache amazon-s3 hive

hadoop - Hive 中的时间戳分区

我正在尝试在配置单元中创建基于时间戳的分区。但是配置单元正在创建基于数据的分区。下面是我的代码。有人可以帮忙吗？cattest1.shdat=`date+'%Y%m%d%H:%m:%S'`hive-fload.hql-hiveconffile_load_timestamp=$dat;catload.hqlINSERTOVERWRITEtableperm.testpartition(file_load_timestamp='${hiveconf:dat}')SELECTa,bFROMwork.temp;dt=20180102/=HDFS路径是这样创建的。dt=20180102103455

hadoop Hive code section 中创 partitioning

csv - 指向带有嵌入双引号的 CSV 文件的 Hive 外部表

我正在尝试创建一个指向CSV文件的外部Hive表。我的CSV文件有一个列(col2)，可以将双引号和逗号作为列值的一部分。每列数据:Col1:150Col2:BATWING,ABC"D"TESTDATACol3:300CSV中的行:150,"BATWING,ABC""D""TESTDATA",300创建表DDL:CREATEEXTERNALTABLEtest(col1INT,col2STRING,col3INT)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','ESCAPEDBY'"'LOCATION's3://test-folder/test-file.c

引号 Hive code section pre csv hadoop hiveql

hadoop - 使用配置单元中的另一个表创建表时出现问题

hive中有一个测试表。表数据有多个小文件，所以我想使用该测试表创建另一个表，这样新创建的表将具有更少的分区并且查询会很快。但是我创建新表时它给了我错误。CREATETABLEIFNOTEXISTStest_mergeSTOREDASparquetASSELECT*FROMtest;错误ERROR:Status:FailedERROR:FAILED:ExecutionError,returncode3fromorg.apache.hadoop.hive.ql.exec.spark.SparkTaskINFO:Completedexecutingcommand(queryId=hive_

时出配置单 section code 试表 hadoop memory hive

hadoop - 配置单元 - 为不同的列值插入行

老实说，我不知道如何简单地在标题行中描述问题而不是展示示例。我有一个包含两列的配置单元表:ID和日期IDDate3101-01-20173101-02-20173101-03-201712301-01-201712301-01-2017...在这个表中，我想包括另一列是小时，如下所示IDDateHour3101-01-2017003101-01-2017013101-01-2017023101-01-2017033101-01-201704...3101-01-2017233101-02-2017003101-02-201701...基本上，对于每一行，我想添加一个小时值从00到23的

配置单 hadoop select union hour hive

34 35 363738 39 40