$hive_草庐IT

hadoop - 从 HDFS 加载数据到 hive

这个问题在这里已经有了答案:HowtoloaddatatohivefromHDFSwithoutremovingthesourcefile?(3个答案)关闭5年前。谁能解释如何在不删除源文件的情况下将数据从HDFS加载到Hive外部表。如果我使用LOADDATAINPATH'/user/root/cards/deckofcards.txt'INTOTABLEdeck_of_cards;文件用户/user/root/cards会被删除吗？

hadoop - 数组联合的聚合函数 [HIVE]

我想在groupby子句上采用数组并集。Hive没有任何通用方法来聚合数组联合。除了内置的hive函数，还有其他解决方案吗？示例:CREATETABLEbase_table(daystring,sample_dataarray)SELECTday,ARRAY_UNION(sample_data)FROM(SELECTday,sample_datafrombase_table1UNIONALLSELECTday,sample_datafrombase_table2)GROUPBYday 最佳答案你可以试试collect_list或c

hadoop HIVE sample_data section sample

hadoop - 需要 hive 总和查询吗？

我有如下数据集:PIC_NUMBER|C_DATE|OR_QUANTITY1|2017-03-01|101|2017-03-02|111|2017-03-03|121|2017-03-04|131|2017-03-05|141|2017-03-06|151|2017-03-07|162|2017-03-02|202|2017-03-04|132|2017-03-05|143|2017-03-02|53|2017-03-03|63|2017-03-05|73|2017-03-06|83|2017-03-07|94|2017-03-01|104|2017-03-02|114|2017-03

hadoop hive 2017 03 br

hadoop - Hive 中的 JOIN 会触发 MapReduce 中的哪种类型的 JOIN？

如果我在hive中有一个使用JOIN的查询，假设在两个表上使用LEFTOUTERJOIN或INNERJOINON任何列，那么我如何知道它在后端MapReduce中转换为哪种类型的JOIN(即Map-sideJOIN或Reduce-sideJOIN)？谢谢。最佳答案使用explainselect...并检查计划。它解释了map和reduce究竟会做什么。此外，在执行期间，您可以检查作业跟踪器上的日志并查看映射器或缩减器进程正在做什么。例如下面一段explainplan说是map-sidejoin(注意plan中的MapJoinOp

JOIN MapReduce code section hadoop hive hive-configuration

hadoop - 创建一个 HIVE 表并将其保存到一个制表符分隔的文件中？

我在hdfs中有一些数据。此数据是使用Sqoop从PostgreSQL数据库迁移而来的。数据具有以下hadoopish格式，如_SUCCESS、part-m-00000等。我需要基于此数据创建一个Hive表，然后我需要将此表导出到一个制表符分隔的文件。据我所知，我可以通过这种方式创建表格。createexternaltabletable_name(idint,myfieldsstring)location'/my/location/in/hdfs';然后我可以将表格保存为tsv文件:hive-e'select*fromsome_table'>/home/myfile.tsv我不知道如何

制表符并将 code section blockquote hadoop hive hdfs

sql - 在 Hive 中如何从特定字符开始获取结果

我正在学习Hive。假设我有如下表格，t1idname1ram2rahim3yesudas4george5yogesh现在我将在sql中编写，selectnamefromt1wherenamelike'r%'这将给出名称从r开始的结果，idname1ram2rahim如何在Hive中实现这一点。请帮忙最佳答案表创建:createtablet1(idint,namestring)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'LINESTERMINATEDBY'\n'STOREDASTEXTFILE

Hive sql code section strong hadoop

hadoop - 在 hive-0.10.0 中查找 30 天前的日期

我有2个hadoop集群，一个安装了hive-0.10.0，另一个安装了hive-1.1.0版本。我能够在hive-1.1.0中运行下面的查询，它给出从当前日期起30天之前的日期selectdate_sub(from_unixtime(floor(unix_timestamp()/(60*24*24))*60*24*24),30)但是，相同的查询在hive-0.10.0中给出了语法错误okfailed:parseexceptionline1:79mismatchedinput''expectingfromnear')'infromclause 最佳答案

hadoop hive section code hiveql

sql - Hive Optimizer 在优化 View 查询时是否考虑 View 定义？

我有这个架构(通过DDL为表和View提供):hive>createtablet_realtime(cust_idint,namestring,statusstring,active_flagint);hive>createtablet_hdfs(cust_idint,namestring,statusstring,active_flagint);hive>createviewt_inactiveasselect*fromt_hdfswhereactive_flag=0;hive>createviewt_viewasselect*fromt_realtimeunionallselect

View Optimizer code active_flag active sql hadoop hive query-optimization

csv - HIVE - 手动解析数据，用双引号括起来，用逗号分隔

我见过一些类似的问题，但由于问题并不完全相同，或者解决方案不适用于我的情况，所以我将问题发布在这里。我正在解析一个表，该表在csv_line列中包含一个csv行。问题是某些列有逗号,这也是字段分隔符。这些列包含在引号中。我正在做的解析是:withsampleas(select'field1,field3,"http://another.domain/abc/...eIds=111,222,333,444,...,",CustomerX,end'ascsv_line)selectregexp_extract(csv_line,'(,?(".*?"|[^,]*)){1}')asf1rege

引号 HIVE regexp_extract extract raw_line csv parsing hadoop split

xml - Hive - XML- Serde - 键值对 - 创建表

键值对组合。我们正在尝试将ID分解为列名，并将VALUE分解为每一列的相应数据。`Column125672Column2FGEColumn3FlorencetoVenice`我们希望创建一个如下表，预期输出:Column1Column2Column325672FGEFlorencetoVenice我们尝试使用Map来提取键值对，但我们没有得到想要的结果。'CREATEEXTERNALTABLEdev.reference_test(PM_SubCollectionarray>)ROWFORMATSERDE'com.ibm.spss.hive.serde2.xml.XmlSerDe'WIT

Serde Hive 34 gt lt xml hadoop xpath hive-serde