草庐IT

hive-overwrite

全部标签

hadoop - Hive - 在多行上拆分分隔列,根据位置选择

我正在寻找一种基于逗号分隔数据拆分列的方法。下面是我的数据集idcol1col215,67,8我要得到结果idcol1col2157168索引的位置应该匹配,因为我需要相应地获取结果。我尝试了以下查询,但它返回了笛卡尔积。查询:SELECTcol3,col4FROMtestextlateralVIEWexplode(split(col1,'\002'))col1AScol3lateralVIEWexplode(split(col2,'\002'))col2AScol4结果:idcol1col2157158167168 最佳答案 您可

Hadoop架构、Hive相关知识点及Hive执行流程

Hadoop架构Hadoop由三大部分组成:HDFS、MapReduce、yarnHDFS:负责数据的存储其中包括:    namenode:主节点,用来分配任务给从节点    secondarynamenode:副节点,辅助主节点    datanode:从节点,负责实际的存储MapReduce:负责计算其中Map负责分解,reduce负责合并yarn:负责资源调度其中包括:    resourcemanager:负责接收用户的请求,并负责集群的管理和资源调度    nodemanager:负责执行resourcemanager分配的任务Hive相关知识点元数据:用来描述数据的数据。元数据包

hadoop - hive 如何处理插入内部分区表?

我需要将记录流插入到Hive分区表中。表结构是这样的CREATETABLEstore_transation(item_namestring,item_countint,bill_numberint,)PARTITIONEDBY(yyyy_mm_ddstring);我想了解Hive如何处理内部表中的插入。是否所有记录都插入到单个文件中yyyy_mm_dd=2018_08_31目录?或者Hive在一个分区内拆分为多个文件,如果是什么时候?如果每天有100万条记录并且查询模式将在日期范围之间,那么以下哪一个表现良好?内表没有分区按日期划分,每个日期只有一个文件按日期划分,每个日期有多个文件

hadoop - HIVE 分隔符\n ^M ​​问题

我有一个文件,其列由^A分隔,行由'\n'换行符分隔。我首先将它上传到HDFS,然后使用如下命令在Hive中创建表:CREATEEXTERNALTABLEIFNOTEXISTShtml_sample(tsstring,urlstring,htmlstring)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\001'LINESTERMINATEDBY'\n'LOCATION'/tmp/directoryname/';但是,当我为该表执行select语句时。原来是一团糟。表格如下所示:tsurlhtml10082013http://url.com/01.....

java - 如何在 Hadoop2 中指定 Hive 查询的 uberization?

Hadoop2中有一项名为uberization的新功能。例如,thisreference说:UberizationisthepossibilitytorunalltasksofaMapReducejobintheApplicationMaster'sJVMifthejobissmallenough.Thisway,youavoidtheoverheadofrequestingcontainersfromtheResourceManagerandaskingtheNodeManagerstostart(supposedlysmall)tasks.我无法判断这是否只是在幕后神奇地发生,还

hadoop - 如何配置Hive仓库路径?

我修改了这部分hive.metastore.warehouse.dir/user/hive/warehouselocationofdefaultdatabaseforthewarehousehive-default.xml.template我自己的路径。运行hive时,如果我尝试创建一个表,它说它可以创建file://mypath/etc..并且它仍在寻找/user/hive/warehouse。我做错什么了吗?我尝试创建hive-site.xml,但它似乎也不起作用。 最佳答案 修改hive-site.xml中的仓库路径如下:hi

hadoop - Hive,创建表 ___ 就像 ___ 存储为 ___

我在配置单元中有一个表存储为文本文件。我想将所有数据移动到另一个具有相同架构但存储为序列文件的表中。如何创建第二个表?我想使用配置单元createtablelike命令,但它不支持assequencefilehive>createtabletest_sqliketest_tstoredassequencefile;FAILED:ParseExceptionline1:33missingEOFat'stored'near'test_t'我正在寻找一种编程方式,以便我可以为更多表复制相同的过程。 最佳答案 CREATETABLEtest

hadoop - Apache hive : How to convert string to timestamp?

我正在尝试将REC_TIME列中的字符串转换为配置单元中的时间戳格式。例如:2016年7月31日星期日09:28:20=>2016-07-3109:28:20SELECTxxx,UNIX_TIMESTAMP(REC_TIME,"EMddHH:mm:sszyyyy")FROMwlogsLIMIT10;当我执行上面的SQL时,它返回一个NULL值。 最佳答案 试试这个:selectfrom_unixtime(unix_timestamp("SunJul3109:28:20UTC2016","EEEMMMddHH:mm:sszzzyyyy

sql - 如何在 Hive 中过滤掉具有 NaN 值的行?

我在Hue中运行一个hive表的求和函数,并得到NaN的返回值。这是我的代码:从hivedb.tb1中选择sum(v1);我不知道为什么它会给我一个NaN结果。我检查了我的任何v1值是否为空:select*fromhivedb.tb1wherev1isnull;,结果没有记录有空值。该表有1亿行,所以我无法对每条记录进行手动检查。有人知道我为什么会得到NaN结果吗?如果是因为我在某些行中有一些异常值,我该如何找到它们?感谢任何帮助。提前致谢!更新1我手动筛选了前1000行,幸运地在tb1中发现了一些异常的NaN值。这是由于前面步骤的一些舍入误差造成的。所以我的问题1可能得到了回答。如果

hadoop - 不能在 Hive 表列名中使用 "."

我正在使用Hive2.1.1并尝试在列名称中使用.创建一个表:CREATETABLE`test_table`(`field.with.dots`string);当我这样做时,我得到:FAILED:ParseExceptionline4:0Failedtorecognizepredicate')'.Failedrule:'[.,:]cannotbeusedincolumnnameincreatetablestatement.'incolumnspecification我一定是做错了什么,因为hivedocumentation说:InHiverelease0.13.0andlater,by