草庐IT

test_hive

全部标签

hadoop - HIVE 分隔符\n ^M ​​问题

我有一个文件,其列由^A分隔,行由'\n'换行符分隔。我首先将它上传到HDFS,然后使用如下命令在Hive中创建表:CREATEEXTERNALTABLEIFNOTEXISTShtml_sample(tsstring,urlstring,htmlstring)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\001'LINESTERMINATEDBY'\n'LOCATION'/tmp/directoryname/';但是,当我为该表执行select语句时。原来是一团糟。表格如下所示:tsurlhtml10082013http://url.com/01.....

java - 如何在 Hadoop2 中指定 Hive 查询的 uberization?

Hadoop2中有一项名为uberization的新功能。例如,thisreference说:UberizationisthepossibilitytorunalltasksofaMapReducejobintheApplicationMaster'sJVMifthejobissmallenough.Thisway,youavoidtheoverheadofrequestingcontainersfromtheResourceManagerandaskingtheNodeManagerstostart(supposedlysmall)tasks.我无法判断这是否只是在幕后神奇地发生,还

hadoop - 如何配置Hive仓库路径?

我修改了这部分hive.metastore.warehouse.dir/user/hive/warehouselocationofdefaultdatabaseforthewarehousehive-default.xml.template我自己的路径。运行hive时,如果我尝试创建一个表,它说它可以创建file://mypath/etc..并且它仍在寻找/user/hive/warehouse。我做错什么了吗?我尝试创建hive-site.xml,但它似乎也不起作用。 最佳答案 修改hive-site.xml中的仓库路径如下:hi

hadoop - Hive,创建表 ___ 就像 ___ 存储为 ___

我在配置单元中有一个表存储为文本文件。我想将所有数据移动到另一个具有相同架构但存储为序列文件的表中。如何创建第二个表?我想使用配置单元createtablelike命令,但它不支持assequencefilehive>createtabletest_sqliketest_tstoredassequencefile;FAILED:ParseExceptionline1:33missingEOFat'stored'near'test_t'我正在寻找一种编程方式,以便我可以为更多表复制相同的过程。 最佳答案 CREATETABLEtest

hadoop - Apache hive : How to convert string to timestamp?

我正在尝试将REC_TIME列中的字符串转换为配置单元中的时间戳格式。例如:2016年7月31日星期日09:28:20=>2016-07-3109:28:20SELECTxxx,UNIX_TIMESTAMP(REC_TIME,"EMddHH:mm:sszyyyy")FROMwlogsLIMIT10;当我执行上面的SQL时,它返回一个NULL值。 最佳答案 试试这个:selectfrom_unixtime(unix_timestamp("SunJul3109:28:20UTC2016","EEEMMMddHH:mm:sszzzyyyy

sql - 如何在 Hive 中过滤掉具有 NaN 值的行?

我在Hue中运行一个hive表的求和函数,并得到NaN的返回值。这是我的代码:从hivedb.tb1中选择sum(v1);我不知道为什么它会给我一个NaN结果。我检查了我的任何v1值是否为空:select*fromhivedb.tb1wherev1isnull;,结果没有记录有空值。该表有1亿行,所以我无法对每条记录进行手动检查。有人知道我为什么会得到NaN结果吗?如果是因为我在某些行中有一些异常值,我该如何找到它们?感谢任何帮助。提前致谢!更新1我手动筛选了前1000行,幸运地在tb1中发现了一些异常的NaN值。这是由于前面步骤的一些舍入误差造成的。所以我的问题1可能得到了回答。如果

hadoop - 不能在 Hive 表列名中使用 "."

我正在使用Hive2.1.1并尝试在列名称中使用.创建一个表:CREATETABLE`test_table`(`field.with.dots`string);当我这样做时,我得到:FAILED:ParseExceptionline4:0Failedtorecognizepredicate')'.Failedrule:'[.,:]cannotbeusedincolumnnameincreatetablestatement.'incolumnspecification我一定是做错了什么,因为hivedocumentation说:InHiverelease0.13.0andlater,by

hadoop - 将空字符串选择/视为 NULL 的 Hive 解决方案

我有一个包含csv数据的Hive外部表。一些字符串字段的值为“空”。现在,我想选择数据并以ORC格式插入到其他表中,并使用“select*fromfirstinsertintosecond”之类的查询。我想用实际的NULL值替换字符串“null”。一种解决方案可以将“null”替换为空白,并将我的表格设计为将空白视为null。那可能行得通。但是,如果数据中存在任何空白值,这些值也将被视为NULL。我想到的另一点是,该表有大量带有此类字符串的列。因此,如果解决方案需要选择一个列并执行一些操作;我将不得不写一个很长的查询。但如果没有其他选择,也可以这样做。请提出解决方案。

hadoop - 从 Hive 中拆分数组的末尾进行评估

我需要拆分一个看起来像“B1/AHU/_1/RoomTemp”、“B1/AHU/_1/109/Temp”的标签,因此要使用一个字段数量可变的变量。我有兴趣获得最后一个字段,或者有时是最后一个字段。我很失望地发现负索引不是从右边开始计数的,它允许我像在Python中那样在Hive中选择数组的最后一个元素。selecttag,split(tag,'[/]')[-1]fromsensor当这也不起作用时,我感到更惊讶:selecttag,split(tag,'[/]')[size(split(tag,'[\]'))-1]fromsensor两次都给我这样的错误:FAILED:Semantic

hadoop - 从 HDFS 导入数据到 Hive 表

我的数据在HDFS的data/2011/01/13/0100/file中,每个文件都包含以制表符分隔的数据,比如名称、ip、url。我想在Hive中创建一个表并从hdfs中导入数据,表中应包含时间、名称、ip和url。如何使用Hive导入这些?r数据应该采用其他格式以便我也可以导入时间? 最佳答案 您需要创建用于加载文件的表,然后使用LOADDATA命令将文件加载到Hive表中。查看Hivedocumentation了解要使用的精确语法。问候,杰夫 关于hadoop-从HDFS导入数据到