HIVE2

hadoop - Apache hive : How to convert string to timestamp?

我正在尝试将REC_TIME列中的字符串转换为配置单元中的时间戳格式。例如:2016年7月31日星期日09:28:20=>2016-07-3109:28:20SELECTxxx,UNIX_TIMESTAMP(REC_TIME,"EMddHH:mm:sszyyyy")FROMwlogsLIMIT10;当我执行上面的SQL时，它返回一个NULL值。最佳答案试试这个:selectfrom_unixtime(unix_timestamp("SunJul3109:28:20UTC2016","EEEMMMddHH:mm:sszzzyyyy

sql - 如何在 Hive 中过滤掉具有 NaN 值的行？

我在Hue中运行一个hive表的求和函数，并得到NaN的返回值。这是我的代码:从hivedb.tb1中选择sum(v1);我不知道为什么它会给我一个NaN结果。我检查了我的任何v1值是否为空:select*fromhivedb.tb1wherev1isnull;，结果没有记录有空值。该表有1亿行，所以我无法对每条记录进行手动检查。有人知道我为什么会得到NaN结果吗？如果是因为我在某些行中有一些异常值，我该如何找到它们？感谢任何帮助。提前致谢!更新1我手动筛选了前1000行，幸运地在tb1中发现了一些异常的NaN值。这是由于前面步骤的一些舍入误差造成的。所以我的问题1可能得到了回答。如果

何在 Hive code strong NaN sql hadoop hue

hadoop - 不能在 Hive 表列名中使用 "."

我正在使用Hive2.1.1并尝试在列名称中使用.创建一个表:CREATETABLE`test_table`(`field.with.dots`string);当我这样做时，我得到:FAILED:ParseExceptionline4:0Failedtorecognizepredicate')'.Failedrule:'[.,:]cannotbeusedincolumnnameincreatetablestatement.'incolumnspecification我一定是做错了什么，因为hivedocumentation说:InHiverelease0.13.0andlater,by

列名 amp code section table hadoop hive hiveql emr

hadoop - 将空字符串选择/视为 NULL 的 Hive 解决方案

我有一个包含csv数据的Hive外部表。一些字符串字段的值为“空”。现在，我想选择数据并以ORC格式插入到其他表中，并使用“select*fromfirstinsertintosecond”之类的查询。我想用实际的NULL值替换字符串“null”。一种解决方案可以将“null”替换为空白，并将我的表格设计为将空白视为null。那可能行得通。但是，如果数据中存在任何空白值，这些值也将被视为NULL。我想到的另一点是，该表有大量带有此类字符串的列。因此，如果解决方案需要选择一个列并执行一些操作；我将不得不写一个很长的查询。但如果没有其他选择，也可以这样做。请提出解决方案。

空字符视为 section null hadoop hive

hadoop - 从 Hive 中拆分数组的末尾进行评估

我需要拆分一个看起来像“B1/AHU/_1/RoomTemp”、“B1/AHU/_1/109/Temp”的标签，因此要使用一个字段数量可变的变量。我有兴趣获得最后一个字段，或者有时是最后一个字段。我很失望地发现负索引不是从右边开始计数的，它允许我像在Python中那样在Hive中选择数组的最后一个元素。selecttag,split(tag,'[/]')[-1]fromsensor当这也不起作用时，我感到更惊讶:selecttag,split(tag,'[/]')[size(split(tag,'[\]'))-1]fromsensor两次都给我这样的错误:FAILED:Semantic

末尾 hadoop section code pre hive

hadoop - 从 HDFS 导入数据到 Hive 表

我的数据在HDFS的data/2011/01/13/0100/file中，每个文件都包含以制表符分隔的数据，比如名称、ip、url。我想在Hive中创建一个表并从hdfs中导入数据，表中应包含时间、名称、ip和url。如何使用Hive导入这些？r数据应该采用其他格式以便我也可以导入时间？最佳答案您需要创建用于加载文件的表，然后使用LOADDATA命令将文件加载到Hive表中。查看Hivedocumentation了解要使用的精确语法。问候，杰夫关于hadoop-从HDFS导入数据到

hadoop HDFS section Hive 建一

jdbc - 汇集 Hive JDBC 连接的最佳实践是什么

我正在使用HiveJDBC驱动程序对我的HDFS数据存储执行类似sql的查询。我一直在尝试使用c3p0来处理连接池。我不太确定这是正确的方法，因为Hive查询有时会花费很长时间，这意味着连接将保持很长时间而不被释放回池中，我正在努力为最大数量想一个正确的设置数字c3p0配置中的连接也是如此。是否有池化配置单元jdbc连接的最佳实践？c3p0？DBCP？MAX_POOL_SIZE怎么样？它应该大于RDB的正常设置吗？最佳答案太好了，所以你提到的线程中的问题实际上是我很久以前问过的:)看看如何在您的用例中使用它会很有趣。但让我告诉您

汇集 jdbc section 长时的 hadoop connection-pooling hive hdfs

hadoop - 使用 hive/sql 和 spark 读取 json 键值

我正在尝试将此json文件读入配置单元表，顶级键即1,2..，此处不一致。{"1":"{\"time\":1421169633384,\"reading1\":130.875969,\"reading2\":227.138275}","2":"{\"time\":1421169646476,\"reading1\":131.240628,\"reading2\":226.810211}","position":0}我的hive表中只需要时间和读数1,2，因为列会忽略位置。我还可以结合使用配置单元查询和sparkmap-reduce代码。感谢您的帮助。更新，这是我正在尝试的valhqlC

hadoop spark reading 34 scala hive apache-spark apache-spark-sql

java - 无法通过 JAVA 连接到 HIVE2

引用Hive2创建了一个简单的java程序来连接到HIVE2服务器(非本地)，并在eclipse的类路径中的上述链接中添加了所有提到的jar，但是当我运行代码时，它会抛出一个错误:09:42:35,580INFOUtils:285-Suppliedauthorities:hdstg-c01-edge-03:2000009:42:35,583INFOUtils:372-Resolvedauthority:hdstg-c01-edge-03:2000009:42:35,656INFOHiveConnection:189-WilltrytoopenclienttransportwithJDB

HIVE2 java org testng hadoop jdbc hive hiveql

python - Hive 和 Spark 窗口函数的数据洗牌

对已经在同一节点上的数据使用Hive窗口函数时，是否会发生数据混洗？具体在下面的例子中，在使用窗口函数之前，数据已经被'City'用Sparkrepartition()函数重新分区，这应该确保城市“A”的所有数据在同一节点上共同本地化(假设一个城市的数据可以适合一个节点)。df=sqlContext.createDataFrame([('A','1',2009,"data1"),('A','1',2015,"data2"),('A','22',2015,"data3"),('A','22',2016,"data4"),('BB','333',2014,"data5"),('BB','3

洗牌 python data 34 Spark hadoop apache-spark hive pyspark

85 86 878889 90 91