By

date - hive cast string to date in 'dd/MMM/yyyy' format order by and group by issue

我将日期存储为[27/Feb/2016:00:24:31+0530]。我想要27/Feb/2016中的日期格式，并且还想按它排序。我试过了this解决方案，但它以2016-02-27形式返回，并且也正确排序。SELECTTO_DATE(FROM_UNIXTIME(UNIX_TIMESTAMP(SUBSTR(time,2,11),'dd/MMM/yyyy')))ASreal_date,urlFROMcleanned_logsORDERBYreal_dateASC;为了获得所需的格式，我尝试使用date_format()函数。它在1.2.1中不可用，所以我从1.0.1切换到它。SELECT

hadoop - hive 查询 : Is there a way to use UDTF with `cluster by` ?

已解决:原来是我的UDTF出错了。我找到了一个修复程序，但我不太明白为什么它会起作用。当初我实现UDTF的时候，Eclipse提示initializeisdeprecated。但是如果我跳过它就会出错，所以我还是实现了它。我在那个方法里放了一个变量初始化，猜测init只做一次。该jar适用于一些更简单的场景，但如果我要将UDTF输出与UDF一起使用，则使用UDF输出来做一些事情，例如作弊的clusterby或insert，我得到了前面提到的错误。我的工程师friend发现initialize实际上被执行了不止一次。所以我只是将初始化放在process中，使用if检查变量是否为null，

cluster hadoop code section hive

hadoop - Sqoop 导入错误 : org. apache.hadoop.security.AccessControlException: Permission denied by sticky bit

我在Rhel7远程服务器中有一个单节点ClouderaCluster(CDH5.16)。我已经使用软件包安装了CDH。当我运行sqoop导入作业时，出现以下错误:Warning:/usr/lib/sqoop/../accumulodoesnotexist!Accumuloimportswillfail.Pleaseset$ACCUMULO_HOMEtotherootofyourAccumuloinstallation.19/06/0415:49:31INFOsqoop.Sqoop:RunningSqoopversion:1.4.6-cdh5.16.119/06/0415:49:31WA

hadoop AccessControlException apache java hdfs sqoop cloudera cloudera-cdh

hadoop - 带 ORDER BY 的 HIVE GROUP_CONCAT

我有一张table我期望这样的输出(将结果分组到一条记录中，group_concat应按值DESC对结果进行排序)。这是我试过的查询，SELECTid,CONCAT('{',CONCAT_WS(',',GROUP_CONCAT(CONCAT('"',key,'":"',value,'"'))),'}')ASvalueFROMtable_nameGROUPBYid我希望目标表中的值应该按源表值排序(降序)。为此，我尝试执行GROUP_CONCAT(...ORDERBYvalue)。看起来Hive不支持这个。有没有其他方法可以在配置单元中实现这一点？最佳答案

GROUP_CONCAT hadoop 39 section value hive hiveql hue

hadoop - Hive Group by 自己加入后

各位，我们有一个要求，我们希望在使用self加入HIVE表后应用groupby子句。例如数据CUSTOMER_NAME、PRODUCT_NAME、PURCHASE_PRICEcustomer1,product1,20customer1,product2,30customer1,product1,25现在我们想通过考虑所有产品的总和以及CUSTOMER_NAME、PRODUCT_NAME的后续组结果集来获取客户(只计算价格总和后的前5名客户，子查询中不存在产品名称)selectcustomer_name,product_name,sum(purchase_price)fromcustom

hadoop Group customer customer_name name hive

hadoop - collect_set on array type with group by 在配置单元中

我有下表，其中包含id的重复项以及每个id的值数组，我想找出每个id的唯一值，该怎么做？CREATETABLEtest(idstring,valuesarray)当我运行以下命令时，它会抛出错误，因为collect_set仅支持原始类型值。selectid,collect_set(values)fromtsgroupbyid;错误:FAILED:UDFArgumentTypeExceptionOnlyprimitivetypeargumentsareacceptedbutarraywaspassedasparameter1. 最佳答案

配置单 collect_set code section hadoop hive

java - 如何为 group by 编写 pig 代数 udf

我想编写一个pig代码来执行分组并生成31个字段的总和，但在此之前我需要做一些自定义处理，为此我编写了一个eval函数。我想如果我可以将GROUP和SUM操作包含到UDF中，我可以让它运行得更快。要做到这一点，我可以使用代数UDF如果是，我的inital()、intermed()和final()的返回模式会是什么样子，如果不是，我还能如何实现它。下面是我的代码，谢谢。a=LOAD'./a'usingPigStorage('|')AS(val:int,grp1,grp2,amt1:long,amt2:long,amt3...amt31:long);b=FOREACHaGENERATEmy

何为编写 section amt grp java hadoop apache-pig hdfs

sql - Hive 查询在 group by 期间根据另一列选择一列

那里有类似的问题，但它们的解决方案并不能完全解决我的问题。考虑下表:idtypetime1a11a21b32b12b2我要的是时间最小的id和那个时间关联的type，所以结果应该是:idtypetime1a12b1(如果不同类型有时间上的关系，可以选择任何类型)我当前的查询如下所示:SELECTid,type,min(time)FROMtGROUPBYid,type;未能解决重复类型问题。有没有我可以做的查询来实现这一点？非常感谢最佳答案代替groupby，使用row_number():selectt.*from(selectt

group Hive code section pre sql hadoop group-by aggregate

sql - SELECT 子句中不存在聚合函数时的 GROUP BY 行为

我有一个表emp，其结构和数据如下:namedeptsalary---------------Jacka2Jilla1Tomb2Fredb1当我执行以下SQL时:SELECT*FROMempGROUPBYdept我得到以下结果:namedeptsalary---------------Jilla1Fredb1服务器根据什么决定返回Jill和Fred并排除Jack和Tom？我正在MySQL中运行此查询。注意1:我知道查询本身没有意义。我正在尝试调试“GROUPBY”场景的问题。我正在尝试了解此目的的默认行为。注意2:我习惯于编写与GROUPBY子句相同的SELECT子句(减去聚合字段)。

SELECT GROUP code section strong sql mysql

sql - SELECT 子句中不存在聚合函数时的 GROUP BY 行为

SELECT GROUP code section strong sql mysql

214 215 216217218 219 220