草庐IT

date - hive cast string to date in 'dd/MMM/yyyy' format order by and group by issue

我将日期存储为[27/Feb/2016:00:24:31+0530]。我想要27/Feb/2016中的日期格式,并且还想按它排序。我试过了this解决方案,但它以2016-02-27形式返回,并且也正确排序。SELECTTO_DATE(FROM_UNIXTIME(UNIX_TIMESTAMP(SUBSTR(time,2,11),'dd/MMM/yyyy')))ASreal_date,urlFROMcleanned_logsORDERBYreal_dateASC;为了获得所需的格式,我尝试使用date_format()函数。它在1.2.1中不可用,所以我从1.0.1切换到它。SELECT

hadoop - hive 查询 : Is there a way to use UDTF with `cluster by` ?

已解决:原来是我的UDTF出错了。我找到了一个修复程序,但我不太明白为什么它会起作用。当初我实现UDTF的时候,Eclipse提示initializeisdeprecated。但是如果我跳过它就会出错,所以我还是实现了它。我在那个方法里放了一个变量初始化,猜测init只做一次。该jar适用于一些更简单的场景,但如果我要将UDTF输出与UDF一起使用,则使用UDF输出来做一些事情,例如作弊的clusterby或insert,我得到了前面提到的错误。我的工程师friend发现initialize实际上被执行了不止一次。所以我只是将初始化放在process中,使用if检查变量是否为null,

hadoop - Sqoop 导入错误 : org. apache.hadoop.security.AccessControlException: Permission denied by sticky bit

我在Rhel7远程服务器中有一个单节点ClouderaCluster(CDH5.16)。我已经使用软件包安装了CDH。当我运行sqoop导入作业时,出现以下错误:Warning:/usr/lib/sqoop/../accumulodoesnotexist!Accumuloimportswillfail.Pleaseset$ACCUMULO_HOMEtotherootofyourAccumuloinstallation.19/06/0415:49:31INFOsqoop.Sqoop:RunningSqoopversion:1.4.6-cdh5.16.119/06/0415:49:31WA

hadoop - 带 ORDER BY 的 HIVE GROUP_CONCAT

我有一张table我期望这样的输出(将结果分组到一条记录中,group_concat应按值DESC对结果进行排序)。这是我试过的查询,SELECTid,CONCAT('{',CONCAT_WS(',',GROUP_CONCAT(CONCAT('"',key,'":"',value,'"'))),'}')ASvalueFROMtable_nameGROUPBYid我希望目标表中的值应该按源表值排序(降序)。为此,我尝试执行GROUP_CONCAT(...ORDERBYvalue)。看起来Hive不支持这个。有没有其他方法可以在配置单元中实现这一点? 最佳答案

hadoop - Hive Group by 自己加入后

各位,我们有一个要求,我们希望在使用self加入HIVE表后应用groupby子句。例如数据CUSTOMER_NAME、PRODUCT_NAME、PURCHASE_PRICEcustomer1,product1,20customer1,product2,30customer1,product1,25现在我们想通过考虑所有产品的总和以及CUSTOMER_NAME、PRODUCT_NAME的后续组结果集来获取客户(只计算价格总和后的前5名客户,子查询中不存在产品名称)selectcustomer_name,product_name,sum(purchase_price)fromcustom

hadoop - collect_set on array type with group by 在配置单元中

我有下表,其中包含id的重复项以及每个id的值数组,我想找出每个id的唯一值,该怎么做?CREATETABLEtest(idstring,valuesarray)当我运行以下命令时,它会抛出错误,因为collect_set仅支持原始类型值。selectid,collect_set(values)fromtsgroupbyid;错误:FAILED:UDFArgumentTypeExceptionOnlyprimitivetypeargumentsareacceptedbutarraywaspassedasparameter1. 最佳答案

java - 如何为 group by 编写 pig 代数 udf

我想编写一个pig代码来执行分组并生成31个字段的总和,但在此之前我需要做一些自定义处理,为此我编写了一个eval函数。我想如果我可以将GROUP和SUM操作包含到UDF中,我可以让它运行得更快。要做到这一点,我可以使用代数UDF如果是,我的inital()、intermed()和final()的返回模式会是什么样子,如果不是,我还能如何实现它。下面是我的代码,谢谢。a=LOAD'./a'usingPigStorage('|')AS(val:int,grp1,grp2,amt1:long,amt2:long,amt3...amt31:long);b=FOREACHaGENERATEmy

sql - Hive 查询在 group by 期间根据另一列选择一列

那里有类似的问题,但它们的解决方案并不能完全解决我的问题。考虑下表:idtypetime1a11a21b32b12b2我要的是时间最小的id和那个时间关联的type,所以结果应该是:idtypetime1a12b1(如果不同类型有时间上的关系,可以选择任何类型)我当前的查询如下所示:SELECTid,type,min(time)FROMtGROUPBYid,type;未能解决重复类型问题。有没有我可以做的查询来实现这一点?非常感谢 最佳答案 代替groupby,使用row_number():selectt.*from(selectt

sql - SELECT 子句中不存在聚合函数时的 GROUP BY 行为

我有一个表emp,其结构和数据如下:namedeptsalary---------------Jacka2Jilla1Tomb2Fredb1当我执行以下SQL时:SELECT*FROMempGROUPBYdept我得到以下结果:namedeptsalary---------------Jilla1Fredb1服务器根据什么决定返回Jill和Fred并排除Jack和Tom?我正在MySQL中运行此查询。注意1:我知道查询本身没有意义。我正在尝试调试“GROUPBY”场景的问题。我正在尝试了解此目的的默认行为。注意2:我习惯于编写与GROUPBY子句相同的SELECT子句(减去聚合字段)。

sql - SELECT 子句中不存在聚合函数时的 GROUP BY 行为

我有一个表emp,其结构和数据如下:namedeptsalary---------------Jacka2Jilla1Tomb2Fredb1当我执行以下SQL时:SELECT*FROMempGROUPBYdept我得到以下结果:namedeptsalary---------------Jilla1Fredb1服务器根据什么决定返回Jill和Fred并排除Jack和Tom?我正在MySQL中运行此查询。注意1:我知道查询本身没有意义。我正在尝试调试“GROUPBY”场景的问题。我正在尝试了解此目的的默认行为。注意2:我习惯于编写与GROUPBY子句相同的SELECT子句(减去聚合字段)。