草庐IT

move_group

全部标签

date - hive cast string to date in 'dd/MMM/yyyy' format order by and group by issue

我将日期存储为[27/Feb/2016:00:24:31+0530]。我想要27/Feb/2016中的日期格式,并且还想按它排序。我试过了this解决方案,但它以2016-02-27形式返回,并且也正确排序。SELECTTO_DATE(FROM_UNIXTIME(UNIX_TIMESTAMP(SUBSTR(time,2,11),'dd/MMM/yyyy')))ASreal_date,urlFROMcleanned_logsORDERBYreal_dateASC;为了获得所需的格式,我尝试使用date_format()函数。它在1.2.1中不可用,所以我从1.0.1切换到它。SELECT

hadoop - 带 ORDER BY 的 HIVE GROUP_CONCAT

我有一张table我期望这样的输出(将结果分组到一条记录中,group_concat应按值DESC对结果进行排序)。这是我试过的查询,SELECTid,CONCAT('{',CONCAT_WS(',',GROUP_CONCAT(CONCAT('"',key,'":"',value,'"'))),'}')ASvalueFROMtable_nameGROUPBYid我希望目标表中的值应该按源表值排序(降序)。为此,我尝试执行GROUP_CONCAT(...ORDERBYvalue)。看起来Hive不支持这个。有没有其他方法可以在配置单元中实现这一点? 最佳答案

hadoop - Hive Group by 自己加入后

各位,我们有一个要求,我们希望在使用self加入HIVE表后应用groupby子句。例如数据CUSTOMER_NAME、PRODUCT_NAME、PURCHASE_PRICEcustomer1,product1,20customer1,product2,30customer1,product1,25现在我们想通过考虑所有产品的总和以及CUSTOMER_NAME、PRODUCT_NAME的后续组结果集来获取客户(只计算价格总和后的前5名客户,子查询中不存在产品名称)selectcustomer_name,product_name,sum(purchase_price)fromcustom

hadoop - collect_set on array type with group by 在配置单元中

我有下表,其中包含id的重复项以及每个id的值数组,我想找出每个id的唯一值,该怎么做?CREATETABLEtest(idstring,valuesarray)当我运行以下命令时,它会抛出错误,因为collect_set仅支持原始类型值。selectid,collect_set(values)fromtsgroupbyid;错误:FAILED:UDFArgumentTypeExceptionOnlyprimitivetypeargumentsareacceptedbutarraywaspassedasparameter1. 最佳答案

java - 如何为 group by 编写 pig 代数 udf

我想编写一个pig代码来执行分组并生成31个字段的总和,但在此之前我需要做一些自定义处理,为此我编写了一个eval函数。我想如果我可以将GROUP和SUM操作包含到UDF中,我可以让它运行得更快。要做到这一点,我可以使用代数UDF如果是,我的inital()、intermed()和final()的返回模式会是什么样子,如果不是,我还能如何实现它。下面是我的代码,谢谢。a=LOAD'./a'usingPigStorage('|')AS(val:int,grp1,grp2,amt1:long,amt2:long,amt3...amt31:long);b=FOREACHaGENERATEmy

hadoop - 用户组信息 : No groups available for user

我正尝试在mapreduce中提交远程作业,但出现错误[1]。我什至在远程hadoop的hdfs-site.xml中设置了内容[2],并更改了权限[3],但问题仍然存在。客户端是xeon,super用户是xubuntu。如何在mapreduce中添加远程用户提交权限?如何为xeon设置组?[1]2015-04-2305:57:35,648WARNorg.apache.hadoop.security.UserGroupInformation:Nogroupsavailableforuserxeon[2]dfs.web.ugixeon,webuser,webgroup[3]2041hdfs

sql - Hive 查询在 group by 期间根据另一列选择一列

那里有类似的问题,但它们的解决方案并不能完全解决我的问题。考虑下表:idtypetime1a11a21b32b12b2我要的是时间最小的id和那个时间关联的type,所以结果应该是:idtypetime1a12b1(如果不同类型有时间上的关系,可以选择任何类型)我当前的查询如下所示:SELECTid,type,min(time)FROMtGROUPBYid,type;未能解决重复类型问题。有没有我可以做的查询来实现这一点?非常感谢 最佳答案 代替groupby,使用row_number():selectt.*from(selectt

hadoop - Pig : How to send all Tuples to a UDF to be Processed without Grouping them? 或者如何在不分组的情况下将元组转换为包?

这就是我想要做的:A=LOAD'...'USINGPigStorage(',')AS(col1:int,col2:chararray);B=ORDERAbycol2;C=CUSTOM_UDF(A);CUSTOM_UDF遍历需要按顺序排列的元组。UDF会为每几个输入元组输出一个聚合元组;即,我不会以1:1的方式返回元组。本质上:publicclassCustomUdfextendsEvalFunc{publicTupleexec(Tupleinput)throwsIOException{AggregateaggregatedOutput=null;DataBagvalues=(DataB

sql - SELECT 子句中不存在聚合函数时的 GROUP BY 行为

我有一个表emp,其结构和数据如下:namedeptsalary---------------Jacka2Jilla1Tomb2Fredb1当我执行以下SQL时:SELECT*FROMempGROUPBYdept我得到以下结果:namedeptsalary---------------Jilla1Fredb1服务器根据什么决定返回Jill和Fred并排除Jack和Tom?我正在MySQL中运行此查询。注意1:我知道查询本身没有意义。我正在尝试调试“GROUPBY”场景的问题。我正在尝试了解此目的的默认行为。注意2:我习惯于编写与GROUPBY子句相同的SELECT子句(减去聚合字段)。

sql - SELECT 子句中不存在聚合函数时的 GROUP BY 行为

我有一个表emp,其结构和数据如下:namedeptsalary---------------Jacka2Jilla1Tomb2Fredb1当我执行以下SQL时:SELECT*FROMempGROUPBYdept我得到以下结果:namedeptsalary---------------Jilla1Fredb1服务器根据什么决定返回Jill和Fred并排除Jack和Tom?我正在MySQL中运行此查询。注意1:我知道查询本身没有意义。我正在尝试调试“GROUPBY”场景的问题。我正在尝试了解此目的的默认行为。注意2:我习惯于编写与GROUPBY子句相同的SELECT子句(减去聚合字段)。