草庐IT

max_columns

全部标签

hadoop - 配置单元 : select row with column having maximum value without join

在表上编写配置单元查询以选择列中具有最大值的行例如,有包含以下数据的表格:keyvalueupdated_at1"a"11"b"21"c"3需要选择最后更新的行。当前使用以下逻辑selecttab1.*fromtable_nametab1joinselecttab2.key,max(tab2.updated_at)asmax_updatedfromtable_nametab2ontab1.key=tab2.keyandtab1.updated_at=tab2.max_updated;还有其他更好的方法吗? 最佳答案 如果update

mysql - 失败 : SemanticException Column line_id Found in more than One Tables/Subqueries

运行此配置单元脚本时出现以下错误。INSERTOVERWRITETABLEfoo_testPARTITION(ds='${DAY}')SELECTdt1.time,dt1.line_id,dt1.foo_id,dt1.bar_codeFROMtest_logsdt1JOIN(SELECTMIN(time)asfoo_time,line_id,foo_idFROMtest_logsWHERE(ds>='2015-02-10')ANDds='2015-02-10')ANDdt1.ds如何在没有错误的情况下运行此配置单元脚本? 最佳答案

Hadoop Pig Max - 输出不正确

我在使用一个看似简单的PIGMAX函数时遇到了一些问题,但它对我不起作用。我做了一个分组,计算了总和。C3=FOREACHC2GENERATEgroup,SUM(C1.figures);我收到以下输出(Peter,345)(Paul,459)(Andi,500)现在我想得到最大值,这样输出就是(Andi,500)我正在尝试下面的代码C4=FOREACHC3GENERATE$0as(id:chararray),$1as(id2:long);C5=GROUPC4ALL;C6=FOREACHC5GENERATEC4.id,MAX(C4.id2);但是作为输出我得到了({Peter,Paul,

database - Hive 中 collect_list(column) 的最大值

我在Hive中使用以下命令。并得到正确的结果。selectacct_id,collect_list(expr_dt)fromexperiences>groupbyacct_id;输出:900["2015-03-31"]707["2015-03-31","2014-12-10"]903["2015-03-31"]-435["2015-03-31"]718["2015-03-31","2014-06-03"]我想获取每个帐户的最大日期。当我尝试执行以下查询时出现错误。selectacct_id,max(collect_list(expr_dt))fromexperiences>groupb

hadoop - Sqoop 函数 '--map-column-hive' 被忽略

我正在尝试将文件作为parquet导入到配置单元中,而--map-column-hivecolumn_name=timestamp被忽略。column_name列最初是sql中的datetime类型,它在parquet中将其转换为bigint。我想通过sqoop将它转换为时间戳格式,但它不起作用。sqoopimport\--tabletable_name\--drivercom.microsoft.sqlserver.jdbc.SQLServerDriver\--connectjdbc:sqlserver://servername\--usernameuser--passwordpw\

scala - Spark : split only one column in dataframe and keep remaining columns as it is

我正在读取spark数据框中的文件。在第一列中,我将得到两个用“_”连接的值。我需要将第一列拆分为两列,并保持其余列不变。我将Scala与Spark结合使用例如:col1col2col3a_1xyzabcb_1lmnopq我需要有新的DF作为:col1_1col1_2col2col3a1xyzabcb1lmnopq只有一列需要拆分成两列。我尝试使用带有df.select的拆分函数,但我需要为剩余的列编写选择并考虑具有100列的不同文件,我想对所有文件使用可重用代码。 最佳答案 你可以这样做:importspark.implicits

sql - 使用 MAX 的子句不能像我在 HIVE 查询中预期的那样工作

我正在尝试选择仅匹配表中最大DATE1列和前一个月的记录。我曾尝试使用标准的having子句语法编写此代码,但这没有用,所以我能够使用CTE获得我期望的结果。该解决方案应该适用于我正在尝试做的事情,但我更想了解为什么HAVING子句不起作用。在这些例子中MAX(DATE1)=2018-02-28查询我期待的工作selectID,sum(money)asmoney,date1fromtable1groupbyID,date1havingdate1betweenadd_months(max(date1),-1)andmax(date1)这将返回类似于此的结果集|ID|Money|date1

sql - 如何用 Hive 做 Max in count(*)?

我有两个表:飞行:年份,产地机场:代码,名称这是一个数据样本:飞:1989,SF1989,SF1989,NY1993,NY1998,Par1998,Par1998,NY机场:SF,InternationalAirportNY,InterAirPar,CharlesdeGaulle我想获得每年使用最多的机场。所以首先我做了这个请求来获取每个机场每年出现的次数:SELECTv.Year,a.airport,count(*)FromairportsaJOINVolvON(a.iata=v.Dest)GroupByv.Year,a.airportORDERBYYearASC,airportAS

hadoop - MIn max group wise 和 filter without join in pig

我正在尝试为每个组找到(max+min)/2。以下是我的架构UrlXpathsCount:{url:chararray,leafpathstr:chararray,urlpath_count:long}我正在尝试按url字段对其进行分组byUrl=GROUPUrlXpathsCountbyurl;我正在尝试通过以下方式找到(max+min)/2。midRangeByUrl=FOREACHbyUrl{urls_desc=orderUrlXpathsCountbyurlpath_countdesc;urls_max=limiturls_desc1;urls_asc=orderUrlXpat

postgresql - 当 Hawq 投诉 : missing data for column "SoldToAddr2" 时如何解决错误

我们有一个小型的关键hadoop-hawq系统集群。我们必须读取一个外部表。即从ext_table中选择*但是当我在Hawq中发出关于以下错误的投诉时:ErrorHawqcomplaintsfor:missingdataforcolumn"SoldToAddr2"我们尝试了以下操作:我们尝试在ext_table定义的格式子句中使用不同的特殊字符:forex:CREATEREADABLEEXTERNALTABLEext_table("ID"INTEGER,timetimestamp,"Customer"char(7),"Name"varchar,"ShortName"char(10),"