两列_草庐IT

hadoop - 如何在 pig 中按项目分组的两列

我已经从“n”列中生成了两列(起点和终点)。现在我想为这两列组合生成计数。我无法得到结果。我收到错误消息，错误1070:无法使用导入解析计数:下面是我的脚本，mydata=load'/Projects/Flightdata/1987/Rawdata'usingPigStorage(',')as(year:int,month:int,dom:int,dow:int,deptime:long,crsdeptime:long,arrtime:long,crsarrtime:long,uniqcarcode:chararray,flightnum:long,tailnum:chararray,

何在 hadoop long section chararray apache-pig

hadoop - 使用 Pig 计算两列之间的平均值

我有一个包含三列的文件，分别代表日期和最小/最大温度值。010120104.515.9我需要计算每一天的平均值。使用UDF似乎很容易做到这一点，但我想知道没有它是否有办法做到这一点。我设法实现了这样的事情(连接温度然后使它们变平)但对我来说它似乎太复杂了:table=LOAD'e7/temp.csv'USINGPigStorage('\t')as(day:chararray,min:float,max:float);day_group=FOREACHtableGENERATEday,FLATTEN(TOKENIZE(CONCAT(CONCAT((chararray)min,','),(

hadoop Pig day section group mapreduce apache-pig

hadoop - 如何找到 Pig 中一列的平均值和两列相减的平均值？

我不熟悉使用PigLatin编写脚本。我坚持要编写一个pig脚本，它会找到列值的平均值，还会找到两列之间相减值的平均值。我正在从具有如下开始时间和结束时间列的csv文件中读取数据:"starttime","endtime","23","46","32","49","54","59"目前我试过的代码如下:file=LOAD'/project/timestamp.csv'UsingPigStorage(',')AS(st:int,et:int);start_ts=FOREACHfileGENERATEst;grouped=groupstart_tsbystILLUSTRATEgrouped

hadoop Pig section 34 39 apache-pig bigdata

scala - 如何根据两列订购spark RDD

我有以下RDD数据集:ABC[G4,G3,G1]3FFF[G5,G4,G3]3CDE[G5,G4,G3,G2]4XYZ[G4,G3]2需要先按最后一列desc排序，如果最后一列相同，则按第一个元组项desc顺序排序。预期的结果是CDE[G5,G4,G3,G2]4FFF[G5,G4,G3]3ABC[G4,G3,G1]3XYZ[G4,G3]2提前致谢。最佳答案您可以使用sortBy:rdd.sortBy(r=>(r._3,r._2(0)),false)上面的r._3代表最后一列，r._2(0)代表第二列的第一个元素(是一个数组),而

订购 scala 34 code section hadoop apache-spark rdd

hadoop - 我如何使用 sqoop 从 HDFS 导入并在导入时合并表的两列？

我可以在导入或导出时合并两列或多列吗？假设我在DBMSID、FIRST_NAME、LAST_NAME中有3列，我想将其加载为ID、NAME只有两列。那我该怎么做呢？最佳答案试试下面的选项sqoopimport--connect--username--password--query"selectID,CONCAT(FIRST_NAME,LAST_NAME)fromtable"--target-dir因为你没有提到你的数据库和表名，所以我用通用形式写了。关于hadoop-我如何使用sq

入时 hadoop section NAME stackoverflow hdfs sqoop sqoop2

python - 如何在 Hive 中将一列拆分为两列

在我的Hive表中，我有一个名为YearMonth的列，其值类似于“Jul1998”。我需要将每一行中的字符串拆分为月份('Jul')和年份('1998)，并将它们分别添加到Hive的新列中。不幸的是，我的代码没有正确执行并在每隔一行中添加一个NULL实例，如下所示:我采取了以下步骤来获得上述输出:创建了一个split.py文件以将字符串'Jul1998'拆分为'Jul'和'1998#!/usr/bin/pythonimportsysforlineinsys.stdin:Month=line[:3]Year=line[3:]print'\t'.join([Month,Year])然后我

何在 python code section yearmonth hadoop split hive user-defined-functions

hadoop - 有没有办法在 Hive HQL 中将两列相加到另一列？

我希望获得每天、每周和每月发送的消息数量的运行总和。大约有500种不同的消息类型。我有以下表格:Tablename:messagesintmessage_typeBIGINTnum_sentstringdateTablename:statsintmessage_typeBIGINTnum_sent_todayBIGINTnum_sent_weekBIGINTnum_sent_month表格消息每天更新为今天的新行。我可以每天运行一个配置单元查询来更新stats表吗？请注意，我无法通过直接使用WHEREdate>=30daysago查询消息表来获取运行计数，因为该表太大。我必须改为从表统

相加 hadoop sent num num_sent_today mapreduce hive hiveql

hadoop - HBase 过滤器比较两列

例如，假设每行包含三列:family1:A='10'family1:B='45'family1:C='35'1)有没有办法制作一个HBase过滤器，它只返回带有A>B的行？2)有没有办法制作一个HBase过滤器，它只返回带有(A-B)>C的行？最佳答案不!问题是即使在同一行和家族中，扫描仪也不会真正随机访问限定符。因此，如果他们要尝试制作这样的过滤器，他们将不得不来回跳转，现在阅读A，现在阅读B，等等。根据您的用例，您可以自己在另一个限定符中具体化差异，或者使用map-reduce作业。

hadoop HBase section code family1 bigdata

sql - HiveQL:如何删除基于两列的重复行

我正在创建一个无向图表，如下所示。+-------------------+------------------------+----------------------+|id|node_a|node_b|+-------------------+------------------------+----------------------+|1|a|b|+-------------------+------------------------+----------------------+|2|a|c|+-------------------+-------------------

HiveQL sql node section node_a hadoop hive

sql - 使用sql hive比较两列中的值并在条件基础上返回值

我有两列，我想根据两者的比较获得输出。我的数据有点像:CustomerIdstatus100A100B101B102A103A103B因此，客户可以具有状态A或B或两者，我必须根据客户ID将它们分开以获得状态。如果状态A和B则返回happy，如果只有A，则返回Avg，如果只有B，则返回Sad。最佳答案试试下面的查询，SELECTDISTINCTCustomer_Id,(CASEWHENCOUNT(*)OVER(PARTITIONBYCustomer_Id)>1THEN'happy'WHENTstatus='A'THEN'Avg'

sql hive section Customer Customer_Id hadoop