PIG_HOME

hadoop - 如何在 Apache Pig 中合并相同关系的行(项目)

我是apachepig的新手。我有如下数据。tempdata=(linsys4f-PORT42-0211201516244460,dnis=3007047505)(linsys4fPORT42-0211201516244460,incoming_tfn=8778816235,tfn_location=AshburnAvaya,ivr_location=AshburnAvaya,state=NC)(linsys4f-PORT42-0211201516244460,language=ENGLISH)(linsys4f-PORT42-0211201516244460,outcome=Tran

何在 hadoop location incoming_tfn ivr_location apache-pig

hadoop - PIG 中的 CASE 语句

我正在尝试根据几个条件从“geocode”中提取“vertex_code”:SUBSTRING(geocode,0,2)---->Code00-51---->0170---->0361-78---->04Else---->00现在获得的“code”值必须与“geocode”值(前缀)连接，并再次与末尾的00(后缀)连接以形成“vertex_code”例如:geocode=44556677如果SUBSTRING(geocode,0,2)在00-51之间，则code=01因此顶点代码=014455667700下面是我的脚本:item=load'/user/item.txt'USINGPig

hadoop CASE geocode CONCAT code apache-pig

hadoop - Q : how to unnest bags from complicated data structure in PIG

原来我有这样的结构:+-------+-------+----+----+----+-----+|time|type|s1|s2|id|p1|+-------+-------+----+----+----+-----+|10:30|send|a|b|1|110||10:35|send|c|d|1|120||10:31|reply|e|f|3|221||10:33|reply|a|c|1|210||10:34|send|a|a|3|113||10:32|reply|c|d|3|157|+-------+-------+----+----+----+-----+我想规范化表格:按id对条目

complicated structure events code 条目 hadoop nested apache-pig bag

hadoop - 如何在 Apache Pig 中使用 2 个 for 循环

如何在ApachePig中使用2个for循环？我有如下输入数据:1a315b41b225a515c31a315c225b4中间输出:对于1计数总数。a和b，15和25相似1a61b215b415c525a525b4最终输出:需要1个最大计数1a615c525a5 最佳答案 A=load'test.input'usingPigStorage()as(index:int,id:chararray,count:int);B=GROUPAby(index,id);C=FOREACHBGENERATEflatten(group),SUM(A.

何在 hadoop section code pre apache-pig

hadoop - pig FILTER ERROR 1000 : Error during parsing. 遇到

这个脚本运行良好data1=LOAD'/user/maria_dev/ml-100k/test/u3.data'AS(usesrID:int,movieID:int,rating:int,ratingTime:int);DUMPdata1;输出是当我通过错误使用FILTER然后PIGdata1=LOAD'/user/maria_dev/ml-100k/test/u3.data'AS(usesrID:int,movieID:int,rating:int,ratingTime:int);filterRowData1=filterdata1by(int)movieID==556;DUMPfi

parsing hadoop filterRowData1 section filterRowData apache-pig hortonworks-sandbox

hadoop - 尝试使用 Apache Pig 聚合数据时出错

这是我正在运行的代码:bigrams=LOAD's3://******'AS(bigram:chararray,year:int,occurrences:int,books:int);bg_tmp=filterbigramsBY(occurrences>=300)AND(books>=12);bg_tmp_2=GROUPbg_tmpALL;occ_cnt=FOREACHbg_tmp_2GENERATEbigram,SUM(bg_tmp_2.occurrences);x=LIMITocc_cnt100;DUMPx;这是我在计算occ_cnt时遇到的错误81201[main]ERRORor

时出 hadoop bg_tmp tmp section apache-pig

hadoop - 使用年份在 pig 中加载数据时出错

我想写一个pig拉丁文脚本:我必须加载1951年之后的所有数据(不包括1951年)并过滤质量=1的数据按温度对数据分组，然后计算每个数据的最大年份温度。做了这个records=load'/user/a106524609/test.txt'usingPigStorage('')as(year:chararray,temperature:int,quality:int);rec1=filterrecordsbyyear>1951and(quality==1);我收到这个错误最佳答案您正在将年份加载到chararray字段并将其与19

时出中加 section int records hadoop hdfs apache-pig

hadoop - 使用 pig 从数据文件中删除坏数据

我有这样一个数据文件1943491197591L19035631909523195396319128219766631913351990451192792A1912219242219712195994E现在使用pig脚本我想删除坏数据，比如删除那些有字符和空字段的行我试过这种方式records=load'/user/a106524609/test.txt'usingPigStorage('')as(year:chararray,temperature:int,quality:int);rec1=filterrecordsbytemperature!='null'and(quality!

hadoop pig 39 code section hdfs apache-pig

hadoop - Pig passwd指的是什么？

我正在观看DougEadlineHadoop和Spark基础知识。我是Hadoop和Pig的新手，所以我很难理解这一行grunt>A=load'passwd'usingPigStorage(':'):变量'passwd'指的是什么？我的HDPHortonworks密码或其他密码？如果我去grunt>DUMPA;终端输出2019-07-1319:51:07,300[main]ERRORorg.apache.pig.tools.grunt.Grunt-ERROR2118:Inputpathdoesnotexist:hdfs://sandbox-hdp.hortonworks.com:802

hadoop passwd code section apache-pig

hadoop - 在另一个关系上使用 FOREACH 时将关系传递给 PIG UDF？

我们正在使用Pig0.6来处理一些数据。我们数据的其中一列是以空格分隔的ID列表(例如:35521225)。我们正在尝试将其中一个ID映射到另一个包含2列映射的文件(因此第1列是我们的数据，第2列是第3方数据):3560095212159922551991126129我们编写了一个UDF，它接受列值(例如:“35521225”)和文件中的映射。然后，我们将拆分列值并遍历每个值，并从传入的映射中返回第一个映射值(认为这就是它在逻辑上的工作方式)。我们像这样在PIG中加载数据:data=LOAD'input.txt'USINGPigStorage()AS(name:chararray,ca

传递 FOREACH chararray section code hadoop apache-pig

88 89 909192 93 94