我是apachepig的新手。我有如下数据。tempdata=(linsys4f-PORT42-0211201516244460,dnis=3007047505)(linsys4fPORT42-0211201516244460,incoming_tfn=8778816235,tfn_location=AshburnAvaya,ivr_location=AshburnAvaya,state=NC)(linsys4f-PORT42-0211201516244460,language=ENGLISH)(linsys4f-PORT42-0211201516244460,outcome=Tran
我正在尝试根据几个条件从“geocode”中提取“vertex_code”:SUBSTRING(geocode,0,2)---->Code00-51---->0170---->0361-78---->04Else---->00现在获得的“code”值必须与“geocode”值(前缀)连接,并再次与末尾的00(后缀)连接以形成“vertex_code”例如:geocode=44556677如果SUBSTRING(geocode,0,2)在00-51之间,则code=01因此顶点代码=014455667700下面是我的脚本:item=load'/user/item.txt'USINGPig
原来我有这样的结构:+-------+-------+----+----+----+-----+|time|type|s1|s2|id|p1|+-------+-------+----+----+----+-----+|10:30|send|a|b|1|110||10:35|send|c|d|1|120||10:31|reply|e|f|3|221||10:33|reply|a|c|1|210||10:34|send|a|a|3|113||10:32|reply|c|d|3|157|+-------+-------+----+----+----+-----+我想规范化表格:按id对条目
如何在ApachePig中使用2个for循环?我有如下输入数据:1a315b41b225a515c31a315c225b4中间输出:对于1计数总数。a和b,15和25相似1a61b215b415c525a525b4最终输出:需要1个最大计数1a615c525a5 最佳答案 A=load'test.input'usingPigStorage()as(index:int,id:chararray,count:int);B=GROUPAby(index,id);C=FOREACHBGENERATEflatten(group),SUM(A.
这个脚本运行良好data1=LOAD'/user/maria_dev/ml-100k/test/u3.data'AS(usesrID:int,movieID:int,rating:int,ratingTime:int);DUMPdata1;输出是当我通过错误使用FILTER然后PIGdata1=LOAD'/user/maria_dev/ml-100k/test/u3.data'AS(usesrID:int,movieID:int,rating:int,ratingTime:int);filterRowData1=filterdata1by(int)movieID==556;DUMPfi
这是我正在运行的代码:bigrams=LOAD's3://******'AS(bigram:chararray,year:int,occurrences:int,books:int);bg_tmp=filterbigramsBY(occurrences>=300)AND(books>=12);bg_tmp_2=GROUPbg_tmpALL;occ_cnt=FOREACHbg_tmp_2GENERATEbigram,SUM(bg_tmp_2.occurrences);x=LIMITocc_cnt100;DUMPx;这是我在计算occ_cnt时遇到的错误81201[main]ERRORor
我想写一个pig拉丁文脚本:我必须加载1951年之后的所有数据(不包括1951年)并过滤质量=1的数据按温度对数据分组,然后计算每个数据的最大年份温度。做了这个records=load'/user/a106524609/test.txt'usingPigStorage('')as(year:chararray,temperature:int,quality:int);rec1=filterrecordsbyyear>1951and(quality==1);我收到这个错误 最佳答案 您正在将年份加载到chararray字段并将其与19
我有这样一个数据文件1943491197591L19035631909523195396319128219766631913351990451192792A1912219242219712195994E现在使用pig脚本我想删除坏数据,比如删除那些有字符和空字段的行我试过这种方式records=load'/user/a106524609/test.txt'usingPigStorage('')as(year:chararray,temperature:int,quality:int);rec1=filterrecordsbytemperature!='null'and(quality!
我正在观看DougEadlineHadoop和Spark基础知识。我是Hadoop和Pig的新手,所以我很难理解这一行grunt>A=load'passwd'usingPigStorage(':'):变量'passwd'指的是什么?我的HDPHortonworks密码或其他密码?如果我去grunt>DUMPA;终端输出2019-07-1319:51:07,300[main]ERRORorg.apache.pig.tools.grunt.Grunt-ERROR2118:Inputpathdoesnotexist:hdfs://sandbox-hdp.hortonworks.com:802
我们正在使用Pig0.6来处理一些数据。我们数据的其中一列是以空格分隔的ID列表(例如:35521225)。我们正在尝试将其中一个ID映射到另一个包含2列映射的文件(因此第1列是我们的数据,第2列是第3方数据):3560095212159922551991126129我们编写了一个UDF,它接受列值(例如:“35521225”)和文件中的映射。然后,我们将拆分列值并遍历每个值,并从传入的映射中返回第一个映射值(认为这就是它在逻辑上的工作方式)。我们像这样在PIG中加载数据:data=LOAD'input.txt'USINGPigStorage()AS(name:chararray,ca