草庐IT

hadoop - bash : syntax error near unexpected token `(' - PIG, CentOs

我正在尝试在pig中执行以下命令7369,SMITH,CLERK,800.00,null,207499,ALLEN,SALESMAN,1600.00,300.00,30脚本emp_bag=LOAD'/home/training/dvs/emp.csv'usingPigStorage(',')AS(eno:int,ename:chararray,job:chararray,sal:int,comm:int,deptno:int);出现以下错误bash:syntaxerrornearunexpectedtoken`('请帮助解决这个问题。 最佳答案

hadoop - 如何在具有多个字段的 pig 中加入两个关系

我有两个CSV文件:1-Fertiltiy.csv:2-LifeExpectency.csv:我想在pig中加入他们,这样结果会是这样的:我是pig的新手,我无法得到正确答案,但这是我的代码:fertility=LOAD'fertility'USINGorg.apache.hcatalog.pig.HCatLoader();lifeExpectency=LOAD'lifeExpectency'USINGorg.apache.hcatalog.pig.HCatLoader();A=JOINfertilitybycountry,lifeExpectencybycountry;B=JOINf

hadoop - Pig 输出中的 header

我写了一个成功的脚本来计算行人的总步数,以及他们的最高步数。我没有得到的是在PigOutput中生成标题,因此输出看起来整洁干净。有什么方法可以在写入输出时生成标题。以下是我的代码,register'piggybank-0.15.0.jar';DEFINECSVLoaderorg.apache.pig.piggybank.storage.CSVLoader();part1=LOAD'/home/cloudera/Pedestrian_Counts.csv'usingCSVLoader(',')as(date_time,sensor_id:int,sensor_name:chararra

hadoop - 使用 HCatStorer 时 Pig 出错

我用PigLatin编写了一段代码,想将输出存储在Hive表中。我已经使用架构创建了Hive表,createtablepedestrian_count(sensor_idINT,sensor_nameSTRING,total_hourly_countsBIGINT,highest_countINT)ROWFORMATDELIMITEDFIELDSTERMINATEDBY':'STOREDASTEXTFILElocation'/user/cloudera/output';我的PigScript是,register'piggybank-0.15.0.jar';DEFINECSVLoader

hadoop - 访问 pig 中的模式值

数据集-包含PostId和userID201212453851481981741962632333443553663773我想访问最大没有的userID。帖子的pig代码A=load'/home/cloudera/Desktop/post.txt'as(postid:chararray,userid:chararray);B=load'/home/cloudera/Desktop/user.txt'as(name:chararray,id:chararray);C=groupAbyuserid;D=foreachCgenerategroup,COUNT(A.postid)ascount

hadoop - 如何用拉丁 pig 按地区分组结果?

我是HadoopPIG的新手,我有一个如下所示的数据集:region_idregionparticipationscore1SSAYES101SSANO222MONTPELIERYES15....我想计算每个地区的分数总和。我正在寻找的最终显示是:REGION-SCORE,例如:SSA-32我加载了我的数据:data=load'/user/cloudera/datapi/pigdata.csv'usingPigStorage(',')AS(id:int,region:chararray,participation:chararray,score:int);然后按地区对数据进行分组:sp

hadoop - 如何在 Apache Pig 中合并相同关系的行(项目)

我是apachepig的新手。我有如下数据。tempdata=(linsys4f-PORT42-0211201516244460,dnis=3007047505)(linsys4fPORT42-0211201516244460,incoming_tfn=8778816235,tfn_location=AshburnAvaya,ivr_location=AshburnAvaya,state=NC)(linsys4f-PORT42-0211201516244460,language=ENGLISH)(linsys4f-PORT42-0211201516244460,outcome=Tran

hadoop - PIG 中的 CASE 语句

我正在尝试根据几个条件从“geocode”中提取“vertex_code”:SUBSTRING(geocode,0,2)---->Code00-51---->0170---->0361-78---->04Else---->00现在获得的“code”值必须与“geocode”值(前缀)连接,并再次与末尾的00(后缀)连接以形成“vertex_code”例如:geocode=44556677如果SUBSTRING(geocode,0,2)在00-51之间,则code=01因此顶点代码=014455667700下面是我的脚本:item=load'/user/item.txt'USINGPig

hadoop - Q : how to unnest bags from complicated data structure in PIG

原来我有这样的结构:+-------+-------+----+----+----+-----+|time|type|s1|s2|id|p1|+-------+-------+----+----+----+-----+|10:30|send|a|b|1|110||10:35|send|c|d|1|120||10:31|reply|e|f|3|221||10:33|reply|a|c|1|210||10:34|send|a|a|3|113||10:32|reply|c|d|3|157|+-------+-------+----+----+----+-----+我想规范化表格:按id对条目

hadoop - 如何在 Apache Pig 中使用 2 个 for 循环

如何在ApachePig中使用2个for循环?我有如下输入数据:1a315b41b225a515c31a315c225b4中间输出:对于1计数总数。a和b,15和25相似1a61b215b415c525a525b4最终输出:需要1个最大计数1a615c525a5 最佳答案 A=load'test.input'usingPigStorage()as(index:int,id:chararray,count:int);B=GROUPAby(index,id);C=FOREACHBGENERATEflatten(group),SUM(A.