有没有办法reshapepig中的数据?数据是这样的——id|p1|count1|"Accessory"|31|"clothing"|22|"Books"|1我想reshape数据,使输出看起来像这样--id|Accessory|clothing|Books1|3|2|02|0|0|1任何人都可以提出一些解决方法吗? 最佳答案 如果它是一组固定的产品线,下面的代码可能会有所帮助,否则您可以选择有助于实现目标的自定义UDF。输入:a.csv1|Accessory|31|Clothing|22|Books|1pig片段:test=LOA
我刚刚安装了pig。当我跑pig时,我会遇到无穷无尽的错误,比如2017-03-1317:27:14,262[main]ERRORorg.apache.pig.tools.grunt.Grunt-ERROR2998:Unhandledinternalerror.Couldnotinitializeclassorg.apache.pig.tools.pigstats.PigStatsUtilpig日志代码:Hadoop版本为hadoop0.20.2cdh3u6ERROR2998:Unhandledinternalerror.org/apache/hadoop/mapreduce/task
我正在尝试通过Pig获取数据。文件中有>8K个字段,我想选择每列的前10条记录:目前,我只是加载整个表并拼出变量名,是否有等效于SQL的从TABLELIMIT10中选择*;在pig身上?当前负载data=load'xsf://EXAMPLE/1'usingSomePigLoader('2017-01-01','2017-01-03','ID1,ID2,ID3....') 最佳答案 是的。加载后使用LIMIT关于关系data=load'xsf://EXAMPLE/1'usingSomePigLoader('2017-01-01','2
我有下面的单个原始文件,需要将文件拆分成不同的关系。如果行以0开头,则完整的行应该转到关系'header'如果行以1开头,则整行应该转到relation'ban'如果行以2开头,则整行应该转到关系'sub'如果行以3开头,则完整行应转到relation'item'如果行以4开头,则整行应转到关系“税”0ALH012012050104.00.00356.0012.060011980377362HAWR120010000IRN+000016323SABRINAD.ORTIZPOBOX1764KAILUAKONAHI967451764September200903.4June200806.0
我正在尝试在pig中执行以下命令7369,SMITH,CLERK,800.00,null,207499,ALLEN,SALESMAN,1600.00,300.00,30脚本emp_bag=LOAD'/home/training/dvs/emp.csv'usingPigStorage(',')AS(eno:int,ename:chararray,job:chararray,sal:int,comm:int,deptno:int);出现以下错误bash:syntaxerrornearunexpectedtoken`('请帮助解决这个问题。 最佳答案
我有两个CSV文件:1-Fertiltiy.csv:2-LifeExpectency.csv:我想在pig中加入他们,这样结果会是这样的:我是pig的新手,我无法得到正确答案,但这是我的代码:fertility=LOAD'fertility'USINGorg.apache.hcatalog.pig.HCatLoader();lifeExpectency=LOAD'lifeExpectency'USINGorg.apache.hcatalog.pig.HCatLoader();A=JOINfertilitybycountry,lifeExpectencybycountry;B=JOINf
我写了一个成功的脚本来计算行人的总步数,以及他们的最高步数。我没有得到的是在PigOutput中生成标题,因此输出看起来整洁干净。有什么方法可以在写入输出时生成标题。以下是我的代码,register'piggybank-0.15.0.jar';DEFINECSVLoaderorg.apache.pig.piggybank.storage.CSVLoader();part1=LOAD'/home/cloudera/Pedestrian_Counts.csv'usingCSVLoader(',')as(date_time,sensor_id:int,sensor_name:chararra
我用PigLatin编写了一段代码,想将输出存储在Hive表中。我已经使用架构创建了Hive表,createtablepedestrian_count(sensor_idINT,sensor_nameSTRING,total_hourly_countsBIGINT,highest_countINT)ROWFORMATDELIMITEDFIELDSTERMINATEDBY':'STOREDASTEXTFILElocation'/user/cloudera/output';我的PigScript是,register'piggybank-0.15.0.jar';DEFINECSVLoader
数据集-包含PostId和userID201212453851481981741962632333443553663773我想访问最大没有的userID。帖子的pig代码A=load'/home/cloudera/Desktop/post.txt'as(postid:chararray,userid:chararray);B=load'/home/cloudera/Desktop/user.txt'as(name:chararray,id:chararray);C=groupAbyuserid;D=foreachCgenerategroup,COUNT(A.postid)ascount
我是HadoopPIG的新手,我有一个如下所示的数据集:region_idregionparticipationscore1SSAYES101SSANO222MONTPELIERYES15....我想计算每个地区的分数总和。我正在寻找的最终显示是:REGION-SCORE,例如:SSA-32我加载了我的数据:data=load'/user/cloudera/datapi/pigdata.csv'usingPigStorage(',')AS(id:int,region:chararray,participation:chararray,score:int);然后按地区对数据进行分组:sp