PIG_FEATURE_草庐IT

hadoop - 尝试执行 pig 语句时出错

我正在尝试执行一条pig语句，该语句向我显示txt文件中的数据，并且我在mapreduce模式下运行，但是我收到一个错误，请有人帮我解决这个问题!![root@master~]#pig-xmapreduce17/04/1917:42:34INFOpig.ExecTypeProvider:TryingExecType:LOCAL17/04/1917:42:34INFOpig.ExecTypeProvider:TryingExecType:MAPREDUCE17/04/1917:42:34INFOpig.ExecTypeProvider:PickedMAPREDUCEastheExecTy

时出 hadoop apache org mapreduce hdfs apache-pig

sql - 在 Apache Pig 中计算连接表中的总和

我从Hive加载以下三个表:books=LOAD'books'USINGorg.apache.hive.hcatalog.pig.HCatLoader()AS(isbn_b:chararray,booktitle:chararray,author:chararray,pubyear:chararray,publisher:chararray,urls:chararray,urlm:chararray,urll:chararray);users=LOAD'users'USINGorg.apache.hive.hcatalog.pig.HCatLoader()AS(id_u:chararr

中计 Apache chararray code section sql hadoop join apache-pig

hadoop - 提取 Pig 中的数据，不包括第一列

我有非结构化数据key1|a1|a11|a21|a31|a41key2|b1|b11key3|c1|c11|c21key4|d1key2|b101|b111key1|a101|a111|a121|a131|a141根据第一列，将记录拆分并分发到目录。z=load'/user/input/data.txt'usingPigStorage('|');splitzintoz1if$0=='key1',z2if$0=='key2',z3if$0=='key3',z4if$0=='key4';z11=foreachz1generate$1,$2,$3,$4,$5;z22=foreachz2gen

hadoop Pig foreach generate section apache-pig

hadoop - 在 Pig 中对多列使用 SUM 时出错

下面是Pig的非结构化输入数据file1.txt---------input|key1|id1|1|1|2|3input|key1|id1|1|0|1input|key1|id1|1|1预期输出是单个记录，其中所有记录的前3列值都相同，我需要总结第4列和第5列。key1|id1|3|2错误如下:data=load'file1.txt'usingPigStorage('|');temp1=foreachdatagenerate$1,$2,sum($3),sum($4);ERRORorg.apache.pig.tools.grunt.Grunt-ERROR1070:Couldnotreso

时出多列 section code pre hadoop apache-pig

hadoop - 如何使用 Pig 将不同的值存储在同一键的列表中

我有一个用例col1|col2a101|10a101|20a101|10a101|30a201|40a201|50预期输出:a101|列表a201|列表下面是查询，但我没有得到预期的输出。我想在列表中存储col2个不同的值。input1=load'list1.csv'usingPigStorage('|')as(col1:chararray,col2:int);input2=DISTINCT(FOREACHinput1generatecol1,col2);input3=GROUPinput2bycol1;dumpinput3;(a101,{(a101,30),(a101,20),(a1

hadoop Pig input section col apache-pig

hadoop - 用于查找每个部门薪水的最大值、最小值、平均值、总和的 Pig 脚本

按部门编号对数据进行分组后，我卡住了。我遵循的步骤grunt>A=load'/home/cloudera/naveen1/hive_data/emp_data.txt'usingPigStorage(',')as(eno:int,ename:chararray,job:chararray,sal:float,comm:float,dno:int);grunt>B=groupAbydon;grunt>describeB;B:{group:int,A:{(eno:int,ename:chararray,job:chararray,sal:float,comm:float,dno:int)}

薪水 hadoop section sal chararray apache-pig

hadoop - 使用 Pig 获取唯一记录的值(value)

下面是输入数据集。col1,col2,col3,col4,col5key1,111,1,12/11/2016,10key2,111,1,12/11/2016,10key3,111,1,12/11/2016,10key4,222,2,12/22/2016,10key5,222,2,12/22/2016,10key6,333,3,12/30/2016,10key7,111,0,12/11/2016,10基于col2、col3、col4将提供唯一记录，我需要从col1中获取任何一个值作为唯一记录，并填充为新字段col6。预期输出如下col1,col2,col3,col4,col5,col6k

hadoop value key 2016 col apache-pig

hadoop - 如何在 Pig 中合并 map

我是Pig的新手，请多多包涵。我有两个具有相同模式的数据源:属性映射。我知道某些属性会有一个可识别的重叠属性。例如记录A:{"Name":{"First":"Foo","Last":"Bar"},"FavoriteFoods":{["Oranges","Pizza"]}}记录B:{"Name":{"First":"Foo","Last":"Bar"},"FavoriteFoods":{["BuffaloWings"]}}我想合并Name上的记录，这样:合并:{"Name":{"First":"Foo","Last":"Bar"},"FavoriteFoods":{["Oranges",

何在 hadoop code section strong merge apache-pig

hadoop - Pig Latin 中 AVG() 函数的问题

我正在尝试生成数据集中列出的性能(double)的AVG()。我收到一个ERROR1066:UnabletoopeniteratorforaliasTEST异常，我认为这是因为TEST是空的并且无法迭代。代码:flat_bus=FOREACHbussGENERATEnear,name,FLATTEN(categories)AScategory,stars;bus_grouped=GROUPflat_busBYcategory;category_avg=FOREACHbus_groupedGENERATEgroupasgrp,AVG(bus_grouped.stars);TEST=LIM

hadoop Latin section code strong apache-pig

amazon-web-services - PIG 中的 DUMP 命令不起作用

我编写了一个简单的PIG程序，如下所示，用于分析AWS上的googlen-grams数据集的小型修改版本。数据看起来像这样:Iam193694290Iam19458115Iam19514712verycool192311810verycool1980320100verycool2012994302verycool20171820612并具有以下形式:n-gramTAByearTABoccurrencesTABbooksNEWLINE我编写了以下程序来计算每本书中ngram的出现次数:inp=LOADAS(ngram:chararray,year:int,occurences:int,b

amazon-web-services services INFO executionengine apache hadoop apache-pig elastic-map-reduce