PIG_FEATURE

hadoop - Pig，用特定列的整数替换字符串

我是Pig的新手，所以这可能是一个微不足道的问题。我无法得到合理的答案，因此提出这个问题。有3列如下:useriditemidaction2454'view'2456'click'14912'buy'1491'click'等等……我有一个映射，例如:'view'=1、'click'=1.4、'buy'=2.1等我想要的输出是:useriditemidaction2454124561.4149122.114911.4可以帮助我实现这一目标的简单命令？我需要在第3列上执行一些计算，因此不能使用字符串格式。最佳答案使用这些映射值在HD

sorting - 使用 pig 加载时为每一行添加 ID

假设我有一个日志文件，但没有日期字段或任何其他可用于排序的字段。唯一的提示是文件中的行已经排序(但例如我需要下降排序而不是上升排序)我想做的是在使用Pig加载时为每一行生成一个aftificialID。是否有我可以使用的内置变量？像RowId这样的东西？你有什么想法吗？问候，帕维尔最佳答案 NewinPig0.11是RANK运算符，它将完成您需要做的事情。关于sorting-使用pig加载时为每一行添加ID，我们在StackOverflow上找到一个类似的问题：

sorting pig section 帕维 stackoverflow hadoop load apache-pig

hadoop - 如何使用 pig 剥离字符串并提取字符串的数字部分

我有一个字符串wtr，如下所示重量10好911.v.好我正在尝试使用pig从该字符串中提取数字部分。这是我尝试过的xx=FOREACHxyz_process{wtr_split=STRSPLIT(wtr,'\\.');GENERATEwtr_split;};我一直收到以下警告和空白xx2013-12-0417:41:10,130[main]WARNorg.apache.pig.PigServer-EncounteredWarningUSING_OVERLOADED_FUNCTION1time(s).2013-12-0417:41:10,130[main]WARNorg.apache.p

并提 hadoop section code pig apache-pig

hadoop - pig - 复制连接

我有两个输入文件学生文件:abc304.5xyz349.5def286.5klm3510.5位置文件:abchawthornexyzartesiadefgarnetklmvanness我想要的输出abchawthornexyzartesiadefgarnetklmvanness为此，我编写了以下pig程序。A=LOAD'/user/hive/warehouse/students.txt'USINGPigStorage('')AS(NAME:CHARARRAY,AGE:INT,GPA:FLOAT);B=LOAD'/user/hive/warehouse/location.txt.txt'

hadoop pig code executionengine apache apache-pig

sql - 如何在 PIG 中完整外连接表和总结

我在HDFS上有2个数据集，它们以Tab分隔:A--------DATEPAGEVIEWSCLICKS2014/01/21200502014/01/22300702014/01/23150100B--------DATEPAGEVIEWSCLICKS2014/01/2350252014/01/24250110我想合并这两个数据集以产生以下结果:C--------DATEPAGEVIEWSCLICKS2014/01/21200502014/01/22300702014/01/232001252014/01/24250110如您所见，最终数据集C从A和B中获得了2014/01/23的聚合数

何在 sql DATE section CLICKS hadoop apache-pig hdfs outer-join

mongodb - 如何使用 mongo-hadoop 从 Pig 上的 BSON 文件加载数组？

我正在尝试使用com.mongodb.hadoop.pig.BSONLoader(https://github.com/mongodb/mongo-hadoop/blob/master/pig/README.md)将数据从MongoDBBSON文件加载到Pig中，但我遇到了困难。MongoDB上的数据包括可变大小的数组，我不确定如何将其加载到pig中(作为元组？)。这是来自MongoDB的示例记录:{"_id":{"$oid":"52fbbca6e4b029a79cd17ff7"},"field":"value","variableSizeArray":["value1","value

mongo-hadoop mongodb section hadoop apache-pig

hadoop - Pig 的 COGROUP 运算符如何工作？

这里的COGROUP运算符是如何工作的？在最后两行输出中我们如何以及为什么得到空包(没有网站详细解释COGROUP中的数据排列)？A=load'student'as(name:chararray,age:int,gpa:float);B=load'student'as(name:chararray,age:int,gpa:float);dumpB;(joe,18,2.5)(sam,,3.0)(bob,,3.5)X=cogroupAbyage,Bbyage;dumpX;(18,{(joe,18,2.5)},{(joe,18,2.5)})(,{(sam,,3.0),(bob,,3.5)},

运算符 COGROUP strong section hadoop hive apache-pig bigdata

shell - 如何获取 Pig 脚本的准确返回值并将其用于进一步处理？

我知道Pig在完成这些场景时会返回不同的代码:返回代码0:所有作业都成功返回码1:用于可恢复的错误返回代码2:所有作业均已失败返回码3:部分作业失败在我的代码中，我想根据MapReduce作业的成功采取适当的操作。如何着手去做？Pig错误保存在日志中，但是，我应该使用什么机制来了解成功执行的pig脚本？最佳答案如果您使用shell脚本运行pig脚本，您可以检查上次执行的脚本的状态，如果返回0，那么您只能继续执行第二步，如果第一步失败，它会显示一条错误消息。./pig_script.shif[$?-eq0];thenecho"Su

进一并将 section stackoverflow shell hadoop error-handling apache-pig

hadoop - 如何用 pig latin 压平和减去列

我刚学pig；我怎么能接受这个:((a,b),c,(x,y),z)得到这样的东西:(a,b,c,x,y,z,ABS(c-z)) 最佳答案和你写的差不多。A=load'foobar'as(t:((a:double,b:double),c:double,(x:double,y:double,)z:double));B=foreachAgenerateflatten(t);C=foreachBgeneratea,b,c,x,y,z,ABS(c-z);我假设double作为值的数据类型。不能100%确定展平，这取决于您的确切模式，这可能会

压平何用 section double stackoverflow hadoop apache-pig

hadoop - Pig - 如何在 pig 中使用嵌套 for 循环来获取元组内的元素列表？

我有一个中间pig结构(A,B,(n.无Cs))示例:(a1,b1,(c11,c12))(a2,b2,(c21))(a3,b3,(c31,c32,c33))现在，我想要格式的数据(a1,b1,c11)(a1,b2,c12)(a2,b2,c21)etc.我该怎么做？基本上我想要元组的大小，然后使用这个大小来运行嵌套的for循环。最佳答案你能试试下面的方法吗？输入a1b1(c11,c12)a2b2(c21)a3b3(c31,c32,c33)PigScript:A=LOAD'input'AS(f1,f2,T:(f3:chararray

何在 hadoop section strong code mapreduce tuples apache-pig

9 10 111213 14 15