DISALLOWED_PIG_OPTIONS
全部标签 在hadoop中,如果你想对某些东西进行分组和排序并编写java,结果是组键也将默认按词典顺序排序,所有这些都通过一个MR作业完成,这样你就可以节省另一个排序作业。但现在我加入了使用Pig的行列,发现了一个古怪的东西。我的输入(test.txt)是:aababcbc我的脚本是:A=load'test.txt'asc1:chararray;B=groupAbyc1;dumpB;输出是:(a)(b)(c)(ab)(abc)为什么它有组键顺序取决于字符串长度但字母顺序。这样我需要做另一个键顺序工作,总共两个工作,因为组没有比较器插件。有什么团购解决方案吗?我将不胜感激。
我有一个测试文件,其中的键和值由逗号分隔。我怎样才能使用pig脚本为每个键获取10个值。示例输入:john|str1,str2,str3,str4,str5,str6,str7,str8,str9,str10,str11,str2,首选输出:john|str1,str2,str3,str4,str5,str6,str7,str8,str9,str10 最佳答案 有很多不同的方法可以做到这一点,具体取决于您拥有的输入和需要的输出。我假设您只需要前十个值,而可以丢弃其余值。这就是我的做法(CL)。它比短路径(CF)稍长,但代码对我来说更
当我执行叉积运算(随后进行过滤)时,reducer大小非常不平衡,一些reducer输出为零,而其他则需要几个小时才能完成。一个基本示例是以下代码:crossproduct=crosstweets,clients;result=filtercrossproductbytextmatchesCONCAT('.*',CONCAT(keyword,'.*'));storeresultinto'result'usingPigStorage('');在这种情况下,reducer键是什么? 最佳答案 这是一个很难回答的问题。Cross在Pig中
PigUDF的快速问答。我有一个自定义UDF,我想接受多列:packagepigfuncs;importjava.io.IOException;importjava.util.ArrayList;importjava.util.List;importorg.apache.pig.EvalFunc;importorg.apache.pig.FuncSpec;importorg.apache.pig.data.DataBag;importorg.apache.pig.data.DataType;importorg.apache.pig.data.Tuple;importorg.apache
目前我正在处理大约19GB的日志数据,而且它们是分开的,因此输入文件的编号是145258(pigstat)。在WebUI中执行应用程序和启动mapreduce作业之间,准备工作浪费了大量时间(大约3小时?),然后mapreduce作业开始。而且mapreduce作业本身(通过Pig脚本)非常慢,大约需要一个小时。mapreduce逻辑没有那么复杂,就像一个groupby操作。我有3个数据节点和1个名称节点,1个辅助名称节点。如何优化配置以提高mapreduce性能? 最佳答案 您应该将pig.maxCombinedSplitSize
根据我的理解,Map/Reduce对于大文件效果更好。(我理解这是由于拆分逻辑等),我们可以将文件作为值和文件名作为序列文件中的键并进行优化。现在的问题是我正在使用PIG进行分析,我们有大约数千个文件,但所有文件都以KB为单位。正如我们所知,piglatin被转换并作为MR作业运行,所以我怀疑MR作业会因为小文件而效率低下。有什么方法可以控制通过pig处理的小文件吗?有开箱即用的解决方案吗? 最佳答案 Pig具有将小文件组合成大块的功能:http://pig.apache.org/docs/r0.11.1/perf.html#com
在此rawdata我们有棒球运动员的信息,架构是:name:chararray,team:chararray,position:bag{t:(p:chararray)},bat:map[]使用以下脚本,我们能够列出球员以及他们踢过的不同位置。我们如何计算有多少球员打过一个特定的位置?例如。有多少球员处于“指定击球手”位置?一个位置不能在一个玩家的position包中出现多次。示例数据的Pig脚本和输出如下所示。--pigscriptplayers=load'baseball'as(name:chararray,team:chararray,position:bag{t:(p:chara
我是Pig的新手,所以这可能是一个微不足道的问题。我无法得到合理的答案,因此提出这个问题。有3列如下:useriditemidaction2454'view'2456'click'14912'buy'1491'click'等等……我有一个映射,例如:'view'=1、'click'=1.4、'buy'=2.1等我想要的输出是:useriditemidaction2454124561.4149122.114911.4可以帮助我实现这一目标的简单命令?我需要在第3列上执行一些计算,因此不能使用字符串格式。 最佳答案 使用这些映射值在HD
假设我有一个日志文件,但没有日期字段或任何其他可用于排序的字段。唯一的提示是文件中的行已经排序(但例如我需要下降排序而不是上升排序)我想做的是在使用Pig加载时为每一行生成一个aftificialID。是否有我可以使用的内置变量?像RowId这样的东西?你有什么想法吗?问候,帕维尔 最佳答案 NewinPig0.11是RANK运算符,它将完成您需要做的事情。 关于sorting-使用pig加载时为每一行添加ID,我们在StackOverflow上找到一个类似的问题:
我有一个字符串wtr,如下所示重量10好911.v.好我正在尝试使用pig从该字符串中提取数字部分。这是我尝试过的xx=FOREACHxyz_process{wtr_split=STRSPLIT(wtr,'\\.');GENERATEwtr_split;};我一直收到以下警告和空白xx2013-12-0417:41:10,130[main]WARNorg.apache.pig.PigServer-EncounteredWarningUSING_OVERLOADED_FUNCTION1time(s).2013-12-0417:41:10,130[main]WARNorg.apache.p