Pig

hadoop - 无法在伪分布式模式下运行 Pig Script

我正在尝试编写一个pig脚本。我已经成功地在本地模式下工作，但是当我在Psudo分布式模式下启动pig时出现错误。这是脚本:register'myfolder/target/myfunc-with-dependencies.jar';SETmapred.cache.files/tmp/scripts#scripts,/tmp/my_rules#my_rules;SETmapred.create.symlinkyes;%defaultINPUT'test.seq'%defaultOUTPUT'final.out'%defaultTIMEOUT_MS'180000'%defaultUSE_

java - PIG 聚合函数 - OutOfMemory : Java Heap Space

以下失败:data=FOREACHrawDataGENERATE(int)col;aggregate=FOREACHdataGENERATEMIN(col);有什么方法可以让它正常工作吗？我试过这个:data=FOREACHrawDataGENERATE1dummy,(int)col;grouped=GROUPdataBYdummy;aggregate=FOREACHgroupedGENERATEMIN(data.col)现在我得到一个:java.lang.Exception:java.lang.OutOfMemoryError:Javaheapspace实际上有11行整数(1..11

OutOfMemory Space code section GENERATE java hadoop apache-pig

java - 从 Pig UDF 访问 HDFS

我有一个PigJavaUDF，我在其中尝试访问文件系统以将一组文件读入HashMap。但是，当我在构造函数中或稍后执行的方法主体中调用UDFContext.getUDFContext().getJobConf()时，我得到null作为输出。从EvalFunc中获取作业配置的正确格式是什么？最佳答案您是否偶然使用了@MonitoredUDF？就我而言，我能够通过从类中删除注释来解决问题。关于java-从PigUDF访问HDFS，我们在StackOverflow上找到一个类似的问题：

java HDFS section code stackoverflow hadoop apache-pig user-defined-functions

file - PIG 无法搜索输入文件

我正在尝试学习PIG，在我的第一个脚本(在ApacheHadoop中)中，我正在尝试读取一个包含如下数据的文件。我真的没有得到关于错误的任何线索。任何人都可以帮助我解决这个问题吗？M,0.455,0.365,0.095,0.514,0.2245,0.101,0.15,15M,0.35,0.265,0.09,0.2255,0.0995,0.0485,0.07,7F,0.53,0.42,0.135,0.677,0.2565,0.1415,0.21,9M,0.44,0.365,0.125,0.516,0.2155,0.114,0.155,10I,0.33,0.255,0.08,0.205,0

file PIG 34 apache java hadoop apache-pig

hadoop - 如何在 apache pig 中将组转换为集合

我正在使用ApachePig和Mahout。现在我正在研究apachemahout的频繁模式增长。我有以下格式的数据useritems1i11i21i32i22i52i63i13i4--加载数据data=LOAD'$input'AS(user,item);然后我按用户对数据进行分组grpdata=GROUPdataBYuser;我明白了1{(1,i1),(1,i2),(1,i3)}2{(2,i2),(2,i5),(2,i6)}3{(3,i1),(3,i4)}这是我的问题，如何将分组后创建的包更改为以下格式1i1,i2,i32i2,i5,i63i1,i4 最佳

何在 hadoop code section pre apache-pig mahout bag

hadoop - 如何让Hadoop Pig Job更可靠？

我有一个pig作业，计划每天通过Hadoop作业调度程序运行。它有时工作得很好，但偶尔会因以下错误而失败。每天它都会报告不同的失败原因。第一天:Error:java.io.IOException:Nospaceleftondevice第2天:ENOENT:Nosuchfileordirectory第三天:Losttasktracker:tracker_bos-hadoop14.co.com:localhost/127.0.0.1:48865第4天:Losttasktracker:tracker_bos-hadoop11.co.com:localhost/127.0.0.1:46408请

可靠 hadoop section code pre error-handling jobs

hadoop - 如何生成元组？ pig 的运算符(operator)

我的代码如下temp=foreachrequiredDatagenerate(recordType==3?controllingCalledNum:callingPtyNum)asServiceNumber,(recordType==3?callingPtyNum:controllingCalledNum)asDestinationNumber;这里我的代码是多余的..我可以在'?'中生成元组吗？运算符并做这样的事情，我可以进一步扁平化temp=foreachrequiredDatagenerate(recordType==3?(controllingCalledNum,calling

运算符 operator controllingCalledNum section callingPtyNum hadoop mapreduce hdfs apache-pig

python - 使 pig 嵌入 python 脚本和 pig cassandra 集成以与 oozie 一起工作

我是oozie的新手，遇到的问题很少。1)我试图在oozie中嵌入一个pigAction，它有一个python脚本导入。我已将jython.jar文件放在lib路径中，并在将采用pythonUDF的pig脚本中导入。我似乎没有得到这个工作。.py文件未被拾取。怎么办？2)我有一个pigcassandra集成，在其中我使用cql使用pig从cassandra获取数据并进行一些基本转换。在CLI中，我能够使它正常工作。但在oozie方面我不是。我似乎没有找到在oozie中执行此操作的解决方案(配置和其他)。谁能帮我解决这个问题？提前致谢。最佳答案

python pig section oozie hadoop cassandra apache-pig

hadoop - Pig Cassandra process very slow (Heart beat) with oozie

我有一个pig脚本，它将从cassandra获取所有数据，进行少量转换并存储到hdfs上。在pig的grunt控制台执行时，cassandra数据量大，耗时将近30分钟。但是当我使用oozie工作流执行相同的操作时，它执行但需要很长时间，将近一个半小时。当我检查hadoop日志时，这就是它所说的。2013-11-1901:20:00,871[main]INFOorg.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher-Moreinformationat:master:50030/jobde

Cassandra process section hadoop MapReduceLauncher apache-pig oozie

hadoop - Pig 中的 Udfs 共享上下文

我在弄清楚下面这些行的实际含义时遇到了一个问题:Whenusingtheobjectintheexecmethod,keepinmindthatanychangesmadetothereturnedPropertieswillnotbetransmittedtootherinstancesoftheUDFonthebackend,unlessyouhappentohaveanotherinstanceofthesameUDFinthesametask这些是书编程pig(第131页)中的行，为了让您了解上下文，所有这些都与Pig中的UDF和执行上下文有关，同一UDF的所有实例都可以共享来

hadoop Udfs section UDF the mapreduce apache-pig

63 64 656667 68 69