我正在尝试编写一个pig脚本。我已经成功地在本地模式下工作,但是当我在Psudo分布式模式下启动pig时出现错误。这是脚本:register'myfolder/target/myfunc-with-dependencies.jar';SETmapred.cache.files/tmp/scripts#scripts,/tmp/my_rules#my_rules;SETmapred.create.symlinkyes;%defaultINPUT'test.seq'%defaultOUTPUT'final.out'%defaultTIMEOUT_MS'180000'%defaultUSE_
以下失败:data=FOREACHrawDataGENERATE(int)col;aggregate=FOREACHdataGENERATEMIN(col);有什么方法可以让它正常工作吗?我试过这个:data=FOREACHrawDataGENERATE1dummy,(int)col;grouped=GROUPdataBYdummy;aggregate=FOREACHgroupedGENERATEMIN(data.col)现在我得到一个:java.lang.Exception:java.lang.OutOfMemoryError:Javaheapspace实际上有11行整数(1..11
我有一个PigJavaUDF,我在其中尝试访问文件系统以将一组文件读入HashMap。但是,当我在构造函数中或稍后执行的方法主体中调用UDFContext.getUDFContext().getJobConf()时,我得到null作为输出。从EvalFunc中获取作业配置的正确格式是什么? 最佳答案 您是否偶然使用了@MonitoredUDF?就我而言,我能够通过从类中删除注释来解决问题。 关于java-从PigUDF访问HDFS,我们在StackOverflow上找到一个类似的问题:
我正在尝试学习PIG,在我的第一个脚本(在ApacheHadoop中)中,我正在尝试读取一个包含如下数据的文件。我真的没有得到关于错误的任何线索。任何人都可以帮助我解决这个问题吗?M,0.455,0.365,0.095,0.514,0.2245,0.101,0.15,15M,0.35,0.265,0.09,0.2255,0.0995,0.0485,0.07,7F,0.53,0.42,0.135,0.677,0.2565,0.1415,0.21,9M,0.44,0.365,0.125,0.516,0.2155,0.114,0.155,10I,0.33,0.255,0.08,0.205,0
我正在使用ApachePig和Mahout。现在我正在研究apachemahout的频繁模式增长。我有以下格式的数据useritems1i11i21i32i22i52i63i13i4--加载数据data=LOAD'$input'AS(user,item);然后我按用户对数据进行分组grpdata=GROUPdataBYuser;我明白了1{(1,i1),(1,i2),(1,i3)}2{(2,i2),(2,i5),(2,i6)}3{(3,i1),(3,i4)}这是我的问题,如何将分组后创建的包更改为以下格式1i1,i2,i32i2,i5,i63i1,i4 最佳
我有一个pig作业,计划每天通过Hadoop作业调度程序运行。它有时工作得很好,但偶尔会因以下错误而失败。每天它都会报告不同的失败原因。第一天:Error:java.io.IOException:Nospaceleftondevice第2天:ENOENT:Nosuchfileordirectory第三天:Losttasktracker:tracker_bos-hadoop14.co.com:localhost/127.0.0.1:48865第4天:Losttasktracker:tracker_bos-hadoop11.co.com:localhost/127.0.0.1:46408请
我的代码如下temp=foreachrequiredDatagenerate(recordType==3?controllingCalledNum:callingPtyNum)asServiceNumber,(recordType==3?callingPtyNum:controllingCalledNum)asDestinationNumber;这里我的代码是多余的..我可以在'?'中生成元组吗?运算符并做这样的事情,我可以进一步扁平化temp=foreachrequiredDatagenerate(recordType==3?(controllingCalledNum,calling
我是oozie的新手,遇到的问题很少。1)我试图在oozie中嵌入一个pigAction,它有一个python脚本导入。我已将jython.jar文件放在lib路径中,并在将采用pythonUDF的pig脚本中导入。我似乎没有得到这个工作。.py文件未被拾取。怎么办?2)我有一个pigcassandra集成,在其中我使用cql使用pig从cassandra获取数据并进行一些基本转换。在CLI中,我能够使它正常工作。但在oozie方面我不是。我似乎没有找到在oozie中执行此操作的解决方案(配置和其他)。谁能帮我解决这个问题?提前致谢。 最佳答案
我有一个pig脚本,它将从cassandra获取所有数据,进行少量转换并存储到hdfs上。在pig的grunt控制台执行时,cassandra数据量大,耗时将近30分钟。但是当我使用oozie工作流执行相同的操作时,它执行但需要很长时间,将近一个半小时。当我检查hadoop日志时,这就是它所说的。2013-11-1901:20:00,871[main]INFOorg.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher-Moreinformationat:master:50030/jobde
我在弄清楚下面这些行的实际含义时遇到了一个问题:Whenusingtheobjectintheexecmethod,keepinmindthatanychangesmadetothereturnedPropertieswillnotbetransmittedtootherinstancesoftheUDFonthebackend,unlessyouhappentohaveanotherinstanceofthesameUDFinthesametask这些是书编程pig(第131页)中的行,为了让您了解上下文,所有这些都与Pig中的UDF和执行上下文有关,同一UDF的所有实例都可以共享来