草庐IT

PIG_HOME

全部标签

hadoop - 运行 pig 脚本给出错误 : job has failed. Stop running all dependent jobs

我需要帮助来了解为什么在运行pig脚本时出现错误。但是当我在较小的数据中尝试相同的脚本时,它会成功执行。有几个类似问题的问题,但没有一个有解决方案。我的脚本是这样的:A=load‘test.txt’usingTextLoader();B=foreachAgenerateSTRSPLIT($0,’”,”’)ast;C=FILTERBBY(t.$1==2andt.$2matches‘.*xxx.*’);StoreCintotemp;错误是:org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLaunch

hadoop - pig HBASE 失败;存储 CSV

我从环境Hadoop、HBase、Pig开始;我会将数据库存储在Hbase表上;这是我的要求:hbase->创造创建我的数据库。我在HDFS文件上重新启动了我的CVS文件hadoopdfs-copyFromLocal~/data.csv/user/hduser/location.csv我执行了我的请求PIGraw_data=LOAD'/user/hduser/data.csv'USINGPigStorage(';')AS(世界气象组织:国际,成熟度:charArray,温度:整数,temps_present:整数,direction_du_vent:整数,force_du_vent:整

hadoop - pig : Slow Group By operator

在对Hive和Pig进行基准测试后,我发现Pig中的GroupBy运算符比Hive的要慢得多。我想知道是否有人有过同样的经历?人们是否有任何改进此操作性能的技巧?(按照此处早期帖子的建议添加DISTINCT没有帮助。我目前正在重新运行启用LZO压缩的基准测试)。 最佳答案 看来你看错了方向。GroupBy只是以某种方式对数据进行分组,之后的操作非常重要。在Pig中尝试分析性能时,您应该牢记以下几点:1)几条语句可以合并成一个MR作业,所以不要看语句,看生成的MR作业的性能。2)性能上的巨大差异应该是有原因的。这可能是:2.1不同的输

hadoop - Foreach inside pig 中的 Foreach

我有这样的记录结构:Read_PeopleAll:{PID:bytearray,Read_PropertyTax:{(PropertyID:bytearray,ReadPropertyDS:(PersonID:bytearay,PropertyID:bytearray))}}实际上我正在尝试访问PropertyID但无法访问。a=foreachRead_PeopleAll{b=foreachRead_PropertyTax{c=filterReadPropertyDSbyPersonIDisnotnull;generate$0,c;};GENERATE$0,b;};dumpa;但是我遇

hadoop - 从远程服务器连接到 pig

我是HortonworksSandbox的新手,我想知道它是否允许使用来自远程计算机的curl与其建立外部连接以检索已完成的作业,或者它是否允许启动新作业。如果可以的话,将不胜感激使用它的示例。我已经尝试了一段时间,并且作为curl请求的响应,我一直在页面中登录(即使我使用适当的凭据从curl使用user|password命令)。我正在使用Hortonworks提供的免费下载的HortonworksSandboxv1.3虚拟盒图像来运行环境。 最佳答案 Pig不是服务,因此您无法连接到它。取而代之的是,您可以考虑连接到WebHCat

hadoop - 我可以在 hadoop - PIG 中使用 "filter by' 和 Map 结构吗?

前提是有一个像,,,这样的mapmap.文本[key1#v1][key2#v2][key3#v3]然后,如果我尝试查找“key2的值​​”,A=load‘map.text’as(M:map[]);B=foreachAgenerateM#'key2';C=filterBby$0!='';//togetridofemptyvaluelike(),(),().dumpC;还有其他方法可以找到key2吗?仅使用“过滤依据”。谢谢你。 最佳答案 不需要GENERATE一个字段,然后在FILTER中使用它;您可以将其包含在FILTER语句中,开

hadoop - 无法在伪分布式模式下运行 Pig Script

我正在尝试编写一个pig脚本。我已经成功地在本地模式下工作,但是当我在Psudo分布式模式下启动pig时出现错误。这是脚本:register'myfolder/target/myfunc-with-dependencies.jar';SETmapred.cache.files/tmp/scripts#scripts,/tmp/my_rules#my_rules;SETmapred.create.symlinkyes;%defaultINPUT'test.seq'%defaultOUTPUT'final.out'%defaultTIMEOUT_MS'180000'%defaultUSE_

java - PIG 聚合函数 - OutOfMemory : Java Heap Space

以下失败:data=FOREACHrawDataGENERATE(int)col;aggregate=FOREACHdataGENERATEMIN(col);有什么方法可以让它正常工作吗?我试过这个:data=FOREACHrawDataGENERATE1dummy,(int)col;grouped=GROUPdataBYdummy;aggregate=FOREACHgroupedGENERATEMIN(data.col)现在我得到一个:java.lang.Exception:java.lang.OutOfMemoryError:Javaheapspace实际上有11行整数(1..11

java - 从 Pig UDF 访问 HDFS

我有一个PigJavaUDF,我在其中尝试访问文件系统以将一组文件读入HashMap。但是,当我在构造函数中或稍后执行的方法主体中调用UDFContext.getUDFContext().getJobConf()时,我得到null作为输出。从EvalFunc中获取作业配置的正确格式是什么? 最佳答案 您是否偶然使用了@MonitoredUDF?就我而言,我能够通过从类中删除注释来解决问题。 关于java-从PigUDF访问HDFS,我们在StackOverflow上找到一个类似的问题:

file - PIG 无法搜索输入文件

我正在尝试学习PIG,在我的第一个脚本(在ApacheHadoop中)中,我正在尝试读取一个包含如下数据的文件。我真的没有得到关于错误的任何线索。任何人都可以帮助我解决这个问题吗?M,0.455,0.365,0.095,0.514,0.2245,0.101,0.15,15M,0.35,0.265,0.09,0.2255,0.0995,0.0485,0.07,7F,0.53,0.42,0.135,0.677,0.2565,0.1415,0.21,9M,0.44,0.365,0.125,0.516,0.2155,0.114,0.155,10I,0.33,0.255,0.08,0.205,0