草庐IT

hadoop - pig 不在终端工作

我是pig的新手,我已经从下载了http://apache.techartifact.com/mirror/pig/pig-0.10.1/现在,当我在我的linux终端中写pig时,它会显示以下消息2013-04-2617:14:53,641[main]INFOorg.apache.pig.Main-Loggingerrormessagesto:/home/vishal/Downloads/pig_1366976693634.logExceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/hadoop/mapred

exception - 在本地运行 pig,UDF 程序无法写入文件/文件夹 : PriviledgedActionException

Pig/hadoop新手..在本地跑pig。java-Xmx512m-Xmx1024m-cp$PIGDIR/pig.jarorg.apache.pig.Main-Dpig.temp.dir=/tmp/$USER/$RANDOM-stop_on_failure-xlocalscript-buzz.pig用我的script.pig:(...)buzz=FOREACHfilesGENERATEchiron.buzz.Honey(file,id)asbuzz_file,id;尝试用我的UDFraise写一个文件夹/文件:[JobControl]ERRORorg.apache.hadoop.se

hadoop - Pig 通过一组键查找外部记录

我在数据库系统中有一些数据,出于几个原因我无法使用LOAD语句提取这些数据。我需要Pig按键(标识符)查找此数据,但如果我实现JavaUDF,我担心一对一键查找的性能。基本上,如果我的关系有10,000个条目,我想以某种方式在500个键的集合中查找这些数据。Pig是否提供了一个接口(interface),允许我调用一个java方法,该方法将接受一组键并返回一组(包或映射)答案,这些答案可以连接或以某种方式分配给Pig关系中的元组?预先感谢您的帮助! 最佳答案 一些建议:您能否编写您的UDF以期望在单个批处理中查询一袋标识符-那么您只

hadoop - Pig 中的嵌套展平

我在使用Pig时遇到问题,如下所示:假设我有一个别名A,比如("key1","just_for_example")。我想要类似:("key1","just"),("key1","for"),("key1","example")的东西。我的脚本如下所示:B=foreachA生成$0,FLATTEN(TOBAG(FLATTEN(STRSPLIT($1,'_'))));但它一直向我抛出错误,例如“错误1070:无法从内置解决Flatten”。但是一旦我将这个语句分成两部分以消除嵌套的扁平化,它就会起作用。这是为什么?这与Pig如何编译我的脚本有关吗?谢谢。 最佳答

hadoop - 运行 pig 脚本给出错误 : job has failed. Stop running all dependent jobs

我需要帮助来了解为什么在运行pig脚本时出现错误。但是当我在较小的数据中尝试相同的脚本时,它会成功执行。有几个类似问题的问题,但没有一个有解决方案。我的脚本是这样的:A=load‘test.txt’usingTextLoader();B=foreachAgenerateSTRSPLIT($0,’”,”’)ast;C=FILTERBBY(t.$1==2andt.$2matches‘.*xxx.*’);StoreCintotemp;错误是:org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLaunch

hadoop - pig HBASE 失败;存储 CSV

我从环境Hadoop、HBase、Pig开始;我会将数据库存储在Hbase表上;这是我的要求:hbase->创造创建我的数据库。我在HDFS文件上重新启动了我的CVS文件hadoopdfs-copyFromLocal~/data.csv/user/hduser/location.csv我执行了我的请求PIGraw_data=LOAD'/user/hduser/data.csv'USINGPigStorage(';')AS(世界气象组织:国际,成熟度:charArray,温度:整数,temps_present:整数,direction_du_vent:整数,force_du_vent:整

hadoop - pig : Slow Group By operator

在对Hive和Pig进行基准测试后,我发现Pig中的GroupBy运算符比Hive的要慢得多。我想知道是否有人有过同样的经历?人们是否有任何改进此操作性能的技巧?(按照此处早期帖子的建议添加DISTINCT没有帮助。我目前正在重新运行启用LZO压缩的基准测试)。 最佳答案 看来你看错了方向。GroupBy只是以某种方式对数据进行分组,之后的操作非常重要。在Pig中尝试分析性能时,您应该牢记以下几点:1)几条语句可以合并成一个MR作业,所以不要看语句,看生成的MR作业的性能。2)性能上的巨大差异应该是有原因的。这可能是:2.1不同的输

hadoop - Foreach inside pig 中的 Foreach

我有这样的记录结构:Read_PeopleAll:{PID:bytearray,Read_PropertyTax:{(PropertyID:bytearray,ReadPropertyDS:(PersonID:bytearay,PropertyID:bytearray))}}实际上我正在尝试访问PropertyID但无法访问。a=foreachRead_PeopleAll{b=foreachRead_PropertyTax{c=filterReadPropertyDSbyPersonIDisnotnull;generate$0,c;};GENERATE$0,b;};dumpa;但是我遇

hadoop - 从远程服务器连接到 pig

我是HortonworksSandbox的新手,我想知道它是否允许使用来自远程计算机的curl与其建立外部连接以检索已完成的作业,或者它是否允许启动新作业。如果可以的话,将不胜感激使用它的示例。我已经尝试了一段时间,并且作为curl请求的响应,我一直在页面中登录(即使我使用适当的凭据从curl使用user|password命令)。我正在使用Hortonworks提供的免费下载的HortonworksSandboxv1.3虚拟盒图像来运行环境。 最佳答案 Pig不是服务,因此您无法连接到它。取而代之的是,您可以考虑连接到WebHCat

hadoop - 我可以在 hadoop - PIG 中使用 "filter by' 和 Map 结构吗?

前提是有一个像,,,这样的mapmap.文本[key1#v1][key2#v2][key3#v3]然后,如果我尝试查找“key2的值​​”,A=load‘map.text’as(M:map[]);B=foreachAgenerateM#'key2';C=filterBby$0!='';//togetridofemptyvaluelike(),(),().dumpC;还有其他方法可以找到key2吗?仅使用“过滤依据”。谢谢你。 最佳答案 不需要GENERATE一个字段,然后在FILTER中使用它;您可以将其包含在FILTER语句中,开