草庐IT

PIG_HOME

全部标签

hadoop - pig 初学者的例子[意外错误]

我是Linux和ApachePig的新手。我正在按照本教程学习pig:http://salsahpc.indiana.edu/ScienceCloud/pig_word_count_tutorial.htm这是一个基本的字数统计示例。数据文件“input.txt”和程序文件“wordcount.pig”在Wordcount包中,链接在网站上。我已经在本地计算机上下载了Pig0.11.1,还有Hadoop和Java6。当我下载Wordcount包时,它带我到一个“tar.gz”文件。我不熟悉这种类型,也不确定如何提取它。它包含文件“input.txt”、“wordcount.pig”和一

hadoop - 如何并行执行多个 PIG 脚本?

我有多个PIG脚本,目前我正在使用命令pig-xmapreduce/path/to/Script/Script1.pig&&/path/to/Script/Script2.pig&&/path/to按顺序执行它/Script/Script3.pig现在我正在寻找并行执行这些脚本以提高性能的方法,因为它们彼此独立。我试图搜索它但没有得到准确的结果。那么有什么方法可以并行执行所有PIG脚本吗? 最佳答案 #!/bin/bashpig-xmapreduce/path/to/Script/Script1.pig&pig-xmapreduce

hadoop - Pig中的ORC文件存储实现

有人知道如何在Pig中使用ORCfiles输入/输出吗?我在elephant-birds中发现了对RCFiles的某种支持,但似乎不支持ORC格式......您能否提供一个使用Pig在Pig中访问/存储ORC文件的示例? 最佳答案 通过Pig对ORC存储的支持尚未promise并且正在积极开发中。请参阅ApacheJIRAPIG-3558。之后,您将能够像这样通过您的Pig脚本访问ORC文件load'foo.orc'usingOrcStorage();...store..usingOrcStorage('-cSNAPPY');

hadoop - Apache pig -错误 2118 : For input string: "4f8:0:a111::add:9898"

我们最近升级了集群以使用Hadoop2.0.0-cdh4.4.0。更改后,我们需要重新安装pig,它曾经工作得非常好。安装后asdescribedhere,最简单的HBase作业不会创建。raw_protobuffer=LOAD'hbase://data_table'USINGorg.apache.pig.backend.hadoop.hbase.HBaseStorage('external_data:downloaded','-limit=1-gte=0-lte=1')AS(data:bytearray);魔法失败了:FailedJobs:JobIdAliasFeatureMessa

hadoop - Pig - 如何一步加入和定义模式

我采取以下措施:A=LOAD'a.txt'USINGPigStorage('\\u001')AS(foo:int,bar:chararray);B=LOAD'b.txt'USINGPigStorage('\\u001')AS(foo:int,baz:long);C=JOINABYfoo,BBYfoo;D=FOREACHCGENERATEA::fooASfoo,A::barASbar,B::bazASbaz;如何一步加入和定义模式? 最佳答案 根据documentation加入关系时不能定义模式。笔记:从句法上讲,您可以嵌套命令以节省

hadoop - pig 中 hadoop 文件的日期列表

我做到了:hadoopdfs-ls/user/abc/fun/它运行良好,并按字母顺序递增列出了所有文件。我想根据日期按升序列出文件,即最新日期文件放在底部像这样:hadoopdfs-lsltrh/user/abc/fun/当我阅读pig的wiki时发现这不是一个有效的FSshell命令,但它没有用。请建议如何获得所需的结果。任何帮助将不胜感激。谢谢!!! 最佳答案 有两种方法可以做到这一点如果您想在PigShell中执行此操作而不是脚本,只需保存以下命令hadoopfs-ls/user/abc/fun/|在test.sh文件中排序

hadoop - 如何在 Apache pig 中给出方程式

我想从这个等式中得到一个值--countedgivesthetotalrowcountinafilesamplecount=counted*(10/100);如何根据这个采样数据--Loaddataexamples=LOAD'/home/sreeveni/myfiles/PE/USCensus1990New.csv';--GroupdatagroupedByUser=groupexamplesall;--countnooflinesinthefilecounted=FOREACHgroupedByUsergenerateCOUNT(examples);--samplingsampled

hadoop - pig 帮 : How can I add a fixed field that is not defined in the schema

如何添加架构中未定义的固定字段(例如日期或月份)?我运行了以下pig脚本以将固定日期添加到我的结果表中,并收到以下错误消息:Invalidfieldprojection。方案中不存在投影字段[日期]。joined_table=joinAby(key1),Bby(key1);result=foreachjoined_tablegenerate20140625asdate,A::value1asv1,B::value1asv2; 最佳答案 这是你可能想要的:result=FOREACHjoined_tableGENERATE'20140

hadoop - Pig 中 DUMP 的奇怪错误

这是我的代码和错误,在Hadoop上使用Pig,有人有什么好主意吗?谢谢。--({(3),(4),(1),(2),(7),(5),(6)},{(1),(3),(5),(12)})A=load'input.txt'AS(B1:bag{T:tuple(val:int)},B2:bag{T:tuple(val:int)});DUMPA.B1;DUMPA.B2;[main]ERRORorg.apache.pig.tools.grunt.Grunt-ERROR1000:Errorduringparsing.Encountered""A.B1""atline4,column6.Wasexpecti

hadoop - Hadoop Pig 中的限制语句

想知道如果我向任何Pig语句添加限制,它总是会提高性能吗?有什么反例,当加limit语句时性能不会提高,反而会下降?提前致谢,林 最佳答案 Pig中的限制运算符用于限制要通过Shell打印或将其保存到文件的输出结果的数量。这个运算符总是可以产生更好的性能,因为我们将限制推得尽可能高,以最大限度地减少通过管道传输的数据量。Limit是Pig中的一种优化技术。所以它总是提供更好的性能。我不认为这个运算符有任何负面影响。它始终具有显着的性能优势。 关于hadoop-HadoopPig中的限制语