草庐IT

PIG_HOME

全部标签

Hadoop pig 拉丁风格指南?

我希望在piglatin(hadoop-ay)的格式/样式方面走捷径。有人知道我在哪里可以找到风格指南吗? 最佳答案 这里有一些很好的例子:https://github.com/Ganglion/sounder 关于Hadooppig拉丁风格指南?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/2035720/

java - 无法构建 piggybank ->/home/build/ivy/lib 不存在

嘿,我按照这里的步骤操作:http://wiki.apache.org/pig/PiggyBank构建存钱jar,但我不断得到下面的输出。我还从源代码构建了pig项目,并在我的.bash_profile中引用了它:cloudera@cloudera-demo:~/piggybank/java$./makepiggy.shBuildfile:/home/cloudera/piggybank/java/build.xmldownload-hive-deps:init:compile:[echo]***CompilingPigUDFs***[javac]/home/cloudera/pigg

java - 基于HADOOP_HOME自动加载HDFS Configuration?

我正在开发一个Java程序来与已经运行的hadoop集群交互。该程序已将HADOOP_HOME作为环境变量传递给它。基于这个值,我需要在开始与HDFS/MapReduce交互之前加载所有必要的配置资源。我认为我需要的文件基于apachedocumentation.我当前的解决方案如下所示:finalStringHADOOP_HOME=System.getEnv("HADOOP_HOME");Configurationconf=newConfiguration();conf.addResource(newPath(HADOOP_HOME,"src/core/core-default.xm

hadoop - 是否有相当于 "SHOW TABLES"的 apache pig?

我有一个要在Pig中访问的Hadoop数据存储,但没有很多关于它的文档,而且我是Pig的新手,所以我正在寻找与“SHOWTABLES”等效的Pig。当我连接到MySQL数据库时,我可以执行此操作并大致了解其中的数据;我找到了几个教程,但没有任何内容。如果不是,是否有其他方法可以让我自己定位到我一无所知的Hadoop数据存储?预计到达时间:这将是在交互模式下运行Pig时,而不是加载脚本。可能很明显,但我想我应该提一下。 最佳答案 我能看到的最接近“显示表”的是“历史”命令,它有效地列出了所有创建的别名。grunt>history1a=

hadoop - Pig Latin 中的百分位数计算

我正在尝试使用Pig计算百分位数。我需要使用属性对数据进行分组,并根据销售额计算组中每个元组的百分位数。我发现没有内置的Pig函数可以执行此操作。想知道以前是否有人遇到过类似的问题可以帮助我。 最佳答案 如JaiPrakash所述,您可以使用UDFStreamingQuantile来自ApacheDataFu图书馆。由于我已经准备好示例,因此我将其复制到此处。输入item1,234item1,324item1,769item2,23item2,23item2,45PIG脚本registerdatafu-1.2.0.jar;defin

hadoop - 本地机器上的 Pig 出错

我是新手,如果问题看起来很愚蠢,请原谅我。我已经安装了hadoop1.2.1,基本的wordcount示例在我的本地运行良好,因此为了进行下一级别的探索,我安装了Pig0.13.0。当我刚刚尝试运行pig-help时,它似乎工作正常。但是当我运行pig版本时,我得到如下的IOException:14/08/0601:00:08INFOpig.ExecTypeProvider:TryingExecType:LOCAL14/08/0601:00:08INFOpig.ExecTypeProvider:TryingExecType:MAPREDUCE14/08/0601:00:08INFOpi

hadoop - 从 pig 中的单行输入生成多行输出

我的要求是通过在pig脚本中使用单行输入来生成多行输出。有哪些可能的解决方案? 最佳答案 这个想法是将您输入的行转换成一个包,然后将其展平。这可能是2种情况:阅读文本:txt=load'/pig_fun/input/text.txt'usingTextLoader();words=foreachtxtgenerateTOKENIZE($0);pivoted=foreachwordsgenerateFLATTEN($0);dumppivoted;输入:Myrequirementistogeneratemultiplelinesofou

hadoop - 将 pig 结果存储在文本文件中

嗨,stackoverflow社区;我对pig完全陌生,我想将结果存储在一个文本文件中并根据需要命名。是否可以使用STORE函数执行此操作。我的代码:a=LOAD'example.csv'USINGPigStorage(';');b=FOREACHaGENERATE$0,$1,$2,$3,$6,$7,$8,$9,$11,$12,$13,$14,$20,$24,$25;STOREbINTO‘myoutput’;谢谢。 最佳答案 是的,您将能够将结果存储在myoutput.txt中,并且您可以使用PigStorage将数据加载到包含任何

hadoop - 使用 Apache Hadoop Pig 内部连接两个数据集

我有两个数据集(1M唯一字符串)和(1B唯一字符串);我想知道有多少字符串在两个集合中是通用的,并且想知道使用ApachePig获取数字的最有效方法是什么? 最佳答案 您可以先加入两个文件,如下所示:A=LOAD'/joindata1.txt'AS(a1:int,a2:int,a3:int);B=LOAD'/joindata2.txt'AS(b1:int,b2:int);X=JOINABYa1,BBYb1;然后你可以计算行数:grouped_records=GROUPXALL;count_records=FOREACHgrouped

Hadoop Pig 无法存储到现有文件夹

我创建了一个文件夹,用于使用Store命令从Pig进程中删除结果文件。它第一次工作,但第二次它提示该文件夹已经存在。这种情况的最佳做法是什么?关于此主题的文档很少。我的下一步是将文件夹重命名为原始文件名,以减少这种影响。有什么想法吗? 最佳答案 你可以执行fscommands从Pig中,并且应该能够通过在运行STORE命令之前发出fs-rmr命令来删除目录:fs-rmrdirSTOREAinto'dir'usingPigStorage();唯一巧妙的是fs命令不需要目录名称周围的引号,而store命令确实需要目录名称周围的引号。