草庐IT

pig-without

全部标签

eclipse - 如何为 Eclipse 安装 Pig 插件

我即将开始在Ubuntu中使用ApachePig,并且一直在寻找最好的Pig插件和快速安装指南以从Eclipse中的示例PIG脚本开始。我搜索了很多但找不到正确的描述如何在eclipse中安装pig插件。任何帮助将不胜感激! 最佳答案 Idk关于插件,但对于脚本执行,您可以使用以下简单代码Propertiesprops=newProperties();props.setProperty("pig.splitCombination","false");//anyotherpropertiesyouneedPigServerpigSer

hadoop - pig 条件语句

我想我已经知道了这个问题的答案,但我只是想在我放弃并做一些丑陋的事情之前检查一下。我有一个查询需要计算总点击次数以及不同用户的总数。总点击次数就是这段代码没有区别:report=FOREACHreportGENERATEuser,genre,title;report=DISTINCTreport;report=GROUPreportBY(genre,title);我的问题本质上是:有没有办法编写一个条件语句来跳过这个过程中的DISTINCT步骤?伪:report=FOREACHreportGENERATEuser,genre,title;if$report_type=='users':

python - PIG UDF (Python) 字符集编码

我是编写Python和PigUDF的初学者,正在努力使用PIG对输入文件进行字符集转换。浏览了stackoverflow和整个互联网几天,尝试了很多不同的东西,但我仍然无能为力。希望有人能轻轻地把我推向正确的方向。环境:一个真正的分布式Hadoop集群(无本地实例)/Cloudera配置有utf-8和ApachePigversion0.12.0我的源文件使用iso-8859-1编码,目标是将其内容存储为utf-8(在pig中的其他几个操作之后或之前).输入文件如下所示(用于测试目的的几个ASCII/iso-8859-1字符-每行一个字符):ùûüÿàâæçéèêëîô这是我的Pig脚本

hadoop - 获取 Apache Pig 中每 N 个元组的平均值

假设我有一个包含两列CUSTTYPE和AMOUNT的表。我想添加第三列NTILE然后我可以对其进行分组并使用它来获得我的平均值,如下所示:CUSTTYPE|AMOUNT|NTILE----------+---------+----------RETAIL|78.00|1RETAIL|234.00|1RETAIL|249.00|1RETAIL|278.00|2RETAIL|392.00|2RETAIL|498.00|2RETAIL|500.00|3RETAIL|738.00|3RETAIL|1250.00|3RETAIL|2029.00|4RETAIL|2393.00|4RETAIL|3

hadoop - Mapper 和 Reducer 如何协同工作 "without"排序?

我知道mapreduce是如何工作的以及我有哪些步骤:绘图随机排序减少当然,我有分区、组合器,但现在这些并不重要。有趣的是,当我运行mapreduce作业时,看起来mappers和reducers并行工作:所以我不明白这怎么可能。问题1.如果我有多个节点在做映射操作,reducer如何开始工作?因为Reducer不能在没有排序的情况下开始工作吗?(输入必须为Reducer排序-如果mapper仍在工作,则输入无法排序)。问题2.如果我有多个reducer,最后的数据如何合并在一起?换句话说,最终结果应该排序对吧?这意味着我们要花费额外的O(n*Logn)时间来合并“多个reducer结

Hadoop pig 拉丁风格指南?

我希望在piglatin(hadoop-ay)的格式/样式方面走捷径。有人知道我在哪里可以找到风格指南吗? 最佳答案 这里有一些很好的例子:https://github.com/Ganglion/sounder 关于Hadooppig拉丁风格指南?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/2035720/

hadoop - 是否有相当于 "SHOW TABLES"的 apache pig?

我有一个要在Pig中访问的Hadoop数据存储,但没有很多关于它的文档,而且我是Pig的新手,所以我正在寻找与“SHOWTABLES”等效的Pig。当我连接到MySQL数据库时,我可以执行此操作并大致了解其中的数据;我找到了几个教程,但没有任何内容。如果不是,是否有其他方法可以让我自己定位到我一无所知的Hadoop数据存储?预计到达时间:这将是在交互模式下运行Pig时,而不是加载脚本。可能很明显,但我想我应该提一下。 最佳答案 我能看到的最接近“显示表”的是“历史”命令,它有效地列出了所有创建的别名。grunt>history1a=

hadoop - Pig Latin 中的百分位数计算

我正在尝试使用Pig计算百分位数。我需要使用属性对数据进行分组,并根据销售额计算组中每个元组的百分位数。我发现没有内置的Pig函数可以执行此操作。想知道以前是否有人遇到过类似的问题可以帮助我。 最佳答案 如JaiPrakash所述,您可以使用UDFStreamingQuantile来自ApacheDataFu图书馆。由于我已经准备好示例,因此我将其复制到此处。输入item1,234item1,324item1,769item2,23item2,23item2,45PIG脚本registerdatafu-1.2.0.jar;defin

hadoop - 本地机器上的 Pig 出错

我是新手,如果问题看起来很愚蠢,请原谅我。我已经安装了hadoop1.2.1,基本的wordcount示例在我的本地运行良好,因此为了进行下一级别的探索,我安装了Pig0.13.0。当我刚刚尝试运行pig-help时,它似乎工作正常。但是当我运行pig版本时,我得到如下的IOException:14/08/0601:00:08INFOpig.ExecTypeProvider:TryingExecType:LOCAL14/08/0601:00:08INFOpig.ExecTypeProvider:TryingExecType:MAPREDUCE14/08/0601:00:08INFOpi

hadoop - 从 pig 中的单行输入生成多行输出

我的要求是通过在pig脚本中使用单行输入来生成多行输出。有哪些可能的解决方案? 最佳答案 这个想法是将您输入的行转换成一个包,然后将其展平。这可能是2种情况:阅读文本:txt=load'/pig_fun/input/text.txt'usingTextLoader();words=foreachtxtgenerateTOKENIZE($0);pivoted=foreachwordsgenerateFLATTEN($0);dumppivoted;输入:Myrequirementistogeneratemultiplelinesofou