pig-udf

hadoop - 如何使用 oozie 启动 N 次脚本 Pig？

我需要处理大量具有特定日期的文件。我只找到一个解决方案，即每次使用不同的数据集启动N次作业。使用的分区基于yyyy、mm、dd。我有一个java操作，它生成用于每个数据的良好分区。我的问题是，如何创建一个循环来启动我的脚本N次？我今天使用oozie工作流。谢谢最佳答案这听起来像是coordinators的用例.可以声明Datasets并让oozie在特定数据集实例可用时自动启动工作流。关于hadoop-如何使用oozie启动N次脚本Pig？，我们在StackOverflow上找到一

Hadoop Pig - 如何设置中间结果的目录

我的Pig作业将中间结果存储在我的硬盘上，该硬盘很小。我希望Pig将这些中间结果存储在/data上。我必须更改哪个设置？最佳答案我必须在pigconf文件(/pig.-0.14.0/conf/pig-env.sh)中添加以下导出:exportPIG_OPTS="$PIG_OPTS-Dhadoop.tmp.dir=$path_to_big_hard_drive-Dpig.temp.dir=$path_to_big_hard_drive" 关于HadoopPig-如何设置中间结果的目录，

Hadoop Pig section path_to_big_hard_drive stackoverflow apache-pig

hadoop - 养 pig 运算符(operator)的逻辑计划和物理计划

在学习PigLatin时，我对像Co_group这样的运算符的逻辑到物理计划的想法有点困惑，如下所示。我不太明白如何理解这个图。最佳答案要深入了解逻辑计划和物理计划，请引用此链接:http://chimera.labs.oreilly.com/books/1234000001811/ch07.html#explain 关于hadoop-养pig运算符(operator)的逻辑计划和物理计划，我们在StackOverflow上找到一个类似的问题： https

运算符 operator section code hadoop mapreduce apache-pig

hadoop - PIG - 匹配 toDate 函数

我正在尝试将字符串转换为hadooppig中的日期时间对象。但是Grunt给我一个奇怪的错误信息:就像它不能选择正确的“ToDate”函数。它要求“显式类型转换”，但我不知道该怎么做。任何的想法？=>错误1045:无法将org.apache.pig.builtin.ToDate的匹配函数推断为多个或都不匹配。请使用显式转换。grunt>describeinfos_by_nu_affa;infos_by_nu_affa:{NU_AFFA:bytearray,affaires:{(NU_AFFA:bytearray,NU_PCP:bytearray,debut:bytearray,fin:

hadoop toDate code bytearray debut apache-pig

hadoop - 在 PIG 中连接带有时间戳的文件

如何将时间戳与pig生成的输出连接起来。我需要将pig生成的输出保存到另一个带有时间戳的文件夹中，以便将来可以将其用作历史数据。我尝试使用CurrentTime()但它给了我这样的错误:2015-03-3119:29:58,249[main]ERRORorg.apache.pig.tools.grunt.Grunt-ERROR1200:Cannotexpandmacro'CurrentTime'.Reason:Macromustbedefinedbeforeexpansion.如何定义这个宏？代码如下:A=load'/user/root/b2.out';X=FILTERABY($2==

hadoop PIG code section 39 apache-pig hue

java - 如何在eclipse中使用java运行嵌入式pig程序？

我是hadoop的新手。我正在使用pig0.14.0和hadoop1.2.1。我已经在本地和mapreduce模式下成功地从gruntshell和pig批处理脚本运行pig。现在我正在尝试从Java中的嵌入式pig运行pig。当我在eclipse中编译我的代码时，出现以下错误:Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/commons/logging/LogFactoryatorg.apache.pig.impl.util.PropertiesUtil.(PropertiesUtil.java:34)

java 何在 pigServer URLClassLoader eclipse hadoop mapreduce apache-pig

hadoop - 在 Apache Pig 中为元组创建模式

如何在加载关系时为以下元组数据创建Pig模式？]$catdata(3,8,9)(4,5,6)(1,4,7)(3,7,5)(2,5,8)(9,5,8)我在本地模式下尝试了下面的语句A=LOAD'/home/cloudera/data'AS(t1:tuple(t1a:int,t1b:int,t1c:int),t2:tuple(t2a:int,t2b:int,t2c:int));如果我转储数据，我期望结果DUMPA;((3,8,9),(4,5,6))((1,4,7),(3,7,5))((2,5,8),(9,5,8))但我得到的是，((3,8,9),)((1,4,7),)((2,5,8),)我

hadoop Apache code section pre apache-pig bigdata

powershell - 无法使用 Azure powershell 执行 pig 脚本

这是我的Pig脚本$QueryString="A=load'wasb://$containername@$StorageAccount.blob.core.windows.net/table1'usingPigStorage(',')as(col1chararray,col2chararray,col3chararray,col4chararray,col5chararray,col6chararray,col7int,col8int);"+"user_list=foreachAGENERATE$0;"+"unique_user=DISTINCTuser_list;"+"unique_

powershell Azure apache PigServer java hadoop apache-pig azure-hdinsight

hadoop - Apache Pig - 处理中间别名？

我正在编写一个包含许多操作的冗长的PigLatin脚本。有时，操作的唯一目的是获得中间关系X，该关系随后被转换或丰富为Y，此时X不再是出于兴趣。Pig是否将X保持在某处(例如在内存或HDFS中)具体化，我是否应该担心“释放”X？或者这在Pig和Hadoop之间得到了处理？奖励问题:如果在MapReduce上的Pig、Tez上的Pig和Spark上的Pig之间在运行时处理此类中间值时存在任何有趣的差异，那么也很高兴了解这一点。最佳答案 Pig使用惰性执行来评估。惰性求值的一些特征是处理只发生在DUMP/STORE命令上允许重新排序以

hadoop Apache section code Pig apache-pig

hadoop - 使用 PIG 计算平均值 |许多相同的条目

我是PIG的新手，因此是一个绝对的初学者。我有一个.txt文件，其条目如下所示:NameMatriculationNumberGradeNameofSubjectJohnWilliam0789328322.7ResearchJohnWilliam0789328322.3InternationalManagementJohnWilliam0789328321.7Math正如您所看到的，在文本文件中有许多关于同一个人但不同科目(当然)不同成绩的条目。我想计算每个学生的平均成绩。对于样本数据，我必须加上2.7、2.3和1.7，然后除以计数(三)。结果将是2.23。应为列表中的每个学生制定此程

条目许多 section code 078932832 hadoop apache-pig

46 47 484950 51 52