草庐IT

DISALLOWED_PIG_OPTIONS

全部标签

hadoop - Pig 中元组值的中位数?

我有一个包含一些数字的元组。例如:(a:17,b:14,c:123,d:23,e:37)找到该元组中数字的中位数的最佳方法是什么?因此,对于上面的一袋元组,我应该得到一袋单值元组,其中单个值是其中一个输入元组中值的中值。像这样:x=LOAD'/path/to/tuples.csv'USINGPigLoader(',')AS(a:int,b:int,c:int,d:int,e:int);y=FOREACHxGENERATEMEDIAN(a,b,c,d,e);我只是不知道如何构建上面的MEDIAN函数。我希望我不需要UDF! 最佳答案

file - 在 Pig 中使用 LOAD 时排除某些文件被加载

我试图通过LOAD命令将sqoop作业的输出加载到Pig中。我只想加载以名称“part”开头的文件。如何排除同一文件夹中存在的其他文件被加载。请帮忙。 最佳答案 这样加载,就可以了A=LOAD'part*'usingPigStorage(',');DUMPA;Example:part_input.txt1,2,34,5,6input.txt99.0,55.0,56.312.4,55.66,78.09output:1,2,34,5,6 关于file-在Pig中使用LOAD时排除某些文件被加

java - foreach 生成循环中的 Hadoop PIG 自定义 UDF 方法

是否可以编写将执行以下操作的UDF函数records=loadINPUTusingPigStorage()AS(vin:chararray,longString:chararray);simpleData=foreachrecordsgeneratevin,myUdfFunctionGetValue(longString,'someKey');这里longString的结构是"key:Value;key2:Value2,someKey:Value3...."所以我需要解析longString并获取询问键的值。我会走错方向吗?这在PIG中可能吗? 最佳答案

hadoop - Pig 连接中的转换错误

我有一个执行JOIN的脚本;当我在小数据上运行它时它成功了,但是当我增加数据大小时我得到这个错误:14/10/0719:10:19ERRORexecutionengine.Launcher:Backenderrormessageorg.apache.pig.backend.executionengine.ExecException:ERROR0:Exceptionwhileexecuting[POProject(Name:Project[tuple][0]-scope-577OperatorKey:scope-577)children:nullat[]]:java.lang.Class

hadoop - 在 PIG 中读取带有模式的文件

我有一个场景,我使用HCatStorer从一个目录加载40个具有不同模式的文件到Hive表。Directory:opt/inputfolder/InputFilesPattern:inp1*.log,inp2*.log,.....inp39*.log,inp40*.log.我写了一个pig脚本,它读取所有具有40种模式的文件。但我的问题是,这40个文件是强制性的,我可能无法收到某些文件。在这种情况下,我会收到一个异常说明:Causedby:org.apache.hadoop.mapreduce.lib.input.InvalidInputException:InputPatternop

hadoop - 用 Pig 写 SequenceFile 失败

我想将一些Pig变量存储到HadoopSequenceFile,以便运行外部MapReduce作业。假设我的数据具有(chararray,int)模式:(hello,1)(test,2)(example,3)我写了这个存储函数:importjava.io.IOException;importjava.util.logging.Level;importjava.util.logging.Logger;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.

hadoop - 使用 Pig 加载默认转储文件

这是PigStorage()需要用来为以下查询加载文件INSERTOVERWRITEDIRECTORY'doop'selecta.*fromcdr.cell_tower_info上面查询的输出是这样的哈里亚纳邦安巴拉40420803759176.7674630.373488404-20-80-37591哈里亚纳邦安巴拉40420803002176.7674630.373488404-20-80-30021哈里亚纳邦安巴拉邦40420803759176.7674630.373488404-20-80-37591我正在使用CDR分析,首先我需要使用select从表中检索一些字段并将其保存到

date - 如何使用 pig 将 UTC 时间转换为 IST

我有一个机器数据进入hdfs,如下所示,第8个字段是UTC时间(060037),我需要将其转换为IST并使用pig将时间格式设置为hh:mm:ssVTS,01,0097,9739965515,NM,GP,20,060037,V,0000.0000,N,00000.0000,E,0.0,0.0,061114,0068,00,4000,00,999,149,9594VTS,01,0097,9739965515,SP,GP,33,060113,V,0000.0000,N,00000.0000,E,0.0,0.0,061114,0068,00,4000,00,999,152,B927使用字符串

hadoop - 通过色调传递 pig 参数(多查询)

我正在从HUE运行一个pig作业。在我现在的项目中,我需要运行pigpig-no_multiquery在使用Hue时我应该在哪里(以及如何)传递它?我无法使用多查询运行此作业。或者,有没有办法切换多查询? 最佳答案 我看起来不够努力。SETopt.multiqueryfalse;在pig脚本中,它本身似乎正在按预期运行我的工作。 关于hadoop-通过色调传递pig参数(多查询),我们在StackOverflow上找到一个类似的问题: https://stac

hadoop - Pig 中的 SimpleTextLoader UDF

我想为PigUDF创建一个自定义加载函数,我已经使用链接创建了一个SimpleTextLoaderhttps://pig.apache.org/docs/r0.11.0/udf.html,我已经成功地为此代码生成了jar文件,在pig中注册并运行Pig脚本。我得到的是空输出。我不知道如何解决这个问题,我们将不胜感激。下面是我的Java代码publicclassSimpleTextLoaderextendsLoadFunc{protectedRecordReaderin=null;privatebytefieldDel='\t';privateArrayListmProtoTuple=n