草庐IT

DISALLOWED_PIG_OPTIONS

全部标签

hadoop - 使用 Hue - Pig Editor,如何将 param_file 提供给 pig 脚本?

我们可以使用Hue-PigEditor提供参数。但是,如何使用Hue将参数文件提供给pig脚本。在gruntshell中,我们使用以下命令来提供参数文件。$pig-param_file/tmp/pig_params.txttest.pig以上是我想从Hue的PigEditor做的事情。可能吗? 最佳答案 Pig编辑器有一个带有“Pig参数”列表的“属性”部分。你可以进去输入/用户/数据-paraminput=/user/data-optimizer_offSplitFilter-详细最新的Hue版本:http://demo.geth

hadoop - Pig 中的 SUM、AVG 不起作用

我在pig中使用以下代码分析集群用户日志文件:t_data=load'log_flies/*'usingPigStorage(',');A=foreacht_datagenerate$0as(jobid:int),$1as(indexid:int),$2as(clusterid:int),$6as(user:chararray),$7as(stat:chararray),$13as(queue:chararray),$32as(projectName:chararray),$52as(cpu_used:float),$55as(efficiency:float),$59as(numTh

hadoop - pig 加载多个顺序文件

假设一个目录下有多个文件,如果一个把目录传给PigLoadA=LOAD'/SomeDir/'它将一次加载所有文件(我想以任何顺序......我不确定)。但是考虑文件名是否是动态的并且也是按顺序排列的,例如根据日期,如何按该顺序调用Pig加载?或者unixlistdirectory命令可以使用ls吗?/SomeDir$ls20150101.csv20150102.csv20150104.csv.......#Pigloadfilesatoncewhilekeepingtheorder 最佳答案 PigLOAD语句用于从指定位置读取输入

hadoop - 通过 pig 脚本传递参数时出错

当我尝试使用属性文件调用pig脚本时出现错误:pig-P/mapr/ANALYTICS/apps/PigTest/pig.properties-fpig_if_condition.pigSLF4J:ClasspathcontainsmultipleSLF4Jbindings.SLF4J:Foundbindingin[jar:file:/opt/mapr/lib/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class]SLF4J:Foundbindingin[jar:file:/opt/mapr/hbase/hba

hadoop - 如何避免 PIG 中的符号零

我有两个双变量,比如A和B。A列将始终具有正值,B列可以同时具有正值和负值。当我试图划分以上两个变量时:A/BB=FOREACHA生成0.0/-5.4结果(-0.0)我期望值​​为0.0,但我得到的是-0.0。你能建议我在PIG中缓解这个问题的方法吗? 最佳答案 最好选择双子运算符(?:)。A=LOAD'a.csv'usingPigStorage(',')AS(a:double,b:double);B=FOREACHAGENERATE(a==0?a:((b==0)?NULL:a/b))ASc;DUMPB;输入:a.csv0.0,-5

hadoop - 如何创建一个在 pig 中嵌套包的输出模式

我正在试用PigUDF,并且一直在阅读它。虽然在线内容很有帮助,但我仍然不确定我是否了解如何创建具有嵌套包的复杂输出模式。求助,需求如下。比方说,我正在分析电子商务订单数据。一个订单中可以订购多个产品。我将产品级别数据分组到订单级别。这是我的UDF的输入。因此,包含每个订单中产品信息的订单级别的每个分组数据都是我的输入。输入模式:(grouped_at_order,{(input_column_values_at_product1_level),(input_column_values_at_product2_level)})我会在UDF中计算订单级别和产品级别的指标。例如:sum(p

hadoop - 根据条件加入并按时间范围过滤并限制为 Pig 中的第一行

我有关系A、关系B。对于A中的每一行,在关系B中可能有多个映射。说:A=(id1,type,location,gender,startDateTime)B=(id2,type,location,gender,registerStartDateTime,registerEndDateTime,value)我需要在(类型、位置和性别)和时间(startDateTime>registerStartDateTime)和(startDateTime此连接可能会从B返回具有不同值的多行。我只想选择第一个返回的行并最终输出。output=JoinAby(type,location,gender),B

hadoop - 使用 Pig/Python 检查 HDFS avro 格式的字段是否存在

我在HDFS中有一组以Avro格式存储的文件。其中一些有一个名为id:int的列,如下所示{"type":"record","name":"metric","fields":[{"name":"timestamp","type":"long"},{"name":"id","type":"long"},{"name":"metric","type":"string"},{"name":"value","type":"double"}]}我需要标记具有“id”列的文件(输出文件名)。有没有办法在Python中使用Pig/PythonUDF/Pig流或嵌入式Pig来完成它。我已经将Pytho

java - 如何在 Pig Hadoop 中以简单日期格式 ex "yyyy-MM-dd hh-MM-ss"转换长毫秒

如何将long毫秒转换为simpledate格式ex:yyyy-MM-ddhh-MM-ss在PigHadoop中exampleinput=1409051466000output="yyyy-MM-ddhh-MM-ss"在Pig脚本中。 最佳答案 谢谢krishanthy-mohanachandran。但是我在pig中有很好的脚本。我正在试用并完成。以简单的日期格式转换毫秒yyyy-MM-ddhh-MM-sspig中的脚本:curtime=milisecond-long(1409051466000)为了格式化,我可以将它转换为日期,然

hadoop - 如何在 PIG 中使用 FILTER 获取 for 循环内的匹配值?

将此视为我的输入,Input(File1):12345;1134567;12..Input(File2):11;(1,2,3,4,5,6,7,8,9)12;(9,8,7,6,5,4,3,2,1)..我想得到如下输出:Output:(1,2,3,4,5,6,7,8,9)(9,8,7,6,5,4,3,2,1)这是我尝试使用FILTER的示例代码,我遇到了一些错误。请建议我一些其他选项。data1=load'/File1'usingPigStorage(';')as(id,number);data2=load'/File2'usingPigStorage(';')as(numberInfo,