Pig

hadoop - 如何在 Pig Latin 中放置带引号字符串的参数？

我在PigLatin中遇到问题我有一段Pig代码，它将调用带引号的字符串data=LOAD'$data'AS(...);a=some_macro(data,'-9999ASKEY');宏是这样的:DEFINEsome_macro(data,string)RETURNSresults{grp=GROUP$dataALL;$result=FOREACHgrp{//...logicandlogicsGENERATE$string,//...otherfields...;}}对于字符串“-9999ASKEY”，Pig0.10好像不行，我试了“'-9999'ASKEY”，又不行。那么有人对此有解

中放引号 section code hadoop bigdata apache-pig

hadoop - Pig 中的条件和

我正在使用三元运算符有条件地在SUM()操作中包含值。这是我的做法。GROUPED=GROUPALL_MERGEDBY(fld1,fld2,fld3);REPORT_DATA=FOREACHGROUPED{GENERATEgroup,SUM(GROUPED.fld4=='S'?GROUPED.fld5:0)ASsum1,SUM(GROUPED.fld4=='S'?GROUPED.fld5:(GROUPED.fld5*-1))ASsum2;}ALL_MERGED的架构是{ALL_MERGED:{fld1:chararray,fld2:chararray,fld3:chararray,fl

hadoop Pig fld code chararray apache-pig

hadoop - 从 Pig 中的另一行中减去一行的值

我正在尝试使用Pig开发一个示例程序来分析一些日志文件。我想分析不同作业的运行时间。当我读入作业的日志文件时，我得到作业的开始时间和结束时间，如下所示:(Wed,03/20/13,01:03:37,EDT)(Wed,03/20/13,01:05:00,EDT)现在，要计算耗时，我需要减去这2个时间戳，但由于两个时间戳都在同一个包中，我不确定如何比较它们。所以我正在寻找有关如何执行此操作的想法。谢谢! 最佳答案两个日志行中的作业是否有唯一ID？还有什么东西可以指示哪个事件开始，哪个事件结束？如果是这样，您可以读取数据集两次，一次用于

hadoop Pig section timestamp code apache-pig

hadoop - Apache Pig 和 Hadoop 的实现

我了解到Pig是构建在ApacheHadoop之上的。但是我无法找到Pig所具有的裸hadoop实现所缺少的额外功能。是什么导致需要像PigLatin这样的语言？Hadoop缺少什么？最佳答案引用自维基:Pigisahigh-levelplatformforcreatingMapReduceprogramsusedwithHadoop.ThelanguageforthisplatformiscalledPigLatin.PigLatinabstractstheprogrammingfromtheJavaMapReduceidio

hadoop Apache section Pig apache-pig

Java & Pig - 是否可以将 pig 脚本的输出放入 Java 变量中？

我用PigLatin编写了一个脚本，然后通过Java执行它。这是我的代码:publicstaticvoidmain(Stringargs[]){PigServerpigServer;try{Propertiesprops=newProperties();props.setProperty("fs.default.name","hdfs://localhost:8022");props.setProperty("mapred.job.tracker","localhost:8021");System.setProperty("javax.xml.parsers.DocumentBuild

Java amp code section PigServer hadoop bigdata apache-pig

hadoop - 如何解决 pig 中的 "Error during parsing. could not instantiate"？

大家好，我是Pig的新手，我正在尝试遵循Pig脚本:然后它显示以下错误:ERROR1000:解析时出错。无法使用参数“null”实例化“UPER”详细信息位于日志文件:/home/training/pig_1371303109105.log我的Pig脚本:registerudf.jar;A=LOAD'data1.txt'USINGPigStorage(',')AS(name:chararray,class:chararray,age:int);B=foreachAgenerateUPER(class);我关注this教程。我的java类是:entercodehereimportorg.

instantiate amp code section apache hadoop apache-pig

hadoop - 如何在 pig 输出中抑制科学记数法

这可能是一个快速的问题，但我尝试使用谷歌搜索无济于事。基本上，我的一个输出列中有一个输出，有时会变成科学记数法。例如3.9E-4。但是，如果数字足够大，它会将其保留为float，例如0.08544751199999999。我如何取消科学记数法？! 最佳答案我认为PigLatin无法做到这一点。为了解决类似的问题，我自己编写了一个UDF，它只是String.format的包装器。:importjava.io.IOException;importorg.apache.pig.EvalFunc;importorg.apache.pig.

何在抑制 39 case String hadoop apache-pig

hadoop - (hadoop.pig) 单个表中的多个计数

所以，我有一个包含两个值的数据，一个是字符串，一个是数字。data(string:chararray,number:int)我正在计算5种不同的规则，1:int为0~1。2:int为1~2.~5:int为4~5.所以我能够单独数出它们，zero_to_one=filteravg_userbyaverage_stars>=0andaverage_stars1andaverage_stars2andaverage_stars3andaverage_stars4andaverage_stars所以，这是可以做到的，但是这只会产生5个单独的表。我想看看有没有办法(花哨是可以的，我喜欢花哨的东西

hadoop pig count number FOREACH apache-pig

hadoop - 如何让 Pig 将多个文件馈送到一个映射器中

是否可以让Pig使用一个映射器处理多个小文件(假设这样做会提高工作速度)。我们有一个问题，即hdfs中有数千个小文件，而pig创建了数百个映射器。Pig是否提供了解决此问题的简单(完整或部分)解决方案？最佳答案您可以利用这些属性将这些多个文件组合成一个文件，以便它们由单个map处理:pig.maxCombinedSplitSize–指定要由单个映射处理的数据的大小(以字节为单位)。合并较小的文件，直到达到此大小。pig.splitCombination–打开或关闭合并拆分文件(默认设置为“true”)。此功能适用于PigStor

射器送到 section strong hadoop mapreduce hdfs apache-pig

windows-7 - Hive 和 PIG/Grunt shell 卡在 cygwin 上

我在我的Windows7机器(32位)上以本地模式运行Hadoop。我已经把HIVE/PIG/Hadoop/Java6都安装在C盘了。我使用的是Cygwin版本:2.819。我已经在cygwin上安装了C:。我能够从cygwin终端运行hadoop命令，例如:fs-ls等。我还可以启动grunt和hiveshell。但真正的问题是:我在gruntshell上输入的任何命令(例如:fs-ls或records=LOAD.....)我没有看到任何输出，它有点挂起。与配置单元提示类似，如果我将命令作为showtables给出；我没有看到任何输出，只是光标一直在闪烁!任何键盘输入并没有给出任何结

windows cygwin export section HOME windows-7 hadoop hive apache-pig

16 17 181920 21 22