Pig

hadoop - 如何记录我编写的 Pig Latin grunt shell 命令？

我是Pig和PigLatin的新手。我想记录我在交互式gruntshell中编写的命令，以便我可以拼凑工作的PigLatin脚本。这可能吗？是否有一个文件存储我编写的命令的历史记录，类似于我的“.bash_history”文件？我想访问“.grunt_history”，如果存在这样的东西，或者以某种方式打开记录到文件。最佳答案 Pig历史文件位于~/.pig_history中。因此，如果您的用户家是/home/joe，则路径是/home/joe/.pig_history。但是，您需要注意定位用户主目录。您可以从/etc/passw

编写 hadoop section code history apache-pig

hadoop - 如何引用 pig 输出中的列

我有一个包含以下值的数据文件:A1B2C3C3我写了下面的pig脚本。A=load'users.txt'as(usr:int,nod:int);B=GROUPABYusr;C=FOREACHBGENERATEgroup,COUNT(A);现在，我想使用输出C并进一步处理它。我如何引用C中的值/列？我试过DUMPing数据，但它们以键值对的形式出现？我是否需要将此输出写入文件，再次加载并处理？谢谢，TM 最佳答案按以下方式为创建的列命名:C=FOREACHBGENERATEgroupasusr,COUNT(A)ascountA;随后

hadoop pig section code pre apache-pig

join - pig - 加入不起作用

我在加入pig时遇到问题。我将首先为您提供背景信息。这是我的代码:--STARTfileloadingstart_file=LOAD'dir/start_file.csv'USINGPigStorage(';')as(PARTRANGE:chararray,COD_IPUSER:chararray);--trimA=FOREACHstart_fileGENERATETRIM(PARTRANGE)ASPARTRANGE,TRIM(COD_IPUSER)ASCOD_IPUSER;dumpA;给出输出:(79.92.147.88,20140310)(79.92.147.88,20140310

join pig code 20140310 file hadoop bigdata apache-pig

hadoop - pig : Running two aggregation functions

我是Pig的新手，想运行两个聚合函数，但我不知道该怎么做。我的数据包括每行一次购买交易，其中我有一个SKU(库存标识符)和客户为SKU支付的价格(价格可能会有所不同):skuprice_paid-------------12321.7078962.1212322.1012319.7845611.9178955.13我想生成以下列表，其中包含SKU、购买该SKU的次数以及为该SKU支付的平均价格。该列表应按计数降序排列。skucountave_price_paid--------------------------123321.19789258.63456111.91如有任何帮助，我们将

aggregation functions code pre price_paid hadoop mapreduce apache-pig

hadoop - 在 PIG 中加载多个文件

我有35个Csv文件，我想使用Pig加载数据。我已经尝试了以下尝试1)A=LOAD'/home/mrinmoy/Desktop/SampathProject/Household/{HLPCA-00000,HLPCA-01000,HLPCA-02000,HLPCA-03000,HLPCA-04000,HLPCA-05000,HLPCA-06000,HLPCA-07000,HLPCA-08000,HLPCA-09000,HLPCA-10000,HLPCA-11000,HLPCA-12000,HLPCA-13000,HLPCA-14000,HLPCA-15000,HLPCA-16000,HL

中加 hadoop HLPCA code section apache-pig

hadoop - 在 Pig 中使用 python udf 时出错

我正在尝试使用pythonudf，但它抛出了以下错误。我用的是CDH5.2cat/home/spanda20/pig_data/panda1.pydefget_length(data):returnlen(data)REGISTER'/home/spanda20/pig_data/panda1.py'USINGjythonasmy_udf;grunt>A=LOAD'hdfs://itsusmpl00509.jnj.com:8020/user/spanda20/pig_1.dat'USINGPigStorage(',')AS(name:chararray,id:int);grunt>B=

时出 hadoop section strong pig hive apache-pig

hadoop - 有没有办法在 Pig Script 中创建索引？

我有一个没有ID号(索引)的数据文件。可以使用UDF或pig中的任何内置函数为每个条目创建索引吗？例如:data=load'myfile.txt'usingPigStorge(',')AS(speed:float,location:charrarray);A=foreachdatagenerateindexas(Id:int),speed,location;我在将数据从pig加载到Hbase时遇到问题，因为hbase将速度读取为行键值，并且我的文件中有许多重复数据(速度)。我想将索引设置为行键值并存储在Hbase表中。你对此有什么建议吗？谢谢你。最佳答案

中创 hadoop section location speed indexing hbase apache-pig

hadoop - Pig on local 模式与 pig-without hadoop.jar 的区别

我想知道如果我在本地模式下使用pig(内部调用Mapreduce)与使用PIG-withouthadoop.jar文件相比，性能增益或损失是什么？PIG-withouthadoop.jar真的不用hadoop吗？？？如果我只想使用没有集群的Pig，比如设计数据流，那么我应该使用什么？Pig在本地模式或pig-withouthadoop.jar文件？？目前我已经使用pig本地模式编写了我的脚本，并且在尝试在服务器中部署并在本地模式下设置PIG时，我想我还需要在设置PIG_HOME变量之前在环境变量中设置HADOOP_HOME请指教..提前致谢。:) 最佳答案

hadoop pig-without section Pig mapreduce apache-pig bigdata dataflow

hadoop - Pig 将一个表中的数字乘以另一个表中的所有值

我有两个表:A:(feature:chararray,value:float)B:(multiplier:charray,value:float)其中A是一个有数千行的表，而B只有一行。我想做的是获取A中的所有行并将A.value乘以B.value。例如A:[('f1',1.5),('f2',2.3)]B:[('mul',2)]我想制作一张tableCC:[('f1',3),('f2',4.6)]有没有简单的方法来做到这一点？最佳答案您可以执行CROSS和FOREACH...GENERATE。X=ACROSSB;Y=FOREAC

乘以 hadoop code section value apache-pig

java - 无法从 Pig 解析 Java UDF 中的方法

我在这里使用PigonHadoop和DataFu示例(http://datafu.incubator.apache.org/docs/datafu/guide/set-operations.html)，这是我的代码和错误消息，有人知道哪里出了问题吗？谢谢。registerdatafu-1.2.0.jar;definesetDifferencedatafu.pig.sets.SetDifference();--({(3),(4),(1),(2),(7),(5),(6)},{(1),(3),(5),(12)})input=load'input.txt'AS(B1:bag{T:tuple(v

java section datafu sorted hadoop apache-pig user-defined-functions udf

58 59 606162 63 64