草庐IT

hadoop - 如何记录我编写的 Pig Latin grunt shell 命令?

我是Pig和PigLatin的新手。我想记录我在交互式gruntshell中编写的命令,以便我可以拼凑工作的PigLatin脚本。这可能吗?是否有一个文件存储我编写的命令的历史记录,类似于我的“.bash_history”文件?我想访问“.grunt_history”,如果存在这样的东西,或者以某种方式打开记录到文件。 最佳答案 Pig历史文件位于~/.pig_history中。因此,如果您的用户家是/home/joe,则路径是/home/joe/.pig_history。但是,您需要注意定位用户主目录。您可以从/etc/passw

hadoop - 如何引用 pig 输出中的列

我有一个包含以下值的数据文件:A1B2C3C3我写了下面的pig脚本。A=load'users.txt'as(usr:int,nod:int);B=GROUPABYusr;C=FOREACHBGENERATEgroup,COUNT(A);现在,我想使用输出C并进一步处理它。我如何引用C中的值/列?我试过DUMPing数据,但它们以键值对的形式出现?我是否需要将此输出写入文件,再次加载并处理?谢谢,TM 最佳答案 按以下方式为创建的列命名:C=FOREACHBGENERATEgroupasusr,COUNT(A)ascountA;随后

join - pig - 加入不起作用

我在加入pig时遇到问题。我将首先为您提供背景信息。这是我的代码:--STARTfileloadingstart_file=LOAD'dir/start_file.csv'USINGPigStorage(';')as(PARTRANGE:chararray,COD_IPUSER:chararray);--trimA=FOREACHstart_fileGENERATETRIM(PARTRANGE)ASPARTRANGE,TRIM(COD_IPUSER)ASCOD_IPUSER;dumpA;给出输出:(79.92.147.88,20140310)(79.92.147.88,20140310

hadoop - pig : Running two aggregation functions

我是Pig的新手,想运行两个聚合函数,但我不知道该怎么做。我的数据包括每行一次购买交易,其中我有一个SKU(库存标识符)和客户为SKU支付的价格(价格可能会有所不同):skuprice_paid-------------12321.7078962.1212322.1012319.7845611.9178955.13我想生成以下列表,其中包含SKU、购买该SKU的次数以及为该SKU支付的平均价格。该列表应按计数降序排列。skucountave_price_paid--------------------------123321.19789258.63456111.91如有任何帮助,我们将

hadoop - 在 PIG 中加载多个文件

我有35个Csv文件,我想使用Pig加载数据。我已经尝试了以下尝试1)A=LOAD'/home/mrinmoy/Desktop/SampathProject/Household/{HLPCA-00000,HLPCA-01000,HLPCA-02000,HLPCA-03000,HLPCA-04000,HLPCA-05000,HLPCA-06000,HLPCA-07000,HLPCA-08000,HLPCA-09000,HLPCA-10000,HLPCA-11000,HLPCA-12000,HLPCA-13000,HLPCA-14000,HLPCA-15000,HLPCA-16000,HL

hadoop - 在 Pig 中使用 python udf 时出错

我正在尝试使用pythonudf,但它抛出了以下错误。我用的是CDH5.2cat/home/spanda20/pig_data/panda1.pydefget_length(data):returnlen(data)REGISTER'/home/spanda20/pig_data/panda1.py'USINGjythonasmy_udf;grunt>A=LOAD'hdfs://itsusmpl00509.jnj.com:8020/user/spanda20/pig_1.dat'USINGPigStorage(',')AS(name:chararray,id:int);grunt>B=

hadoop - 有没有办法在 Pig Script 中创建索引?

我有一个没有ID号(索引)的数据文件。可以使用UDF或pig中的任何内置函数为每个条目创建索引吗?例如:data=load'myfile.txt'usingPigStorge(',')AS(speed:float,location:charrarray);A=foreachdatagenerateindexas(Id:int),speed,location;我在将数据从pig加载到Hbase时遇到问题,因为hbase将速度读取为行键值,并且我的文件中有许多重复数据(速度)。我想将索引设置为行键值并存储在Hbase表中。你对此有什么建议吗?谢谢你。 最佳答案

hadoop - Pig on local 模式与 pig-without hadoop.jar 的区别

我想知道如果我在本地模式下使用pig(内部调用Mapreduce)与使用PIG-withouthadoop.jar文件相比,性能增益或损失是什么?PIG-withouthadoop.jar真的不用hadoop吗???如果我只想使用没有集群的Pig,比如设计数据流,那么我应该使用什么?Pig在本地模式或pig-withouthadoop.jar文件??目前我已经使用pig本地模式编写了我的脚本,并且在尝试在服务器中部署并在本地模式下设置PIG时,我想我还需要在设置PIG_HOME变量之前在环境变量中设置HADOOP_HOME请指教..提前致谢。:) 最佳答案

hadoop - Pig 将一个表中的数字乘以另一个表中的所有值

我有两个表:A:(feature:chararray,value:float)B:(multiplier:charray,value:float)其中A是一个有数千行的表,而B只有一行。我想做的是获取A中的所有行并将A.value乘以B.value。例如A:[('f1',1.5),('f2',2.3)]B:[('mul',2)]我想制作一张tableCC:[('f1',3),('f2',4.6)]有没有简单的方法来做到这一点? 最佳答案 您可以执行CROSS和FOREACH...GENERATE。X=ACROSSB;Y=FOREAC

java - 无法从 Pig 解析 Java UDF 中的方法

我在这里使用PigonHadoop和DataFu示例(http://datafu.incubator.apache.org/docs/datafu/guide/set-operations.html),这是我的代码和错误消息,有人知道哪里出了问题吗?谢谢。registerdatafu-1.2.0.jar;definesetDifferencedatafu.pig.sets.SetDifference();--({(3),(4),(1),(2),(7),(5),(6)},{(1),(3),(5),(12)})input=load'input.txt'AS(B1:bag{T:tuple(v