PIG_HOME_草庐IT

java - pig ToDate(日期 ,'dd/MMM/yyyy')问题

我将日期作为chararray以[30/Sep/2015:08:00:36-0700]格式存储。test=FOREACHbGENERATEToDate(SUBSTRING(time,1,12),'dd/MMM/yyyy')ASdate;它给我的输出类似于2015-10-31T00:00:00.000+05:30根据文档linkToDate(userstring,format)格式的第二个参数是JavaSimpleDateFormatclass所以它应该以日期时间格式输出30/Sep/2015。我将使用该日期进行排序。最佳答案输入

hadoop - 使用外部 java 库的 pig UDF

我编写的UDF使用一些外部库，如jackson-databird等...我如何指定pig应该在哪里寻找这些外部库？谢谢最佳答案如果将所有依赖项编译到一个fatjar中会怎样？关于hadoop-使用外部java库的pigUDF，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/35725301/

hadoop java section stackoverflow questions apache-pig cloudera hortonworks-data-platform

regex - Pig - 移除换行、回车和制表符

我试图从Pig的列中删除字符:\n、\t和\r，但我得到了错误的输出。这是我正在做的:qr_1=LOAD'hdfs://localhost:9000/sample.csv'USINGPigStorage(',')as(Id:int,PostTypeId:int,AcceptedAnswerId:int,ParentId:int,CreationDate:chararray,DeletionDate:chararray,Score:int,ViewCount:int,Body:chararray,OwnerUserId:int,OwnerDisplayName:chararray,Las

制表符 regex code chararray gt hadoop apache-pig

hadoop - Pig CLI 卡在 ">>"符号提示输入

我想了解下面的Pig代码有什么问题。以下代码的最后一次导致PigCLI卡在“>>”提示输入但无论我输入什么，它都会继续提示。newServiceIdMapping=load'/idn/home/data/new/ServiceIdMapping_test.csv'USINGPigStorage(',')AS(market:chararray,serviceId:chararray,rm:chararray,serviceChannel:chararray,team:chararray,pm:chararray,tl:chararray,gh:chararray);newServiceI

amp hadoop chararray section newServiceIdMapping apache-pig

hadoop - 如何在 Apache Pig 中按第二个字符排序列表？

如何按第二个字符排序列表？例如这个列表:applemangoorange我想按第二个字母排序(字母顺序)mangoappleorange谢谢! 最佳答案根据第一个字段的第二个字符生成第二个字段，然后按第二个字段排序，最后从排序关系中只得到第一个字段。A=LOAD'test3.txt'USINGPigStorage('\t')as(a1:chararray);B=FOREACHAGENERATEa1,SUBSTRING(a1,1,2)asa2;C=ORDERBBYa2;D=FOREACHCGENERATEa1;DUMPD;输出

序列表何在 section code hadoop apache-pig

sql - PIG - 如何按具有多个条目的字段分组

我希望能够在这里按小时分组，我知道我将提交多个小时条目。例如下面的第11个小时会出现多次。我该怎么做？hour,windSpeed11,3.62,6.811,2.513,5.014,8.911,3.2所以我有这个，我只想按小时分组举个例子我们想要{11:3.6,2.5,3.2}和remanings因为只有一个值会归入它自己的值{14:8.9}{2:6.8}answer=FOREACHweather_dataGENERATE$0AShour,$1asspeed 最佳答案按小时分组A=FOREACHweather_dataGENERA

条目 sql code section pre hadoop apache-pig

python - 无法将 pig 元组传递给 python UDF

我有master.txt，它有10K条记录，所以它的每一行都是一个元组，并且需要将整个元组传递给pythonUDF。由于它有多个记录，因此在存储p2preportmap时会出现以下错误。请帮忙错误如下:Unabletoopeniteratorforaliasp2preportmap.Backenderror:org.apache.pig.backend.executionengine.ExecException:ERROR0:Scalarhasmorethanonerowintheoutput.1st:(010301,MTS,MM),2nd:(010B06,MTS,TN)(common

python 传递 39 chararray code hadoop tuples apache-pig udf

hadoop - Pig 用户定义的函数不理解什么是 eval function()

我正在尝试分析以下代码，但无法弄清楚什么是Evalfunction()以及它的实际作用:packagemyudfs;importjava.io.IOException;importorg.apache.pig.EvalFunc;importorg.apache.pig.data.Tuple;publicclassUPPERextendsEvalFunc{publicStringexec(Tupleinput)throwsIOException{if(input==null||input.size()==0)returnnull;try{Stringstr=(String)input.g

function hadoop section input IOException apache-pig

hadoop - pig : Pivoting & Sum 3 relations

我有3种不同的关系，如下所述，我可以使用UDF获取输出，但在PIG中寻找实现。在论坛中提到了其他东西，但没有对这个问题有具体的想法。过程:FN1,10FN2,20FN3,23FN4,25FN5,15FN7,40FN10,56拒绝:FN1,12FN2,13FN3,33FN6,60FN8,23FN9,44FN10,4所有FN:FN1FN2FN3FN4FN5FN6FN7FN8FN9FN10所需的输出是:FN1,10,12,22FN2,20,13,33FN3,23,33,56FN4,25,0,25FN5,15,0,15FN6,0,60,60FN7,40,0,40FN8,0,23,23FN9,0

amp relations FN code section hadoop sum pivot apache-pig

hadoop - 使用 Pig 将数据移动到 HBASE

我尝试在我的hbase中移动851数据，因为我使用以下命令创建了hbasecreate'customers','customers_data'我使用pig脚本移动文件。我的pig脚本是STOCK_A=LOAD'/user/cloudera/xxx'USINGPigStorage('|');data=FILTERSTOCK_ABY($0matches'.*MH.*');MH_DATA=FOREACHdataGENERATE$1,$3,$4;STOREMH_DATAinto'hbase://customers'USINGorg.apache.pig.backend.hadoop.hbase

hadoop HBASE customers customers_data apache-pig bigdata