我正在使用Hortonworks沙盒并尝试运行一个简单的pig脚本。似乎有与“文件不存在”相关的恼人错误。脚本如下:REGISTER'/piggybank.jar';inp=load'/my.csv'USINGorg.apache.pig.piggybank.storage.CSVExcelStorage..ERROR2997:EncounteredIOException.Filedoesnotexist:hdfs://sandbox.hortonworks.com:8020/tmp/udfs/'/piggybank.jar'但是,我的jar位于根目录(/)中,并且我也给予了适当的许可
REGISTER/home/hadoop/pigg/trunk/contrib/piggybank/java/piggybank.jar;--UsethePigStoragefunctiontoloadtheexcitelogfileintotherawbagasanarrayofrecords.--Input:(user,time,query)A=LOAD'hadoop-test-data.csv'USINGPigStorage(',')AS(user:chararray,site:chararray,view:int,click:int);B=FOREACHAGENERATEorg
我在EMR上运行一个pig脚本,它读取以Avro格式存储的数据。它一直在本地工作,但为了让脚本的其他部分在EMR上工作,我不得不将我使用的piggybank.jar恢复为0.9.2而不是0.10.0。进行该更改后,AvroStorage静默地无法读取任何数据并仅返回零记录。日志或任何内容中均未提及。这是脚本:REGISTER../../../lib/avro-1.7.0.jarREGISTER../../../lib/json-simple-1.1.1.jarREGISTER../../../lib/jackson-core-asl-1.5.2.jarREGISTER../../../
我正在使用piggybank-0.12.0.jar,pig版本是0.12(CDH)pig--versionApachePigversion0.12.0-cdh5.3.2(rexported)我正在尝试使用piggybankjar的XMLLoader加载xml文件。在出现以下错误期间:REGISTERpiggybank-0.12.0.jar;DEFINEXMLLoaderorg.apache.pig.piggybank.storage.XMLLoader();DEFINERegexExtractAllorg.apache.pig.piggybank.evaluation.string.R
我有一个包含以下行的文件:3124,"hello...",ku43125,"hello,hi",ab2我想加载包含三列的文件。我使用了PigStorage(',')但它也将"hello,hi"一分为二。我想要它在一个字段下。我怎样才能做到这一点? 最佳答案 您可以编写自己的自定义UDF或使用piggybank.jar中的CSVLoader--Getpiggybank.jarthatiscompatiblewithyourpigversionandregisteritinyourpigscriptbypointingtotheloca
嘿,我按照这里的步骤操作:http://wiki.apache.org/pig/PiggyBank构建存钱jar,但我不断得到下面的输出。我还从源代码构建了pig项目,并在我的.bash_profile中引用了它:cloudera@cloudera-demo:~/piggybank/java$./makepiggy.shBuildfile:/home/cloudera/piggybank/java/build.xmldownload-hive-deps:init:compile:[echo]***CompilingPigUDFs***[javac]/home/cloudera/pigg
我只是想将pig的日期时间格式转换为纪元时间,这样我就可以用时间进行其他计算。下面是我的(部分)脚本:DEFINEISOToUnixorg.apache.pig.piggybank.evaluation.datetime.convert.ISOToUnix();A=LOAD's3://hearstlogfiles/google/NetworkBackfillImpressions_271283/2014/09/24/NetworkBackfillImpressions_271283_20140924_00.gz'USINGPigStorage(',');B=LIMITA10;C=FOR