我有一个场景,我使用HCatStorer从一个目录加载40个具有不同模式的文件到Hive表。Directory:opt/inputfolder/InputFilesPattern:inp1*.log,inp2*.log,.....inp39*.log,inp40*.log.我写了一个pig脚本,它读取所有具有40种模式的文件。但我的问题是,这40个文件是强制性的,我可能无法收到某些文件。在这种情况下,我会收到一个异常说明:Causedby:org.apache.hadoop.mapreduce.lib.input.InvalidInputException:InputPatternop
我想将一些Pig变量存储到HadoopSequenceFile,以便运行外部MapReduce作业。假设我的数据具有(chararray,int)模式:(hello,1)(test,2)(example,3)我写了这个存储函数:importjava.io.IOException;importjava.util.logging.Level;importjava.util.logging.Logger;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.
我有一个机器数据进入hdfs,如下所示,第8个字段是UTC时间(060037),我需要将其转换为IST并使用pig将时间格式设置为hh:mm:ssVTS,01,0097,9739965515,NM,GP,20,060037,V,0000.0000,N,00000.0000,E,0.0,0.0,061114,0068,00,4000,00,999,149,9594VTS,01,0097,9739965515,SP,GP,33,060113,V,0000.0000,N,00000.0000,E,0.0,0.0,061114,0068,00,4000,00,999,152,B927使用字符串