草庐IT

hadoop - 在 Hive 中使用自定义 UDF 的 LeaseExpiredException

我有一个HiveUDF,它应该从UA字符串中提取设备。它使用ua-parser库:https://github.com/tobie/ua-parserUDF相当简单:publicclassDeviceTypeExtractTestextendsUDF{privateTextresult=newText();privatestaticfinalParseruaParser;static{try{uaParser=newParser();}catch(IOExceptione){thrownewRuntimeException("CouldnotinstantiateUser-Agentp

datetime - 加载日期时间字段在 pig latin 0.12 中不起作用

我使用的是pig0.12,这里的文档说它支持datetime数据类型http://pig.apache.org/docs/r0.12.0/basic.html#data-types但是下面的LOAD语句在第一个字段上给我一个UnsupportedOperationException。hdfs位置包含制表符分隔的文件,第一个字段采用YYYY-mm-DD格式。rsa=LOAD'/mypath/*'USINGPigStorage()as(hit_date:datetime,agency_id:long,agency_name:chararray,....);错误2999:意外的内部错误。空j

hadoop - 在 Pig 脚本中获取意外符号

我正在使用pig读取文件,并希望将这些数据传递给java方法并对记录进行计数。但是我遇到了异常,请帮助我了解为什么会遇到此异常REGISTER/user/rakeshar/test.jarDEFINETestcom.msdw.rakesh.Test;temperature=LOAD'NYQ_MWDATA_ge2_fact.csv'USINGPigStorage(',')AS(period_fundmtls_id:int,metric_def_id:int,real_value:double,currency_unit_id:int,observation_type_cd:chararr

hadoop - Pig 中元组值的中位数?

我有一个包含一些数字的元组。例如:(a:17,b:14,c:123,d:23,e:37)找到该元组中数字的中位数的最佳方法是什么?因此,对于上面的一袋元组,我应该得到一袋单值元组,其中单个值是其中一个输入元组中值的中值。像这样:x=LOAD'/path/to/tuples.csv'USINGPigLoader(',')AS(a:int,b:int,c:int,d:int,e:int);y=FOREACHxGENERATEMEDIAN(a,b,c,d,e);我只是不知道如何构建上面的MEDIAN函数。我希望我不需要UDF! 最佳答案

file - 在 Pig 中使用 LOAD 时排除某些文件被加载

我试图通过LOAD命令将sqoop作业的输出加载到Pig中。我只想加载以名称“part”开头的文件。如何排除同一文件夹中存在的其他文件被加载。请帮忙。 最佳答案 这样加载,就可以了A=LOAD'part*'usingPigStorage(',');DUMPA;Example:part_input.txt1,2,34,5,6input.txt99.0,55.0,56.312.4,55.66,78.09output:1,2,34,5,6 关于file-在Pig中使用LOAD时排除某些文件被加

java - foreach 生成循环中的 Hadoop PIG 自定义 UDF 方法

是否可以编写将执行以下操作的UDF函数records=loadINPUTusingPigStorage()AS(vin:chararray,longString:chararray);simpleData=foreachrecordsgeneratevin,myUdfFunctionGetValue(longString,'someKey');这里longString的结构是"key:Value;key2:Value2,someKey:Value3...."所以我需要解析longString并获取询问键的值。我会走错方向吗?这在PIG中可能吗? 最佳答案

hadoop - Pig 连接中的转换错误

我有一个执行JOIN的脚本;当我在小数据上运行它时它成功了,但是当我增加数据大小时我得到这个错误:14/10/0719:10:19ERRORexecutionengine.Launcher:Backenderrormessageorg.apache.pig.backend.executionengine.ExecException:ERROR0:Exceptionwhileexecuting[POProject(Name:Project[tuple][0]-scope-577OperatorKey:scope-577)children:nullat[]]:java.lang.Class

hadoop - 在 PIG 中读取带有模式的文件

我有一个场景,我使用HCatStorer从一个目录加载40个具有不同模式的文件到Hive表。Directory:opt/inputfolder/InputFilesPattern:inp1*.log,inp2*.log,.....inp39*.log,inp40*.log.我写了一个pig脚本,它读取所有具有40种模式的文件。但我的问题是,这40个文件是强制性的,我可能无法收到某些文件。在这种情况下,我会收到一个异常说明:Causedby:org.apache.hadoop.mapreduce.lib.input.InvalidInputException:InputPatternop

hadoop - 用 Pig 写 SequenceFile 失败

我想将一些Pig变量存储到HadoopSequenceFile,以便运行外部MapReduce作业。假设我的数据具有(chararray,int)模式:(hello,1)(test,2)(example,3)我写了这个存储函数:importjava.io.IOException;importjava.util.logging.Level;importjava.util.logging.Logger;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.

hadoop - 使用 Pig 加载默认转储文件

这是PigStorage()需要用来为以下查询加载文件INSERTOVERWRITEDIRECTORY'doop'selecta.*fromcdr.cell_tower_info上面查询的输出是这样的哈里亚纳邦安巴拉40420803759176.7674630.373488404-20-80-37591哈里亚纳邦安巴拉40420803002176.7674630.373488404-20-80-30021哈里亚纳邦安巴拉邦40420803759176.7674630.373488404-20-80-37591我正在使用CDR分析,首先我需要使用select从表中检索一些字段并将其保存到