草庐IT

mynew_udf

全部标签

hadoop - 在 cloudera impala 1.2.3 中使用 date_sub() udf 从 View 查询时出现连接重置错误

我已经编写了一个查询来在Impala中创建一个View。该View包含一个字段record_date,它是格式为yyyy-MM-ddhh:mm:ss的字符串数据类型。在尝试执行使用date_sub('2014-01-3000:00:00',1)提取先前日期记录的查询时,我收到如下错误:错误:与impalad通信时出错:TSocket读取0个字节。如果我尝试对创建的表而不是View执行相同的查询,我会得到正确的输出。感谢任何帮助。谢谢 最佳答案 这是一个错误,请升级到最新版本的Impala,因为它似乎从1.2.3开始就已修复,这是很旧

java - Hive UDF 将 array<string> 作为参数传递

我正在尝试通过collect_set将数组传递给HiveUDF:SELECT...,collect_set(...)FROM...;我的HiveUDF想要接受这个数组并将每个数组元素的第一个字母附加到输出字符串:publicclassMyUDFextendsUDF{publicStringevaluate(String[]array){Stringoutput="";//Checkforvalidargumentif(array==null)returnoutput;try{//Addfirstcharacterofeveryarrayelementtooutputstringfor(

hadoop - 从 Pig UDF Java 类中的分布式缓存访问文件,Amazon EMR

我正在尝试访问UDF中的文件(sample.txt)。我想将该文件放在分布式缓存中并从那里使用它。我正在使用亚马逊EMR来运行Pig作业。我在创建集群时使用EMRbootstrap-action将文件(sample.txt)复制到HDFS。bootstrap.sh(将文件从s3复制到hdfs)hadoopfs-copyToLocals3n://s3_path/sample.txt/mnt/sample.txtUsingSample.java(使用sample.txt的UDF)publicclassUsingSampleextendsEvalFunc{publicStringuseSam

java - 鉴于我正在将 DataBag 溢出到磁盘,为什么这个 Pig UDF 会导致 "Error: Java heap space"?

这是我的UDF:publicDataBagexec(Tupleinput)throwsIOException{AggregateaggregatedOutput=null;intspillCount=0;DataBagoutputBag=BagFactory.newDefaultBag();DataBagvalues=(DataBag)input.get(0);for(Iteratoriterator=values.iterator();iterator.hasNext();){Tupletuple=iterator.next();//spillCount++;...if(someco

java - 使用 Hive UDF 计算加权因子

我是Hive的新手,我会帮助编写一个UDF函数来计算权重因子。计算看起来很简单。我有一个表,其中有一些值KEY,VALUE按GROUP_ID分组。对于一组中的每一行,我要计算权重因子,0和1之间的float,即组中该元素的权重。进入该组的权重因子之和必须为1。本例中值为距离,则权重与距离成反比。GROUP_ID|KEY|VALUE(DISTANCE)====================================110411131122213121453.......数学函数:1/(Xi*sum(1/Xk))从k=1到N)GROUP_ID|KEY|VALUE|WEIGHTING

PIG 脚本中的 Ruby UDF

我在Pig脚本中使用Ruby用户定义函数(UDF)。现在的要求是在UDF中使用“bunny”gem,所以我在所有数据节点上安装了那个gem。但是当我在PigUDF中访问该gem时,它在那里不可用。通过本地脚本,我可以在每台机器上使用该gem,但无法通过Pig脚本访问它。有什么帮助吗? 最佳答案 现在,我遇到了问题。Pig使用Jython和JRuby库来编译python和ruby​​udfs。所以如果我们单独在从节点上安装额外的模块没有任何区别。更好的方法是在这些场景中使用pig流功能。

python - Pig脚本无法注册UDF

我有一个简单的Pig脚本,它使用我创建的PythonUDF。如果我删除UDF部分,脚本可以正常完成。但是当我尝试注册我的UDF时,出现以下错误:ERROR2997:EncounteredIOException.Filepig_test/py_udf_substr.pydoesnotexist这是我的UDF:@outputSchema("chararray")defget_fistsn(data,n):returndata[:n]这是我的Pig脚本:REGISTER'pig_test/py_udf_substr.py'USINGjythonaspyudf;A=load'pig_test/

hadoop - pig udf中是否有类似setup的功能

我想为一个文件添加mapDB,供pigUDF中的所有映射器使用。我怎样才能一次性设置这个mapDB对象?我们有没有在实例化pigudf时只调用一次的函数?谢谢。 最佳答案 在pig中,必须扩展EVALFUNC才能为记录的每一行调用udf。扩展了evalfunc的类可以通过在pig-script的开头定义来实例化。定义ex_argmy.udfs.Extract('true');这会导致类的实例化。 关于hadoop-pigudf中是否有类似setup的功能,我们在StackOverflow

hadoop - PIG UDF 中的表架构

在将数据加载到Hive表之前,我必须在平面文件中格式化数据。CF32|4711|00010101Z|+34.883|98562AS1D|N8594ãä|00|2该文件是管道分隔的,我需要在平面文件的不同列上应用不同的清理和格式化功能。我有Clean_Text、Format_Date、Format_TimeStamp、Format_Integer等多个函数。我的想法是将架构作为构造函数传递给我的UDF,并在pig中调用平面文件上的不同函数。A=LOAD'call_detail_records'USINGorg.apache.hcatalog.pig.HCatLoader();DESCRI

Pig UDF 中的 Java 依赖项

我写了一个使用JodaTime的UDF.我将其作为依赖项包含在pom.xml中。当我运行我的pig脚本时出现错误ERROR2998:Unhandledinternalerror.org.joda.time.LocalDate.parse(Ljava/lang/String;)Lorg/joda/time/LocalDate;我是java、maven和hadoop的新手。我如何将joda捆绑到我在集群上运行的jar(如c/c++中的静态链接)?这不是howtoincludeexternaljarfileusingPIG的副本因为我不能使用-D选项并且在pig脚本中注册JodaTime没有