草庐IT

hadoop - 带参数的 Hive UDF

coder 2024-01-07 原文

我想编写一个可以接受常量参数的自定义 UDF (UDAF/UDTF)。

比如我要写一个函数MAX(COL, i),其中COL是求最大值的集合,i是位置(即i = 1,求最大值,i = 2,找到第二高等),使得 Hive 查询看起来像:

SELECT
MAX(value, 2)
FROM table;

这不仅适用于 MAX,所以我需要一种能够执行此操作的通用方法,因此无法从已排序的集合中进行排序和选择。

最佳答案

您可以使用 ConstantObjectInspectors 获取作为参数传递的常量值。在 GenericUDF 的 initialize() 方法或 GenericUDAFEvaluator 中的 init() 中,检查指定的 ObjectInspector 是否是 ConstantObjectInspector 的实例。如果它被强制转换,否则抛出异常。

例如

public ObjectInspector init(Mode m, ObjectInspector[] parameters)
    throws HiveException {
     ......
    if(!( parameters[1] instanceof ConstantObjectInspector ) ) {
            throw new HiveException("Position parameter must be constant.");
        }
        ConstantObjectInspector posOI = (ConstantObjectInspector) parameters[1];
        pos = ((IntWritable) posOI.getWritableConstantValue()).get();
      ......

对于此处的特定用例,请查看 Brickhouse (http://github.com/klout/brickhouse) 中的 collect_max,它收集前 N 个键和最大值。

关于hadoop - 带参数的 Hive UDF,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24353136/

有关hadoop - 带参数的 Hive UDF的更多相关文章

  1. hadoop安装之保姆级教程(二)之YARN的配置 - 2

    1.1.1 YARN的介绍 为克服Hadoop1.0中HDFS和MapReduce存在的各种问题⽽提出的,针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜,提出了全新的资源管理框架YARN. ApacheYARN(YetanotherResourceNegotiator的缩写)是Hadoop集群的资源管理系统,负责为计算程序提供服务器计算资源,相当于⼀个分布式的操作系统平台,⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。 YARN被引⼊Hadoop2,最初是为了改善MapReduce的实现,但是因为具有⾜够的通⽤性,同样可以⽀持其他的分布式计算模

  2. ruby - 如何将 Thor::Group 注册为带参数的子命令 - 2

    这道题开始于here.但随着我对雷神的了解越来越多,情况发生了很大变化。我正在尝试创建一个带参数的Thor::Group子命令。奇怪的是,如果没有参数,它就可以工作。我可以使用Thor::Group作为子命令吗?这在我输入时有效:foocounterfoo/bin/foomoduleFooclassCLI但是当我输入时这不起作用:foocounter5moduleFooclassCLI','Countupfromtheinput.')endclassCounter:numeric,:desc=>"Thenumbertostartcounting"desc"Prints2numbersb

  3. 大数据之Hadoop数据仓库Hive - 2

    目录:一、简介二、HQL的执行流程三、索引四、索引案例五、Hive常用DDL操作六、Hive常用DML操作七、查询结果插入到表八、更新和删除操作九、查询结果写出到文件系统十、HiveCLI和Beeline命令行的基本使用十一、Hive配置一、简介Hive是一个构建在Hadoop之上的数据仓库,它可以将结构化的数据文件映射成表,并提供类SQL查询功能,用于查询的SQL语句会被转化为MapReduce作业,然后提交到Hadoop上运行。特点:简单、容易上手(提供了类似sql的查询语言hql),使得精通sql但是不了解Java编程的人也能很好地进行大数据分析;灵活性高,可以自定义用户函数(UDF)和

  4. ruby - 使用不带参数的 'ruby' 会卡住终端 - 2

    我是Ruby新手,在Ubuntu12.04机器上安装了Ruby1.9.3。每当我在终端中不带任何参数地运行ruby命令时,它就会挂起并且什么都不做。它在我的WindowsXP安装上做同样的事情。这是预期的行为吗?来自Python/Java背景,我期待某种输出。 最佳答案 这是预料之中的。当您只运行ruby时,它会停在那里,等待来自STDIN的程序,后跟一个文件结束符,然后执行该程序。如果你想要交互,比如当你运行python时,你需要Ruby的irb。 关于ruby-使用不带参数的'rub

  5. ruby - 查找给定周数的日期 - 2

    我正在尝试根据给定年份的周数进行一些日期计算。例如:date=Date.today#Monday,March5,2012putsdate.cwyear#2012putsdate.cweek#10(10thweekof2012)既然我知道当前是几号,我想弄清楚下一周和上一周是什么。我需要获取年份(2012)和周数(10)并将其转回日期对象,以便计算下一周/上一周的值。我该怎么做? 最佳答案 你想要Date.commercial:require'date'now=Date.today#=>2012-03-05monday_next_we

  6. Ruby 错误地解析了两位数的年份 - 2

    Ruby正确解析第一个日期,但第二个日期不正确。使用ruby​​1.9.3和2.1.2测试。知道如何让它始终如一地工作吗?(我们将出生日期设为2位数年份)Date.strptime("10/11/89","%d/%m/%y")=>Fri,10Nov1989Date.strptime("15/10/63","%d/%m/%y")=>Mon,15Oct2063 最佳答案 strptime方法将文本“63”解析为2063年,而不是您想要的1963年。这是因为该方法使用POSIXstandard来决定世纪。.chronicgem也有类似的问

  7. ruby - 如何编写正则表达式以仅查找四位数的数字? - 2

    我正在尝试在Ruby中编写一个正则表达式来搜索字符串中只有四位数字的数字。我正在使用/\d{4}/但这是给我四位数或更多位数的数字。例如:“12345-456-6575一些文本9897”在这种情况下,我只需要9897和6575,但我还得到了长度为五个字符的1234。 最佳答案 "12345-456-6575sometext9897".scan(/\b\d{4}\b/)=>["6575","9897"] 关于ruby-如何编写正则表达式以仅查找四位数的数字?,我们在StackOverflo

  8. Ubuntu下Hadoop的单机安装 - 2

            云计算实验中要求我们在Linux系统安装Hadoop,故来做一个简单的记录。· 注:我的操作系统环境是Ubuntu-20.04.3,安装的JDK版本为jdk1.8.0_301,安装的Hadoop版本为hadoop2.7.1。(不确定其他版本是否会出现版本兼容问题)Hadoop安装步骤如下:        一、更新apt和安装vim编辑器        二、配置本机无密码登录SSH        三、安装JAVA环境        四、下载安装Hadoop        五、伪分布式搭建一、更新apt和安装vim编辑器1、更新aptsudoapt-getupdate2、安装vim

  9. ruby - 将 10 进制数转换为 N 进制数的算法 - 2

    我正在寻找一种方法将以10为基数的数字转换为以N为基数的数字,其中N可以很大。具体来说,我正在考虑转换为base-85,然后再转换回来。有谁知道执行转换的简单算法?理想情况下,它会提供如下内容:to_radix(83992,85)->[11,53,12]欢迎任何想法!罗亚 最佳答案 这是一个有趣的问题,所以我有点过火了:classIntegerdefto_base(base=10)return[0]ifzero?raiseArgumentError,'basemustbegreaterthanzero'unlessbase>0num

  10. ruby-on-rails - Ruby on Rails,包括带参数的模块 - 2

    有没有办法在包含ruby​​模块时使用参数?我有一个Assetable模块,它包含在许多类中。我希望能够即时生成attr_accessor。moduleAssetableextendActiveSupport::Concernincludeddo(argument).timesdo|i|attr_accessor"asset_#{i}".to_symattr_accessible"asset_#{i}".to_symendendend 最佳答案 有一个技巧:创建一个从模块继承的类,这样您就可以像类一样将任何参数传递给模块。class

随机推荐