我在 Hue 中运行一个 hive 表的求和函数,并得到 NaN 的返回值。
这是我的代码:
从 hivedb.tb1 中选择 sum(v1);
我不知道为什么它会给我一个 NaN 结果。我检查了我的任何 v1 值是否为空:
select * from hivedb.tb1 where v1 is null;
,结果没有记录有空值。该表有 1 亿行,所以我无法对每条记录进行手动检查。
感谢任何帮助。提前致谢!
更新 1 我手动筛选了前1000行,幸运地在tb1中发现了一些异常的NaN值。这是由于前面步骤的一些舍入误差造成的。所以我的问题 1 可能得到了回答。如果您认为可能还有其他原因,请随时对此发表评论。
我仍然不知道如何使用有效的方法来发现具有 NaN 值的行。所以我仍然期待我的问题 #2 的任何答案。请随时分享。感谢您的帮助。
更新 2 在下面的讨论部分中,在接受的答案中帮助解决了该问题。有多种处理方法。
最佳答案
Hive 依赖于 Java (加上针对 Null 和 friends 的特定于 SQL 的语义),并且 Java 遵守 IEEE 数字语义标准。这意味着……NaN 很棘手。
引用 that post ...
(Float.NaN == Float.NaN)always returns false.
In fact, if you look at the JDK implementation ofFloat.isNaN(), a number is not-a-number if it is not equal to itself (which makes sense because a number should be equal to itself).
The same holds for Double.NaN
因此,没有必要向您展示如何使用名为 reflect2 的(未记录的)Hive 函数,它允许您在 Hive 列上调用原始 Java 方法,即
where v1 is not null and not reflect2(v1, "isNaN")
...因为——理论上——你可以简单地声明:
where v1 is not null and v1=v1
免责声明 -- 我见过 Hive 优化器进行积极“优化”并产生错误结果的情况。
换句话说,如果简单的 v1=v1子句没有按预期过滤掉 NaN 值,然后查看 reflect2 ...
编辑——实际上,优化器似乎忽略了某些版本的 Hive 中的 v1=v1 子句(参见评论),因此更加狡猾公式是必要的:
v1 +1.0 > v1 应该可以工作...除非舍入错误导致 abs(v1) < 1="" 或="">abs(v1) >> 1v1 =0.0 最后,最稳健的方法似乎是尝试 cast(v1 as String) <>'NaN'(因为所有可能的 NaN 值都显示为“NaN”,即使它们在算术意义上并不严格“相等” )。
reflect2 的旁注——你可以看到它确实没有在 the official Hive doc 中提到,而 reflect 被提到(甚至有一个 specific Wiki entry )。但是早在Hive V0.11 cf就已经实现了。 Hive-4025
编辑 -- ODBC/JDBC/Hue 连接的 Java“反射”现在默认禁用(见评论) ,使用ranger、Sentry等安全插件时无法重新启用。因此它的使用仅限于(已弃用的)hive CLI。
关于sql - 如何在 Hive 中过滤掉具有 NaN 值的行?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43526225/
出于纯粹的兴趣,我很好奇如何按顺序创建PI,而不是在过程结果之后生成数字,而是让数字在过程本身生成时显示。如果是这种情况,那么数字可以自行产生,我可以对以前看到的数字实现垃圾收集,从而创建一个无限系列。结果只是在Pi系列之后每秒生成一个数字。这是我通过互联网筛选的结果:这是流行的计算机友好算法,类机器算法:defarccot(x,unity)xpow=unity/xn=1sign=1sum=0loopdoterm=xpow/nbreakifterm==0sum+=sign*(xpow/n)xpow/=x*xn+=2sign=-signendsumenddefcalc_pi(digits
我想安装一个带有一些身份验证的私有(private)Rubygem服务器。我希望能够使用公共(public)Ubuntu服务器托管内部gem。我读到了http://docs.rubygems.org/read/chapter/18.但是那个没有身份验证-如我所见。然后我读到了https://github.com/cwninja/geminabox.但是当我使用基本身份验证(他们在他们的Wiki中有)时,它会提示从我的服务器获取源。所以。如何制作带有身份验证的私有(private)Rubygem服务器?这是不可能的吗?谢谢。编辑:Geminabox问题。我尝试“捆绑”以安装新的gem..
如何在buildr项目中使用Ruby?我在很多不同的项目中使用过Ruby、JRuby、Java和Clojure。我目前正在使用我的标准Ruby开发一个模拟应用程序,我想尝试使用Clojure后端(我确实喜欢功能代码)以及JRubygui和测试套件。我还可以看到在未来的不同项目中使用Scala作为后端。我想我要为我的项目尝试一下buildr(http://buildr.apache.org/),但我注意到buildr似乎没有设置为在项目中使用JRuby代码本身!这看起来有点傻,因为该工具旨在统一通用的JVM语言并且是在ruby中构建的。除了将输出的jar包含在一个独特的、仅限ruby
我正在使用的第三方API的文档状态:"[O]urAPIonlyacceptspaddedBase64encodedstrings."什么是“填充的Base64编码字符串”以及如何在Ruby中生成它们。下面的代码是我第一次尝试创建转换为Base64的JSON格式数据。xa=Base64.encode64(a.to_json) 最佳答案 他们说的padding其实就是Base64本身的一部分。它是末尾的“=”和“==”。Base64将3个字节的数据包编码为4个编码字符。所以如果你的输入数据有长度n和n%3=1=>"=="末尾用于填充n%
exe应该在我打开页面时运行。异步进程需要运行。有什么方法可以在ruby中使用两个参数异步运行exe吗?我已经尝试过ruby命令-system()、exec()但它正在等待过程完成。我需要用参数启动exe,无需等待进程完成是否有任何rubygems会支持我的问题? 最佳答案 您可以使用Process.spawn和Process.wait2:pid=Process.spawn'your.exe','--option'#Later...pid,status=Process.wait2pid您的程序将作为解释器的子进程执行。除
鉴于我有以下迁移:Sequel.migrationdoupdoalter_table:usersdoadd_column:is_admin,:default=>falseend#SequelrunsaDESCRIBEtablestatement,whenthemodelisloaded.#Atthispoint,itdoesnotknowthatusershaveais_adminflag.#Soitfails.@user=User.find(:email=>"admin@fancy-startup.example")@user.is_admin=true@user.save!ende
我正在为一个项目制作一个简单的shell,我希望像在Bash中一样解析参数字符串。foobar"helloworld"fooz应该变成:["foo","bar","helloworld","fooz"]等等。到目前为止,我一直在使用CSV::parse_line,将列分隔符设置为""和.compact输出。问题是我现在必须选择是要支持单引号还是双引号。CSV不支持超过一个分隔符。Python有一个名为shlex的模块:>>>shlex.split("Test'helloworld'foo")['Test','helloworld','foo']>>>shlex.split('Test"
我可以得到Infinity和NaNn=9.0/0#=>Infinityn.class#=>Floatm=0/0.0#=>NaNm.class#=>Float但是当我想直接访问Infinity或NaN时:Infinity#=>uninitializedconstantInfinity(NameError)NaN#=>uninitializedconstantNaN(NameError)什么是Infinity和NaN?它们是对象、关键字还是其他东西? 最佳答案 您看到打印为Infinity和NaN的只是Float类的两个特殊实例的字符串
我实际上是在尝试使用RVM在我的OSX10.7.5上更新ruby,并在输入以下命令后:rvminstallruby我得到了以下回复:Searchingforbinaryrubies,thismighttakesometime.Checkingrequirementsforosx.Installingrequirementsforosx.Updatingsystem.......Errorrunning'requirements_osx_brew_update_systemruby-2.0.0-p247',pleaseread/Users/username/.rvm/log/138121
这可能是个愚蠢的问题。但是,我是一个新手......你怎么能在交互式rubyshell中有多行代码?好像你只能有一条长线。按回车键运行代码。无论如何我可以在不运行代码的情况下跳到下一行吗?再次抱歉,如果这是一个愚蠢的问题。谢谢。 最佳答案 这是一个例子:2.1.2:053>a=1=>12.1.2:054>b=2=>22.1.2:055>a+b=>32.1.2:056>ifa>b#Thecode‘if..."startsthedefinitionoftheconditionalstatement.2.1.2:057?>puts"f