草庐IT

pair_sum_even_count

全部标签

sql - 为什么 SUM(a + b) != SUM(a) + SUM(b) 在 Hive 中?

我正在运行Hive1.1.0并看到对于两个bigint列,active_users和inactive_users,SUM(active_users+inactive_users)SUM(active_users)+SUM(inactive_users).为什么会这样,因为它应该是整数的简单加法? 最佳答案 当一个值而不是两个值都为NULL时就是这种情况。所以,考虑:ab112NULLNULL3然后sum(a)+sum(b)是:(1+2)和(1+3)的总和=7.NULL被忽略。但是,sum(a+b)是以下各项的总和:(1+1)(2+N

hadoop - Impala 可以从表中执行 COUNT(*) 但不能执行 SELECT *

我遇到了一个奇怪的Impala行为。我从复制到Hadoop集群中的.csv文件在HUE中创建了一个表。我可以通过Metastore管理器在HUE中正确导航表格,但我无法在Impala中运行以下查询,因为它会抛出IllegalStateException:null异常:select*frommy_db.my_tablelimit100;奇怪的是下面的命令检索到正确的行数:selectcount(*)frommy_db.my_table; 最佳答案 错误是由无效类型引起的。并不是所有的Hive数据类型在Impala中都受支持。Impal

mysql - Hive count(*) 比实际的 SQL 表多显示一行

我使用命令sqoopimport使用sqoopimport从sql中导入了一个表。在从Hive中执行selectcount(*)时,我得到的行数为231743但实际的SQL表有231742行。为什么我要为这张表多一行?我导入了另外2个具有大量数据的类似表,并且正在获取准确的计数。但是这个特定的表在配置单元中给了我额外的一行。这是为什么?:-oPS:我在sqoop导入命令中包含了--hive-drop-import-delims提前致谢:)更新:好像我在表中有重复的条目。它是在导入过程中生成的。任何人都知道为什么?:) 最佳答案 好的

java - 如何在 Hive 嵌入式模式下运行包含 "select count(*)"和 "group by"子句的 Hive Sql 查询?

如何在Hive嵌入式模式下运行此查询(1)selectproduct,count(*)ascntfromhive_bigpetstore_etlgroupbyproduct在Maven控制台中,我得到一个InvocationTargetException异常在我找到的Hive日志文件中java.lang.Exception:java.lang.NullPointerExceptionatorg.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:354)Causedby:java.lang.NullPointe

hadoop - DSE 4.0.1 : hive count different than cassandra count

我们正在运行DatastaxEnterprise4.0.1,在向Cassandra中插入行然后在配置单元中查询COUNT(1)时遇到了一个非常奇怪的问题。设置:DSE4.0.01、Cassandra2.0、Hive、全新集群。向Cassandra中插入10,000行,然后:cqlsh:pageviews>selectcount(1)frompageviews_v1limit100000;count-------10000(1rows)cqlsh:pageviews>但是来自Hive:hive>selectcount(1)frompageviews_v1limit100000;Total

java - Hadoop : Reducer class not called even with Overrides

我在hadoop中尝试了mapreducewordcount代码,但是reducer类从未被调用,程序在运行mapper类后终止。importjava.io.IOException;importjava.util.*;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.conf.*;importorg.apache.hadoop.io.*;importorg.apache.hadoop.mapreduce.*;importorg.apache.hadoop.mapreduce.lib.input.FileInputFormat

hadoop - 我不明白 CapacityScheduler 中的 "The sum of capacities for all queues, at each level, must be equal to 100"

在http://hadoop.apache.org/docs/r2.3.0/hadoop-yarn/hadoop-yarn-site/CapacityScheduler.html,我看见了yarn.scheduler.capacity..capacity:Queuecapacityinpercentage(%)asafloat(e.g.12.5).Thesumofcapacitiesforallqueues,ateachlevel,mustbeequalto100.Applicationsinthequeuemayconsumemoreresourcesthanthequeue'sca

hadoop - pig 脚本: count returns 0 on null field

我有一个pig脚本,它通过json的“公司”部分加载文件。当我执行计数时,如果文件中缺少域(或为空),则计数为0。我怎样才能将它分组为空字符串并仍然对其进行计数?文件示例:{"company":{"domain":"test1.com","name":"test1company"}}{"company":{"domain":"test1.com","name":"test1company"}}{"company":{"domain":"test1.com","name":"test2company"}}{"company":{"domain":"test2.com","name":"t

java - Map 中的 Pair 类减少抛出错误

为什么Pair类在下面的代码中抛出错误importjava.io.IOException;importjava.util.*;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.mapreduce.Job;importorg

hadoop - SUM 函数上的 Pig 错误

我有这样的数据-storetrn_datedept_idsale_amt12014-12-141011000765512014-12-141011000765412014-12-141011000754462014-12-1410410008654482014-12-14101100000092014-12-141061000000我想得到sale_amt的总和,为此我正在做首先,我使用以下方式加载数据:table=LOAD'table'USINGorg.apache.hcatalog.pig.HCatLoader();然后将store、tran_date、dept_id上的数据分组g