grouped-collection-select

hadoop - 执行以下 Hive 查询 : SELECT COUNT(*) FROM TABLE; for a table with 8bn rows/40 columns/400Gb? 的大概数字是多少

执行以下Hive查询的大概数字是多少:SELECTCOUNT(*)FROMTABLE；对于下表:行数:~80亿列数:40，各种大小的int、double和stringHDFS上的大小:~400Gb我想将任何大概数字与真实数字进行比较，以查看系统配置是否正确。如果我错过了一些重要的事情，我深表歉意，我是Hive和Hadoop的新手。此外，如果机器数量也按比例增加，执行时间是否会与行数成线性比例？最佳答案提供大概数字是不可能的。但是我们可以列出影响因素:集群中配置的MapTask数量block大小(决定将使用的映射器的数量)执行时间

columns hadoop 射器 section li hive hdfs

hadoop - Spark 上的错误 'neither present in the group by, nor is it an aggregate function'

关闭。这个问题需要debuggingdetails.它目前不接受答案。编辑问题以包含desiredbehavior,aspecificproblemorerror,andtheshortestcodenecessarytoreproducetheproblem.这将有助于其他人回答问题。关闭5年前。Improvethisquestion表格:id|val|category----------------a1|10|Aa1|30|Ba1|20|Ca2|5|Aa2|7|Ba2|2|Ca3|50|Ca3|60|Ba3|90|A查询:SELECTmax(val),id,categoryFROM

amp aggregate section code Spark hadoop apache-spark relational-database apache-spark-sql non-relational-database

hadoop - 如何在不同列中使用 COLLECT_SET 和按条件分组

我有这张表:╔═════════╦═════════╦══════════════╗║user_id║item_id║date_visited║╠═════════╬═════════╬══════════════╣║1║123║18/5/2017║║1║234║11/3/2017║║2║345║18/5/2017║║2║456║11/3/2017║╚═════════╩═════════╩══════════════╝我试图(通过Hive查询)实现的是这个结果(假设今天是18/5/2017):╔═════════╦═══════════════════════════╦═══════

同列何在 visited items_visited_last user_id hadoop hive hiveql

sql - Hive是否支持Select中的Select？

Hive中的以下代码是否可能，并进行一些更改？:insertintotablewebmapselecta.resreference,b.resresource,(selectcount(ip)fromweblogwhereresource=a.resandreferer=b.res)weightfromtoprefresajointoprefresb;我在hive-0.10.0-cdh4.5.0中运行它并得到错误:FAILED:ParseExceptionline3:1cannotrecognizeinputnear'select''count''('inexpressionspeci

Select Hive section weblog sql hadoop hql

hadoop - Hive:GROUP By 上的子查询

需要Hive查询的帮助。我写了一个Hive查询:selectto_date(from_unixtime(epoch))asdate,count1,count2,count3fromtable1wherecount3=168这给我的结果如下:datecount1count2count37-15-2015168377-15-2015168157-15-201516843andsimilarlyforotherdates....最后，我需要编写一个查询，返回每个日期的count2和count3的中值。例如:我需要输出为:datecount1count2count37-15-201516835

hadoop GROUP count section code hive hiveql

hadoop - hive 中的 Select 语句返回一些具有空值的列

我看到很多人问过这种类型的问题，但这些解决方案对我不起作用。我创建了一个外部配置单元表，因为我的数据来自仅限map的作业输出。然后，通过加载命令我给出了特定文件的路径。它显示正常。但是当我给出select*fromtable命令时，它会返回一些具有空值的列。我执行的每个命令都在错误图片中。我在文件中的分隔符是||，所以我在创建表命令中也提到了同样的内容。这是我的输入文件图片filepic.这是errorpic.我也尝试过普通表而不是外部表。那也显示了同样的错误。我还尝试将定界符称为//||和\|\|。但没有一个奏效。最佳答案您面

hadoop Select code section TERMINATED hive bigdata nonetype hive-query

hadoop - 如何在 Hive 的 SELECT 语句中提取定界值右侧的字符

我需要提取“/”右侧的所有字符作为选择语句的一部分。cityAmerica/ChicagoEurope/London预期输出是citynameChicagoLondon这是我的查询，它不起作用selectsubstring(city,charindex('/',city)+1,length(city))ascitynamefromtable; 最佳答案您可以使用正则表达式来提取城市名称。使用正则表达式，您的查询将是这样的。selectregexp_extract(city,'([a-zA-Z]+)',1)fromtable_nam

何在 hadoop code section pre hive

sql - Spark : Group RDD Sql Query

我有3个RDD需要加入。valevent1001RDD:schemaRDD=[eventtype,id,location,date1][1001,4929102,LOC01,2015-01-2010:44:39][1001,4929103,LOC02,2015-01-2010:44:39][1001,4929104,LOC03,2015-01-2010:44:39]valevent2009RDD:schemaRDD=[eventtype,id,celltype,date1](不按id分组，因为我需要4个日期，具体取决于celltype)[2009,4929101,R01,2015-01

Spark Group NULL 2015 2009 sql hadoop apache-spark rdd apache-spark-sql

mysql - GROUP BY 和加入 HIVE

我怎样才能在HIVE中做这样的事情:表1:IDNameFriends1Tom5表2:IDNameDOB1Jerry10/10/19991KateNull1Peter02/11/19831RobertNull1Mitchell09/09/2000我想做的是:对于表1中的每个ID，找出num个不为空的DOB，然后除以Friends我写了一个查询:SELECTt.ID,t.Friends,COUNT(s.DOB)/t.FriendsfromTable1tjoinTable2son(t.ID=s.ID)GROUPBYt.ID当我这样做时，我收到错误消息，因为FRIENDS不是GROUPBYKe

mysql GROUP section code pre hadoop hive

hadoop - 如何编写查询以避免在选择不同和大小的 collect_set 配置单元查询中使用单个 reducer？

如何重写这些查询以避免在reduce阶段使用单个reducer？它需要永远，我失去了使用它的并行性的好处。selectid,count(distinctlocations)ASunique_locationsfrommytable;和selectid,size(collect_set(locations))ASunique_locationsfrommytable; 最佳答案使用两个查询对count(distinctvar)有效:SELECTcount(1)FROM(SELECTDISTINCTlocationsasunique_

配置单 collect_set locations section unique_locations hadoop hive query-optimization cloudera hiveql

111 112 113114115 116 117