草庐IT

collection-select

全部标签

hadoop - 执行以下 Hive 查询 : SELECT COUNT(*) FROM TABLE; for a table with 8bn rows/40 columns/400Gb? 的大概数字是多少

执行以下Hive查询的大概数字是多少:SELECTCOUNT(*)FROMTABLE;对于下表:行数:~80亿列数:40,各种大小的int、double和stringHDFS上的大小:~400Gb我想将任何大概数字与真实数字进行比较,以查看系统配置是否正确。如果我错过了一些重要的事情,我深表歉意,我是Hive和Hadoop的新手。此外,如果机器数量也按比例增加,执行时间是否会与行数成线性比例? 最佳答案 提供大概数字是不可能的。但是我们可以列出影响因素:集群中配置的MapTask数量block大小(决定将使用的映射器的数量)执行时间

hadoop - 如何在不同列中使用 COLLECT_SET 和按条件分组

我有这张表:╔═════════╦═════════╦══════════════╗║user_id║item_id║date_visited║╠═════════╬═════════╬══════════════╣║1║123║18/5/2017║║1║234║11/3/2017║║2║345║18/5/2017║║2║456║11/3/2017║╚═════════╩═════════╩══════════════╝我试图(通过Hive查询)实现的是这个结果(假设今天是18/5/2017):╔═════════╦═══════════════════════════╦═══════

sql - Hive是否支持Select中的Select?

Hive中的以下代码是否可能,并进行一些更改?:insertintotablewebmapselecta.resreference,b.resresource,(selectcount(ip)fromweblogwhereresource=a.resandreferer=b.res)weightfromtoprefresajointoprefresb;我在hive-0.10.0-cdh4.5.0中运行它并得到错误:FAILED:ParseExceptionline3:1cannotrecognizeinputnear'select''count''('inexpressionspeci

hadoop - hive 中的 Select 语句返回一些具有空值的列

我看到很多人问过这种类型的问题,但这些解决方案对我不起作用。我创建了一个外部配置单元表,因为我的数据来自仅限map的作业输出。然后,通过加载命令我给出了特定文件的路径。它显示正常。但是当我给出select*fromtable命令时,它会返回一些具有空值的列。我执行的每个命令都在错误图片中。我在文件中的分隔符是||,所以我在创建表命令中也提到了同样的内容。这是我的输入文件图片filepic.这是errorpic.我也尝试过普通表而不是外部表。那也显示了同样的错误。我还尝试将定界符称为//||和\|\|。但没有一个奏效。 最佳答案 您面

hadoop - 如何在 Hive 的 SELECT 语句中提取定界值右侧的字符

我需要提取“/”右侧的所有字符作为选择语句的一部分。cityAmerica/ChicagoEurope/London预期输出是citynameChicagoLondon这是我的查询,它不起作用selectsubstring(city,charindex('/',city)+1,length(city))ascitynamefromtable; 最佳答案 您可以使用正则表达式来提取城市名称。使用正则表达式,您的查询将是这样的。selectregexp_extract(city,'([a-zA-Z]+)',1)fromtable_nam

hadoop - 如何编写查询以避免在选择不同和大小的 collect_set 配置单元查询中使用单个 reducer?

如何重写这些查询以避免在reduce阶段使用单个reducer?它需要永远,我失去了使用它的并行性的好处。selectid,count(distinctlocations)ASunique_locationsfrommytable;和selectid,size(collect_set(locations))ASunique_locationsfrommytable; 最佳答案 使用两个查询对count(distinctvar)有效:SELECTcount(1)FROM(SELECTDISTINCTlocationsasunique_

Hadoop/Hive Collect_list 没有重复项

根据帖子,Hive0.12-Collect_list,我试图找到Java代码来实现一个UDAF,它将完成这个或类似的功能,但没有重复序列。例如,collect_all()返回一个序列A,A,A,B,B,A,C,C我想要返回序列A,B,A,C。依次重复的项目将被删除。有没有人知道Hive0.12中的函数将完成或已经编写了他们自己的UDAF?一如既往,感谢您的帮助。 最佳答案 我前一段时间遇到了类似的问题。我不想写一个完整的UDAF所以我只是用brickhousecollect做了一个组合和我自己的UDF。假设你有这些数据idvalue

SQL/HIVE - 不同计数查询 - SELECT COUNT (DISTINCT columns,..) 与 SELECT COUNT(*) 与 DISTINCT 记录的子查询有何不同

在HIVE中,我尝试使用2种方法获取不同行的计数,SELECTCOUNT(*)FROM(SELECTDISTINCTcolumnsFROMtable);SELECTCOUNT(DISTINCTcolumns)FROMtable;两者都产生了不同的结果。第一个查询的计数大于第二个查询。他们的工作方式有何不同?提前致谢。 最佳答案 对您的查询做一点小改动,例如将您的子查询命名为:SELECTCOUNT(*)FROM(SELECTDISTINCTcolumnsFROMtable)myquery;

Mysql数据库:select from语句详解

Mysql数据库:selectfrom语句详解一、selectfrom语句概述二、selectfrom语句的基本用法三、selectfrom语句的示例1、查询所有列2、查询特定列3、查询带有条件的数据(过滤)4、查询结果排序5、查询结果限制6、查询结果去重7、查询结果分组8、查询结果统计9、查询结果联合10、查询简单的计算11、查询别名12、NULL参与运算13、着重号(反引号)💖TheBegin💖点点关注,收藏不迷路💖一、selectfrom语句概述selectfrom语句用于从数据库中查询数据。它由两个关键字组成:select和from。select关键字用于指定要查询的列,from关键字

scala - Spark : scala - how to convert collection from RDD to another RDD

如何将调用take(5)后返回的集合转换为另一个RDD,以便在输出文件中保存前5条记录?如果我使用saveAsTextfile它不允许我一起使用take和saveAsTextFile(这就是为什么你会看到下面注释的行).它按排序顺序存储来自RDD的所有记录,因此前5个记录是前5个国家,但我只想存储前5个记录-是否可以在RDD中转换集合[take(5)]?valStrips=txtFileLines.map(_.split(",")).map(line=>(line(0)+","+(line(7).toInt+line(8).toInt))).sortBy(x=>x.split(",")