SQL：DML、DQL、DCL

hadoop - Spark SQL 不返回 HDP 上 HIVE 事务表的记录

我在HDP设置上遇到了这个问题，事务表只需要一次压缩就可以使用SparkSQL获取记录。另一方面，Apache设置甚至不需要压缩一次。可能是压缩后在元存储上触发了某些东西，SparkSQL开始识别增量文件。如果需要其他详细信息来找出根本原因，请告诉我。试试这个，查看完整场景:hive>createtabledefault.foo(idint)clusteredby(id)into2bucketsSTOREDASORCTBLPROPERTIES('transactional'='true');hive>insertintodefault.foovalues(10);scala>sqlCo

sql - 如何使用配置单元表中的 where 条件查找最后更新的记录 ID

如何统计状态为1的hive表中最新的userId？我们每天都在配置单元中插入增量数据(userId、状态、日期)。配置单元表包含具有不同日期的重复用户标识。所以我尝试了一个查询但得到了错误的结果:selectcount(t1.userID)from(selectuserId,max(date)asdatefromtestgroupbyuserId)t1join(selectuserIdfromtestwherestatus=1)t2ont1.userId=t2.userID;请帮忙。最佳答案类似的东西应该可以工作:SELECTT

配置单 where section userId sql hadoop hive

Hadoop grep转储sql

我想使用ApacheHadoop解析大文件(每个~~20MB)。这些文件是postegresql转储(即主要是CREATETABLE和INSERT)。我只需要首先过滤掉不是CREATETABLE或INSERTINTO的任何内容。所以我决定使用带有^(CREATETABLE|INSERT).*;$模式的grepmapreduce(以CREATETABLE或INSERT开头并以“;”结尾的行)。我的问题是其中一些创建和插入需要多行(因为我猜模式真的很大)所以模式根本无法匹配它们(比如CREATETABLEtest(\n“id”...\n...“名称”...\n);)我想我可以编写一个map

Hadoop grep section CREATE TABLE

sql - 从查询中的数值表达式返回的数据类型

在cloudera的Impala指南中(https://www.cloudera.com/documentation/enterprise/5-8-x/topics/impala_conversion_functions.html)有一个示例演示了如何使用typeof()函数来检查数值表达式的返回数据类型:+--------------------------+|typeof(5.30001/2342.1)|+--------------------------+|DECIMAL(13,11)|+--------------------------+当我这样做时:selecttypeo

sql 的 resultScale resultPrecision ScalarType hadoop impala

sql - 如何获得每天 2 列总计数的百分比？

我有以下查询:SELECTACCT_OT,COUNT(CASEWHENBR_CDlike'%0%'THEN1ELSENULLEND)ASnew,COUNT(CASEWHENBR_CDlike'%1%'THEN1ELSENULLEND)ASold,FROMMSTR_TBLwhereACCT_OTbetween'2017-10-23'and'2017-10-25'GROUPBYACCT_OT;我希望能够在同一个查询中添加另一列，以显示旧/新的百分比。比如10/23，new是10，old是1，那么第三列就是10%。希望大家帮帮忙。最佳答案

sql 如何 39 ACCT_OT code hadoop

sql - 正则表达式替换在 HIVE 中不起作用

我想将数据中的;替换为HIVE中的:尝试了以下但没有工作hive>selectREGEXP_REPLACE('Mozilla/5.0(Macintosh;Intel',';',':');如何在HIVE中实现这一点。我在转换它时遇到问题。最佳答案只需使用replace():selectreplace('Mozilla/5.0(Macintosh;Intel',';',':')replace()在文档中描述。关于sql-正则表达式替换在HIVE中不起作用，我们在StackOverflo

HIVE sql code section 39 hadoop

hadoop - 在 Spark SQL 中使用正则表达式函数从字符串中提取特定数字

我在mysql中有一个表，它有POST_ID和相应的INTEREST:我使用以下正则表达式查询来选择包含1,2,3的兴趣。SELECT*FROMINTEREST_POSTwhereINTERESTREGEXP'(?=.*[[::]])(?=.*[[::]])(?=.*[[::]])';我在HDFS中导入了表。但是，当我在SparkSQL中使用相同的查询时，它显示空记录。如何在spark中使用这里的REGEXP函数来选择包含1,2,3的兴趣？最佳答案您正在使用的正则表达式需要稍微更改一下。您可以执行以下操作。scala>valmy

hadoop Spark INTEREST section POST apache-spark-sql

sql - 在 Hive 中查询

在SQL中我们有分区依据和分组依据selectdeptno,count(*)cfromempgroupbydeptno;DEPTNOC-------103205306selectdeptno,count(*)over(partitionbydeptno)cfromemp;DEPTNOC-------103103103205205205205205306306306306306306如果我们需要在HIVE中练习同样的事情，会有什么选择。我们在Hive中有同样的东西吗？请建议提前致谢。最佳答案 Hive支持窗口函数，参见Windowi

Hive sql section deptno hadoop mapreduce

sql - 如何创建内部漏斗分析？

我想创建内部漏斗分析基础架构。所有用户事件提要信息都将写入所选的数据库/DW，然后，当我动态定义漏斗时，我希望能够为漏斗中的每个阶段选择session数。我在任何地方都找不到创建这种东西的例子。有人说我应该为此使用Hadoop和MapReduce，但我在网上找不到任何示例。最佳答案您的MapReduce非常简单:Mapper读取日志文件中的session行，其输出为(stag-id,1)将Reducer的数量设置为等于阶段的数量。Reducer对每个阶段的值求和。就像wordcount示例(这是Hadoop的“HelloWorl

漏斗 sql section MapReduce database-design hadoop data-warehouse business-intelligence

SQL获取时间戳差大于30时id的个数

我有以下表格数据结构。我需要找到SESSIONS的数量。SESSIONis:对于一个userid，如果有多行，则检查时间戳。如果时间戳差异小于30，则将其视为一个session。+---------+----------+|userid|timestamp|+---------+----------+|1|10||1|11||1|55||2|65|+---------+----------+在上面的示例中，对于userid1，时间戳10和11被视为单个session。但是(55-11=44)大于30。所以，这是另一个session。因此用户id1和有2个session用户ID2和有1个

SQL 获取 code strong userid hadoop hive

270 271 272273274 275 276