草庐IT

where-clause

全部标签

hadoop - 当我们 select * table_name where id = 10; 时运行了多少映射器和缩减器;在 hive

当我们select*table_namewhereid=10;时运行了多少映射器和缩减器;在hive?它是基于输入分割还是文件大小?在这种情况下如何确定映射器和缩减器的数量?有什么建议吗? 最佳答案 对于输入表的每个输入拆分,将调度一个映射器,其中输入拆分的默认大小将是block大小。您可以通过修改mapreduce.input.fileinputformat.split.maxsize来改变映射器的数量和mapreduce.input.fileinputformat.split.minsize属性。谈到Hive中的reducer数

sql - HIVE ERROR : I am getting EOF error at 1, 对于第一个 LEFT OUTER JOIN 的 ON 子句之后的 WHERE 子句,对于配置单元中的以下代码

select*fromtable1aLEFTOUTERJOIN(select*fromtable99wherecol=1)bON(a.col1=b.col1)WHEREa.col2=b.col2ANDSIGN(a.col3)=1LEFTOUTERJOIN(select*fromtable99wherecol=2)cON(a.col1=c.col1)WHEREa.col2=c.col2ANDSIGN(a.col3)=1; 最佳答案 正确形成的SQL查询只有一个where子句(不包括CTE和子查询)。所以:select*fromtabl

java - hadoop mapreduce : where's the final hdfs result file when I speficify multiple reducers?

我有一个wordCount.java程序并修改它以支持多个映射器和缩减器,如下所示:publicclassWordCountextendsConfiguredimplementsTool{publicintrun(String[]args)throwsException{JobConfconf=newJobConf(getConf(),w1_args.class);for(inti=0;i然后我编译并运行它:hadoopjarWordCount-1.0-SNAPSHOT.jarWordCount-m3-r15inputoutput它运行良好,当我检查输出目录时:$hdfsdfs-lso

sql - WHERE 中的多个 IN 子查询

我在尝试将以下查询从impala转换为cloudera5.8上的hive1.1时遇到问题。SELECT*FROMtable1t1,table2t2WHEREconcat(t1.field1,t1.field2)IN(SELECTconcat(T3.field1,T3.field2)FROMtable3T3WHERET3.field3='value')ANDconcat(t1.field3,t1.field4)IN(SELECTconcat(T3.field1,T3.field2)FROMtable3T3WHERET3.field3='value')ANDt1.some_field=t2

hadoop - 如何使用条件(Where 子句)从 HBase 执行简单选择

我从以下来源创建了以下简单表格:https://hortonworks.com/hadoop-tutorial/introduction-apache-hbase-concepts-apache-phoenix-new-backup-restore-utility-hbase/#start-hbase使用以下内容:create'driver_dangerous_event','events'put'driver_dangerous_event','4','events:driverId','78'put'driver_dangerous_event','4','events:drive

hadoop - Where 子句匹配但在 Hive 中返回 null

我有一个包含字符串格式数据的表格。当我试图选择与特定产品ID匹配的所有记录时,mapreduce运行它的工作并在没有实际结果的情况下给出OKiin。我知道与该产品ID相关的数据存在于表中。我哪里错了?我的查询是select*fromtablenamewhereproduct_id='xxxx';已解决我明白了为什么会这样。对于面临同样问题的其他人,请尝试检查您的字符串格式。我的product_id在文件中保存为“xxxx”。因此,在查询时,如果我确实选择了*fromtablenamewhereproduct_id='"xxxx"';有效。我去掉了那些多余的引号。

hadoop - Cloudera Hive : Where to add json-serde-1. 3.7 jar文件

我使用的是cloudera5.8.0首先我运行这个命令:hive>ADDJAR/usr/lib/hive/lib/hive-serdes-1.0-SNAPSHOT.jar;Added[/usr/lib/hive/lib/hive-serdes-1.0-SNAPSHOT.jar]toclasspathAddedresources:[/usr/lib/hive/lib/hive-serdes-1.0-SNAPSHOT.jar]然后我添加了json-serde-1.3.7jar文件hive>ADDJAR/usr/lib/hive/lib/json-serde-1.3.7-jar-with-d

json - 配置单元中的 Where 子句覆盖 JSON 数据

我在我的文件中使用JSON作为数组https://www.sitepoint.com/google-maps-json-file/.我使用JSONserde将数据导入表,因为它具有类似结构的数组,我们不能将JSON_TUPPLE和JSON_OBJECTUDF与数组一起使用,否则它会给出空值。我们不能在具有JSOn数据的HQL查询上使用where子句吗?因为每次我查询表时它都会提供完整的JSON数据,它不会过滤`hive>select*fromcomplex_jsonwheremarkers[1].point="4578"OK[{"point":"1233","hometeam":"La

sql - Impala 分析函数在 where 子句中

所以这个问题的基本前提是我在hadoop中有一些巨大的表,我需要每个月从中获取一些样本。我模拟了下面的内容以显示我想要的东西,但显然这不是真实数据......--CreatethetableCREATETABLEexp_dqss_team.testranking(NameSTRING,AgeINT,Favourite_CheeseSTRING)STOREDASPARQUET;--PutsomedatainINSERTINTOTABLEexp_dqss_team.testrankingVALUES(('Tim',33,'Cheddar'),('Martin',49,'Gorgonzola

hadoop - Hive 中的多个 Where 子查询不起作用

我有如下查询:SELECTT.MTH_END_DT,T.SRC_SYS_CD,T.BTCH_IDFROMPROD_RCRR.BAL_CNTRL_LOGTWHERET.SRC_SYS_CD='SL'ANDT.MTH_END_DTin(SELECT(MAX(MTH_END_DT))FROMPROD_RCRR.BAL_CNTRL_LOG)ANDT.BTCH_IDin(SELECT(MAX(BTCH_ID))FROMPROD_RCRR.BAL_CNTRL_LOG)一条错误消息显示Hive只能支持一个“in”子句。谁能给我一个解决方案? 最佳答案