impala-tpcds-kit

hadoop - Impala 扫描 MapR-FS 慢

我最近在3节点MapR集群上安装了Impala。当我运行一个简单的查询时。性能不如Impala+HDFS。这是查询:SELECT*FROMft_test,ft_waferWHEREft_test_parquet.id=ft_wafer_parquet.idandmonth=1andday=8andparam=2913;大约用了3秒。但是当使用相同的查询但使用HDFS时。30Gb的表大小需要不到1秒的时间。这是查询配置文件:QueryRuntimeProfile:Query(id=dc4c084615fbf9bb:4261466f00000000):Summary:SessionID:5

hadoop - 使用 Ganglia 监控 Impala

是否可以使用Ganglia监控Impala？Impala文档中没有提及它，并且可以从中监控来自Hadoop的所有指标。有没有办法连接ImpalaonGanglia生成的性能指标？最佳答案它不是现成可用的TMBK。但是你可以试试这个Grafana解决方案，如有必要，将其集成到Ganglia中。还值得一提的是，Impala的内置网页有大量指标和一个不错的动态查询计划SVG可视化工具。关于hadoop-使用Ganglia监控Impala，我们在StackOverflow上找到一个类似的问

Ganglia hadoop section Impala

hadoop - 更改 impala trunc() 返回的一周的开始日期

我正在使用impala查找一周的开始日期，如下所示:选择TRUNC('2018-01-01',"D")这给出了基于周一至周日的开始日期。有什么办法可以改变这种行为，让我在周日到周六度过一周吗？我只需要为我的查询更改它，更改服务器或集群范围的设置不是一个选项。最佳答案你可以这样做:SELECTTRUNC("2018-04-04","D")-INTERVAL1DAY; 关于hadoop-更改impalatrunc()返回的一周的开始日期，我们在StackOverflow上找到一个类似的问

hadoop impala section stackoverflow questions cloudera-cdh

sql - Impala 中的日期/字符串比较不起作用(总是返回 false)

所以我目前正在编写一个impala查询，它基本上根据多个列对数据进行分组，并根据最近的列获取其余列的值。但是，由于我想根据日期对数据进行分组，因此在比较数据时查询总是返回false。我的代码如下。如果我不包括tstamp比较，代码工作正常，但无法根据日期对其进行分组。`select*frommytabasxwherex.tstamp=(selectmax(y.tstamp)frommytabasywherex.id_=y.id_andx.id=y.idandto_date(x.tstamp)=to_date(y.tstamp));`数据如下。下面的数据只是真实数据的一个片段，它包含了很

Impala false tstamp 10002071 section sql hadoop cloudera

hadoop - SubQuery 在 IMPALA 中有效，但在 HIVE 中无效

我试图理解为什么以下子查询将在Impala而不是Hive中工作。select*fromMySchema.MyTablewhereidentifiernotin(selectidentifierfromschema.tablewherestatus_codein(1,2,3));编辑:添加了错误Errorwhilecompilingstatement:FAILED:SemanticException[Error10249]:line1:55UnsupportedSubQueryExpression'identifier':Correlatingexpressioncannotcontai

SubQuery hadoop section identifier 中工 hive impala

regex - 当 regexp_like 和 regexp_extract 工作正常时，Impala regexp_like 查询返回 null

我需要使用regex_extract从列中的字符串中提取数字。我在外部表上使用Impala。我已经检查了正则表达式，为了测试它，我还使用了regexp_like和regexp_replace。他们两个都工作得很完美。这里是查询:selectsucursal,regexp_like(sucursal,'^[0-9]{1,3}')asmatch,regexp_extract(sucursal,'^[0-9]{1,3}',1)asCodSucusal,regexp_replace(sucursal,'^[0-9]{1,3}','lala')asRepCodSucusalfromjdv.stg

regexp regexp_like code sucursal regex hadoop etl impala

hadoop - 画面 : Error while using Impala to connect to Cloudera Hadoop

我正在研究如何使用Tableau连接到ClouderaHadoop。我提供服务器和端口详细信息并使用“Impala”进行连接。我能够成功连接，选择默认模式并选择所需的表。在此之后，当我将维度或度量拖放到“网格”上的行/列时，出现以下错误:[Cloudera][Hardy](22)来自ThriftHiveClient的错误:查询返回非零代码:10025，原因:失败:SemanticException[错误10025]:第1:7行表达式不在GROUPBY键中''.但是，如果我尝试使用与“HiveServer”(而不是“Impala”)相同的连接类型，它工作正常。我们不确定哪里出错了。非常感

Cloudera 画面 section Impala hadoop tableau-api

hadoop - 为什么 Impala 不在 hbase 表上工作？

我使用hive创建了hbase表A的外部表B。我可以成功访问B的数据。然后我按照官方的指导输入ImaplaShell:invalidatemetadataB;然后我在ImpalaShell中查询这个外部表B:select*fromBlimit4;但它输出:ERROR:RuntimeException:couldn'tretrieveHBasetable(mv_p2pusers)info:Enable/Disablefailed下面是一些相关的日志:11:13:58.937AMINFOjni-util.cc:177java.lang.RuntimeException:couldn'tre

上工 hadoop unknown java SingleNodePlanner hive hbase cloudera impala

hadoop - 使用边缘节点运行 Hadoop 集群时如何连接到 Impala

我已经使用ClouderaManager安装了Hadoop集群，目前ImpalaDaemon正在所有数据节点上运行。集群位于网关/边缘节点之后，边缘节点上只安装网关服务(例如httpfs、hivegateway、sparkgateway、oozie)。我想知道如何使用网关/边缘节点连接Impala，因为所有Impala守护进程都在集群的数据节点上运行，并且没有服务暴露给网关/边缘节点。最佳答案您可以在边缘节点上安装haproxy:https://www.cloudera.com/documentation/enterpris

hadoop section Impala https cloudera gateway

sql - Impala 分析函数在 where 子句中

所以这个问题的基本前提是我在hadoop中有一些巨大的表，我需要每个月从中获取一些样本。我模拟了下面的内容以显示我想要的东西，但显然这不是真实数据......--CreatethetableCREATETABLEexp_dqss_team.testranking(NameSTRING,AgeINT,Favourite_CheeseSTRING)STOREDASPARQUET;--PutsomedatainINSERTINTOTABLEexp_dqss_team.testrankingVALUES(('Tim',33,'Cheddar'),('Martin',49,'Gorgonzola

Impala where 39 cheese favourite_cheese sql hadoop rank analytical

35 36 373839 40 41