草庐IT

impala-tpcds-kit

全部标签

hadoop - Impala 扫描 MapR-FS 慢

我最近在3节点MapR集群上安装了Impala。当我运行一个简单的查询时。性能不如Impala+HDFS。这是查询:SELECT*FROMft_test,ft_waferWHEREft_test_parquet.id=ft_wafer_parquet.idandmonth=1andday=8andparam=2913;大约用了3秒。但是当使用相同的查询但使用HDFS时。30Gb的表大小需要不到1秒的时间。这是查询配置文件:QueryRuntimeProfile:Query(id=dc4c084615fbf9bb:4261466f00000000):Summary:SessionID:5

hadoop - 使用 Ganglia 监控 Impala

是否可以使用Ganglia监控Impala?Impala文档中没有提及它,并且可以从中监控来自Hadoop的所有指标。有没有办法连接ImpalaonGanglia生成的性能指标? 最佳答案 它不是现成可用的TMBK。但是你可以试试这个Grafana解决方案,如有必要,将其集成到Ganglia中。还值得一提的是,Impala的内置网页有大量指标和一个不错的动态查询计划SVG可视化工具。 关于hadoop-使用Ganglia监控Impala,我们在StackOverflow上找到一个类似的问

hadoop - 更改 impala trunc() 返回的一周的开始日期

我正在使用impala查找一周的开始日期,如下所示:选择TRUNC('2018-01-01',"D")这给出了基于周一至周日的开始日期。有什么办法可以改变这种行为,让我在周日到周六度过一周吗?我只需要为我的查询更改它,更改服务器或集群范围的设置不是一个选项。 最佳答案 你可以这样做:SELECTTRUNC("2018-04-04","D")-INTERVAL1DAY; 关于hadoop-更改impalatrunc()返回的一周的开始日期,我们在StackOverflow上找到一个类似的问

sql - Impala 中的日期/字符串比较不起作用(总是返回 false)

所以我目前正在编写一个impala查询,它基本上根据多个列对数据进行分组,并根据最近的列获取其余列的值。但是,由于我想根据日期对数据进行分组,因此在比较数据时查询总是返回false。我的代码如下。如果我不包括tstamp比较,代码工作正常,但无法根据日期对其进行分组。`select*frommytabasxwherex.tstamp=(selectmax(y.tstamp)frommytabasywherex.id_=y.id_andx.id=y.idandto_date(x.tstamp)=to_date(y.tstamp));`数据如下。下面的数据只是真实数据的一个片段,它包含了很

hadoop - SubQuery 在 IMPALA 中有效,但在 HIVE 中无效

我试图理解为什么以下子查询将在Impala而不是Hive中工作。select*fromMySchema.MyTablewhereidentifiernotin(selectidentifierfromschema.tablewherestatus_codein(1,2,3));编辑:添加了错误Errorwhilecompilingstatement:FAILED:SemanticException[Error10249]:line1:55UnsupportedSubQueryExpression'identifier':Correlatingexpressioncannotcontai

regex - 当 regexp_like 和 regexp_extract 工作正常时,Impala regexp_like 查询返回 null

我需要使用regex_extract从列中的字符串中提取数字。我在外部表上使用Impala。我已经检查了正则表达式,为了测试它,我还使用了regexp_like和regexp_replace。他们两个都工作得很完美。这里是查询:selectsucursal,regexp_like(sucursal,'^[0-9]{1,3}')asmatch,regexp_extract(sucursal,'^[0-9]{1,3}',1)asCodSucusal,regexp_replace(sucursal,'^[0-9]{1,3}','lala')asRepCodSucusalfromjdv.stg

hadoop - 画面 : Error while using Impala to connect to Cloudera Hadoop

我正在研究如何使用Tableau连接到ClouderaHadoop。我提供服务器和端口详细信息并使用“Impala”进行连接。我能够成功连接,选择默认模式并选择所需的表。在此之后,当我将维度或度量拖放到“网格”上的行/列时,出现以下错误:[Cloudera][Hardy](22)来自ThriftHiveClient的错误:查询返回非零代码:10025,原因:失败:SemanticException[错误10025]:第1:7行表达式不在GROUPBY键中''.但是,如果我尝试使用与“HiveServer”(而不是“Impala”)相同的连接类型,它工作正常。我们不确定哪里出错了。非常感

hadoop - 为什么 Impala 不在 hbase 表上工作?

我使用hive创建了hbase表A的外部表B。我可以成功访问B的数据。然后我按照官方的指导输入ImaplaShell:invalidatemetadataB;然后我在ImpalaShell中查询这个外部表B:select*fromBlimit4;但它输出:ERROR:RuntimeException:couldn'tretrieveHBasetable(mv_p2pusers)info:Enable/Disablefailed下面是一些相关的日志:11:13:58.937AMINFOjni-util.cc:177java.lang.RuntimeException:couldn'tre

hadoop - 使用边缘节点运行 Hadoop 集群时如何连接到 Impala

我已经使用ClouderaManager安装了Hadoop集群,目前ImpalaDaemon正在所有数据节点上运行。集群位于网关/边缘节点之后,边缘节点上只安装网关服务(例如httpfs、hivegateway、sparkgateway、oo​​zie)。我想知道如何使用网关/边缘节点连接Impala,因为所有Impala守护进程都在集群的数据节点上运行,并且没有服务暴露给网关/边缘节点。 最佳答案 您可以在边缘节点上安装haproxy:https://www.cloudera.com/documentation/enterpris

sql - Impala 分析函数在 where 子句中

所以这个问题的基本前提是我在hadoop中有一些巨大的表,我需要每个月从中获取一些样本。我模拟了下面的内容以显示我想要的东西,但显然这不是真实数据......--CreatethetableCREATETABLEexp_dqss_team.testranking(NameSTRING,AgeINT,Favourite_CheeseSTRING)STOREDASPARQUET;--PutsomedatainINSERTINTOTABLEexp_dqss_team.testrankingVALUES(('Tim',33,'Cheddar'),('Martin',49,'Gorgonzola