我已广泛使用HIVE13.1,并希望开始在Impala2.5中运行我的一些作业。当前Hive中的哪些功能在impala中不可用?有没有人将工作流从Hive转移到Impala,需要注意什么? 最佳答案 我不认为这里的问题与“功能差异”本身有关,而是与用例有关。如果您的用例涉及由单个用户运行的长时间运行的ETL作业(因此容错是主要要求),Impala与Hive相比几乎没有优势。如果您的用例涉及多个用户编写并发BI样式查询以进行分析(因此低延迟是主要要求),Impala将始终比Hive更快。因此,两者都有足够的空间。
我有两个表A和B,其中B很大(2000万乘以300)和A大小适中(300kx10)。A包含一列地址,B包含3列,它们可以放在一起形成正确的街道地址。例如,在A中,地址列可以是:id|Address-----------233|123MainSt在B中我们可以:Number|Street_name|Street_suffix|Tax------------------------------------------------123|Main|Street|320.2我想使用类似于LIKE的字符串匹配来加入它们,如下所示:selectA.id,B.TaxfromAleftjoinBonA
当我使用这个命令时出现错误:$beeline--silent=true-u'jdbc:hive2://[ip]:21050/[database];auth=noSasl'-n'username'-p'password'-e'use[database];createtabletest_table(idint,namestring);'Error:AnalysisException:Couldnotresolvetablereference:'arcaccessdenied'(state=HY000,code=0)如何解决这个问题? 最佳答案
我最近在3节点MapR集群上安装了Impala。当我运行一个简单的查询时。性能不如Impala+HDFS。这是查询:SELECT*FROMft_test,ft_waferWHEREft_test_parquet.id=ft_wafer_parquet.idandmonth=1andday=8andparam=2913;大约用了3秒。但是当使用相同的查询但使用HDFS时。30Gb的表大小需要不到1秒的时间。这是查询配置文件:QueryRuntimeProfile:Query(id=dc4c084615fbf9bb:4261466f00000000):Summary:SessionID:5
是否可以使用Ganglia监控Impala?Impala文档中没有提及它,并且可以从中监控来自Hadoop的所有指标。有没有办法连接ImpalaonGanglia生成的性能指标? 最佳答案 它不是现成可用的TMBK。但是你可以试试这个Grafana解决方案,如有必要,将其集成到Ganglia中。还值得一提的是,Impala的内置网页有大量指标和一个不错的动态查询计划SVG可视化工具。 关于hadoop-使用Ganglia监控Impala,我们在StackOverflow上找到一个类似的问
我正在使用impala查找一周的开始日期,如下所示:选择TRUNC('2018-01-01',"D")这给出了基于周一至周日的开始日期。有什么办法可以改变这种行为,让我在周日到周六度过一周吗?我只需要为我的查询更改它,更改服务器或集群范围的设置不是一个选项。 最佳答案 你可以这样做:SELECTTRUNC("2018-04-04","D")-INTERVAL1DAY; 关于hadoop-更改impalatrunc()返回的一周的开始日期,我们在StackOverflow上找到一个类似的问
所以我目前正在编写一个impala查询,它基本上根据多个列对数据进行分组,并根据最近的列获取其余列的值。但是,由于我想根据日期对数据进行分组,因此在比较数据时查询总是返回false。我的代码如下。如果我不包括tstamp比较,代码工作正常,但无法根据日期对其进行分组。`select*frommytabasxwherex.tstamp=(selectmax(y.tstamp)frommytabasywherex.id_=y.id_andx.id=y.idandto_date(x.tstamp)=to_date(y.tstamp));`数据如下。下面的数据只是真实数据的一个片段,它包含了很
我试图理解为什么以下子查询将在Impala而不是Hive中工作。select*fromMySchema.MyTablewhereidentifiernotin(selectidentifierfromschema.tablewherestatus_codein(1,2,3));编辑:添加了错误Errorwhilecompilingstatement:FAILED:SemanticException[Error10249]:line1:55UnsupportedSubQueryExpression'identifier':Correlatingexpressioncannotcontai
我需要使用regex_extract从列中的字符串中提取数字。我在外部表上使用Impala。我已经检查了正则表达式,为了测试它,我还使用了regexp_like和regexp_replace。他们两个都工作得很完美。这里是查询:selectsucursal,regexp_like(sucursal,'^[0-9]{1,3}')asmatch,regexp_extract(sucursal,'^[0-9]{1,3}',1)asCodSucusal,regexp_replace(sucursal,'^[0-9]{1,3}','lala')asRepCodSucusalfromjdv.stg
我正在研究如何使用Tableau连接到ClouderaHadoop。我提供服务器和端口详细信息并使用“Impala”进行连接。我能够成功连接,选择默认模式并选择所需的表。在此之后,当我将维度或度量拖放到“网格”上的行/列时,出现以下错误:[Cloudera][Hardy](22)来自ThriftHiveClient的错误:查询返回非零代码:10025,原因:失败:SemanticException[错误10025]:第1:7行表达式不在GROUPBY键中''.但是,如果我尝试使用与“HiveServer”(而不是“Impala”)相同的连接类型,它工作正常。我们不确定哪里出错了。非常感