草庐IT

hadoop - impala 不支持 Hive 日期格式

Impala不支持Hive日期格式。我在hive表中的日期列上创建了分区,但是当我可以从impala中的hive_metadata访问同一个表时,它显示了CAUSEDBY:TableLoadingException:Failedtoloadmetadatafortable'employee_part'becauseofunsupportedpartition-columntype'DATE'inpartitioncolumn'hiredate'.请让我知道hive和impala通常支持哪种日期格式。我在hive中使用的日期格式为yyyy-mm-dd 最佳答案

hadoop - 在 Mesos 上运行 Impala

是否可以在Mesos上运行Impala?有没有人试过这个?我知道有Llama用于在YARN上运行Impala。Mesos有类似的东西吗? 最佳答案 还没有听说有人在Mesos上运行Impala,尽管在Marathon上运行它或为它构建自定义框架应该不会太难。您还可以在Myriad上的YARN上的Llama上运行Impala在Mesos上,但这对您来说可能层太多了。 关于hadoop-在Mesos上运行Impala,我们在StackOverflow上找到一个类似的问题:

hadoop - 使用 Impala 显示与记录关联的所有字段

假设,我有一个student表,其中包含impala中的一些字段。假设有一个名为total_mark的字段,我应该从每个分支中找到分数最高的学生详细信息。我的table是这样的:-在这个表中,我必须获取每个系最高分学生的详细信息。我的查询将是这样的:-selectid,max(total_marks)fromstudent_detailsgroupbydepartment;但是使用这个查询我只能得到id和total_marks。如果可以有同名的学生,年龄我不能用年龄,姓名等字段分组。那么我应该如何查询表以获取每个部门的优等生的所有详细信息??提前致谢。 最佳

hadoop - 在 Impala 中将 STRING 转换为 DATE。 (可能的错误)

这似乎是我面临的一个有趣的错误/问题。我正在使用CDH5.8(Hadoop的Cloudera发行版)下的Impala和HUE。执行下面的代码select'1709.02.02'asDateString,CAST((from_unixtime(UNIX_TIMESTAMP('1709.02.02','yyyy.MM.dd')))asTIMESTAMP)asDateTimestamp我得到如下输出(这是预期的)datestringdatetimestamp1709.02.021709-02-0200:00:00但是在执行下面的代码时select'1009.02.02'asDateStrin

hadoop - 通过分区控制 Impala 中的数据局部性

如果在表创建时理想的数据位置或布局已知,我想避免Impala节点不必要地通过网络从其他节点请求数据。这对于“非加性”操作很有帮助,其中分区中的所有记录无论如何都需要在同一位置(节点)(例如百分位数)。是否可以告诉Impala分区中的所有数据都应该始终位于任何HDFS副本的单个节点上?在Impala-SQL中,我不确定“PARTITIONEDBY”子句是否提供此功能。据我了解,Impala将其分区分块到HDFS上的单独文件中,但HDFS不保证相关文件的共同定位,默认情况下也不block(而是试图实现相反的目标)。找到一些关于Impala对HDFS开发的影响的信息,但不清楚这些是否已经实现

apache-spark - 如何让 Spark Streaming 写入它的输出以便 Impala 可以读取它?

我在使用SparkStreamingAPI时遇到以下问题。我目前正在通过Flume将输入数据流式传输到SparkStreaming,我计划用它对数据进行一些预处理。然后,我想把数据保存到Hadoop的文件系统中,用Impala查询。但是,Spark将数据文件写入单独的目录,并为每个RDD生成一个新目录。这是一个问题,因为首先,Impala中的外部表无法检测到子目录,只能检测到它们指向的目录内的文件,除非已分区。其次,Spark添加新目录的速度如此之快,以至于在Impala中为每个生成的目录定期创建一个新分区对性能来说非常糟糕。另一方面,如果我选择增加Spark中写入的滚动间隔,这样目录

hadoop - Impala - 如何在查询中设置变量?

如何在Impala查询中设置变量?在SQL中:select*fromuserswhereid=(@id:=123)在Impala中:impala-shell>?Impala版本为v2.0.0。任何建议将不胜感激。谢谢! 最佳答案 impala-shell>setvar:id=123;select*fromuserswhereid=${VAR:id};这个变量也可以使用--var从命令行传递impala-shell--varid=123impala-shell>select*fromuserswhereid=${VAR:id};

hadoop - Impala - 多次计算不同值时出错

我正在使用CDH-5.4.4Cloudera版,我在HDFS位置有一个CSV文件,我的要求是在Hadoop环境(OLTP)上执行实时SQL查询。所以我决定使用Impala,我已经将MetaStore表创建到一个CSV文件中,然后在Impala编辑器(在HUE应用程序中)中执行查询。当我执行以下查询时,出现如下错误"AnalysisException:allDISTINCTaggregatefunctionsneedtohavethesamesetofparametersascount(DISTINCTCity);deviatingfunction:count(DISTINCTCount

hadoop - Impala 查询编辑器始终显示 AnalysisException

我在Windows7计算机上运行QuickstartVMCloudera,其中8GoRAM和4Go专用于VM。我使用Sqoop(ClouderaVM教程练习1)将表从SQL数据库加载到Hive中。使用Hive查询编辑器或ImpalaShell,一切正常(即“显示表”向我显示导入的表)。使用Impala查询编辑器,无论我输入什么,我都会收到相同的错误消息:AnalysisException:Syntaxerrorinline1:USE``^Encountered:EMPTYIDENTIFIERExpected:IDENTIFIERCAUSEDBY...如果我输入“showtables”,

python - 使用带有 Kerberos 身份验证的 impyla 客户端连接到 Impala

我在一台W8机器上,我使用Python(Anaconda发行版)连接到我们Hadoop集群中的Impala,使用Impyla包。我们的hadoop集群通过Kerberos进行保护。我关注了APIREFERENCE如何配置连接。fromimpala.dbapiimportconnectconn=connect(host='localhost',port=21050,auth_mechanism='GSSAPI',kerberos_service_name='impala')我们将KerberosGSSAPI与SASL结合使用auth_mechanism='GSSAPI'我已经为WIN8安