impala-tpcds-kit

hadoop - 在 Impala 中将 STRING 转换为 DATE。 (可能的错误)

这似乎是我面临的一个有趣的错误/问题。我正在使用CDH5.8(Hadoop的Cloudera发行版)下的Impala和HUE。执行下面的代码select'1709.02.02'asDateString,CAST((from_unixtime(UNIX_TIMESTAMP('1709.02.02','yyyy.MM.dd')))asTIMESTAMP)asDateTimestamp我得到如下输出(这是预期的)datestringdatetimestamp1709.02.021709-02-0200:00:00但是在执行下面的代码时select'1009.02.02'asDateStrin

hadoop - 通过分区控制 Impala 中的数据局部性

如果在表创建时理想的数据位置或布局已知，我想避免Impala节点不必要地通过网络从其他节点请求数据。这对于“非加性”操作很有帮助，其中分区中的所有记录无论如何都需要在同一位置(节点)(例如百分位数)。是否可以告诉Impala分区中的所有数据都应该始终位于任何HDFS副本的单个节点上？在Impala-SQL中，我不确定“PARTITIONEDBY”子句是否提供此功能。据我了解，Impala将其分区分块到HDFS上的单独文件中，但HDFS不保证相关文件的共同定位，默认情况下也不block(而是试图实现相反的目标)。找到一些关于Impala对HDFS开发的影响的信息，但不清楚这些是否已经实现

hadoop Impala section HDFS partitioning database-partitioning

apache-spark - 如何让 Spark Streaming 写入它的输出以便 Impala 可以读取它？

我在使用SparkStreamingAPI时遇到以下问题。我目前正在通过Flume将输入数据流式传输到SparkStreaming，我计划用它对数据进行一些预处理。然后，我想把数据保存到Hadoop的文件系统中，用Impala查询。但是，Spark将数据文件写入单独的目录，并为每个RDD生成一个新目录。这是一个问题，因为首先，Impala中的外部表无法检测到子目录，只能检测到它们指向的目录内的文件，除非已分区。其次，Spark添加新目录的速度如此之快，以至于在Impala中为每个生成的目录定期创建一个新分区对性能来说非常糟糕。另一方面，如果我选择增加Spark中写入的滚动间隔，这样目录

apache-spark Streaming Spark code Impala hadoop hive spark-streaming

hadoop - Impala - 如何在查询中设置变量？

如何在Impala查询中设置变量？在SQL中:select*fromuserswhereid=(@id:=123)在Impala中:impala-shell>?Impala版本为v2.0.0。任何建议将不胜感激。谢谢! 最佳答案 impala-shell>setvar:id=123;select*fromuserswhereid=${VAR:id};这个变量也可以使用--var从命令行传递impala-shell--varid=123impala-shell>select*fromuserswhereid=${VAR:id};

中设何在 section code hadoop hive impala

hadoop - Impala - 多次计算不同值时出错

我正在使用CDH-5.4.4Cloudera版，我在HDFS位置有一个CSV文件，我的要求是在Hadoop环境(OLTP)上执行实时SQL查询。所以我决定使用Impala，我已经将MetaStore表创建到一个CSV文件中，然后在Impala编辑器(在HUE应用程序中)中执行查询。当我执行以下查询时，出现如下错误"AnalysisException:allDISTINCTaggregatefunctionsneedtohavethesamesetofparametersascount(DISTINCTCity);deviatingfunction:count(DISTINCTCount

时出 hadoop CustomerID section strong impala

hadoop - Impala 查询编辑器始终显示 AnalysisException

我在Windows7计算机上运行QuickstartVMCloudera，其中8GoRAM和4Go专用于VM。我使用Sqoop(ClouderaVM教程练习1)将表从SQL数据库加载到Hive中。使用Hive查询编辑器或ImpalaShell，一切正常(即“显示表”向我显示导入的表)。使用Impala查询编辑器，无论我输入什么，我都会收到相同的错误消息:AnalysisException:Syntaxerrorinline1:USE``^Encountered:EMPTYIDENTIFIERExpected:IDENTIFIERCAUSEDBY...如果我输入“showtables”，

AnalysisException hadoop section Impala image hive hue

python - 使用带有 Kerberos 身份验证的 impyla 客户端连接到 Impala

我在一台W8机器上，我使用Python(Anaconda发行版)连接到我们Hadoop集群中的Impala，使用Impyla包。我们的hadoop集群通过Kerberos进行保护。我关注了APIREFERENCE如何配置连接。fromimpala.dbapiimportconnectconn=connect(host='localhost',port=21050,auth_mechanism='GSSAPI',kerberos_service_name='impala')我们将KerberosGSSAPI与SASL结合使用auth_mechanism='GSSAPI'我已经为WIN8安

Kerberos python strong section code hadoop cloudera

sql - Impala/Hive 获取表列表及其大小

我在OracleDB中使用查询来生成数据库中的表列表及其所有者和相应的表大小。这是我分享的示例查询。selectowner,table_name,round((num_rows*avg_row_len)/(1024*1024))MBfromall_tableswhereownernotlike'SYS%'--Excludesystemtables.andnum_rows>0--IgnoreemptyTables.orderbyMBdesc--Biggestfirst.我想要来自Impala/Hive的类似输出。注意:我试过showtablestats这将显示单个表的统计信息。但我想一次

及其 Impala cloudera param param_value sql oracle hadoop hive

hadoop - 使用什么.. HDFS 上的 Impala 或 Hbase 上的 Impala 或只是 Hbase？

我正在处理概念验证任务。任务是使用Hadoop技术实现我们产品的一项功能。功能非常简单，我们有一个UI，可让您插入有关“网络问题”的详细信息。有关此类问题的所有详细信息都被捕获并插入到Oracle数据库中的表中。然后，我们处理此表中的数据并计算健康评分。我必须使用Hadoop而不是传统的Db所以我的问题是要做什么？HDFS上的黑斑羚？要么Hbase上的黑斑羚？要么Hbase?我正在使用clouderaVM进行POC实现。按照我的理解，Hbase是NoSQL分布式数据库，其实是HDFS之上的一层，提供javaAPI来访问数据。Impala是一种工具，它还提供JDBC访问以通过Hbase或

Impala Hbase section 一开 hadoop hdfs

hadoop - 从分区文件结构创建 Impala 外部表

提供了如下的分区fs结构:logs└──log_type└──2013├──07│ ├──28│ │ ├──host1│ │ │ └──log_file_1.csv│ │ └──host2│ │ ├──log_file_1.csv│ │ └──log_file_2.csv│ └──29│ ├──host1│ │ └──log_file_1.csv│ └──host2│ └──log_file_1.csv└──08我一直在尝试在Impala中创建一个外部表:createexternaltablelog_type(field1string,field2s

hadoop Impala log_type code log bigdata cloudera

38 39 404142 43 44