Impala

hadoop - 在文件中写入 Impala 查询结果

我需要将Impala查询的结果存储在一个文本文件中，除了数据本身之外没有其他信息。例如:从test.abc中选择不同的yrmth它应该写:201705201706等在一个文本文件中逐行显示。有线索吗？最佳答案 impala-shell有很好的文档记录。您应该先尝试阅读帮助手册。无论如何，这就是您的答案。impala-shell-q'selectdistinctyrmthfromtest.abc'-B-ores.txt 关于hadoop-在文件中写入Impala查询结果，我们在Stack

sockets - Hadoop Impala 1.3.1 和 Open Socket 错误

我们刚刚将Impala从1.2.4升级到1.3.1，将CDH从4.6升级到4.7，然后开始出现写入问题(读取正常):尝试创建表时——出现套接字错误:createtabletest_5(xint,ystring);Query:createtabletest_5(xint,ystring)ApplicationException:Calledwriteonnon-opensocket尝试刷新表格时会发生同样的情况:invalidatemetadata;Query:invalidatemetadataApplicationException:Calledwriteonnon-opensock

sockets Hadoop section code blockquote impala

hadoop - 如何为 Multi-Tenancy 配置 Hive Impala/Spark？

试图找出答案，但当我想到以下内容时找不到答案。它涵盖了Spark、Impala、MR、HiveMulti-Tenancy。Impala给出的场景。我觉得它也可以应用于Spark，因为Impala/Spark都是内存占用。场景1假设我们为MR、Hive和Impala创建一个具有Multi-Tenancy的10节点集群，其中40%的资源静态分配给Impala。为了运行Impala，我们创建了具有256GBRAM数据节点的集群。问题是对于这种配置，我们正在失去低成本低GB的优势，即32-40GBRAM和5-6个核心节点，这是MR/的主要卖点之一Hadoop可在处理100TB数据期间以极低的成

何为 Multi-Tenancy strong Impala hadoop apache-spark hive

shell - 将 hdfs 上的脚本文件传递给 impala-shell

我有一个oozie作业，它有一个shell操作。首先，shell操作以编程方式查找存储在hdfs上的某些sql脚本文件。然后尝试在impala上运行每个sql脚本。由于事先不知道我要运行的sql脚本列表，因此不能作为传递给oozie操作参数，有没有办法运行impala-shell并给它一个hdfs路径而不是linux路径？最佳答案 Impalashell可以接受来自STDIN的查询文本。如所述here,选项-f-fquery_fileor--query_file=query_filequery_file=path_to_query

shell impala-shell section impala hadoop hdfs oozie

hadoop - 使用 hdfs 的 Impala 分区表

我将数据以以下格式存储在hdfs中，并使用“altertableaddpartition”命令将这些数据插入到impala分区表中。/user/impala/subscriber_data/year=2013/month=10/day=01/user/impala/subscriber_data/year=2013/month=10/day=02一切正常。现在我有一个新数据，月份和年份分别为10和01。现在我需要处理这些数据并将这些数据附加到现有的hdfs目录中(年=2013/月=10/日=01)。当我尝试处理并插入到hdfs目录时，由于输出目录已经存在而给出错误。有没有办法在不删除现

hadoop Impala section hdfs apache-pig

hadoop - 用于了解数据库表大小的 Impala 命令

有什么方法可以检查数据库表的大小和其他属性吗？我尝试了COMPUTESTATS，但它提供了除大小之外的表的详细信息。非常感谢任何查找信息和其他详细信息的链接。最佳答案 showtablestatstablename如我所愿，非常感谢关于hadoop-用于了解数据库表大小的Impala命令，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/48274739/

hadoop Impala section 小和 stackoverflow

sql - 在 Impala 中将数组列查询为行的解决方法

在Hive中，我可以使用explode函数，但在Impala中如何做到这一点？我读了这篇文章，但仍然没有头绪:IsthereafunctionequivalenttoHive's'explode'functioninApacheImpala?这是我在Hive中创建表的方式:createtabletb(arr_colarray)insertintotbselectarray('A','B')from(select'temp')x我的查询会报错:selecttb.arr_colfromtb..inselectlistreturnsacomplextype'ARRAY'.Onlyscalar

Impala sql section code select hadoop hive sql-function

java - 是否可以/支持使用 Java 执行 Impala 查询？

我想在HBase表上用java运行一个impala查询。我找不到办法做到这一点。谁能给我指出正确的方向，让我找到一个库、一个示例或任何我可以运行查询并获得结果的东西？我已经尝试使用jsch在服务器上运行命令，但不幸的是这给我带来了问题(没有输出出现)。最佳答案我还没有真正使用过它，但看起来像https://github.com/pauldeschacht/impala-java-client可能会满足您的需求关于java-是否可以/支持使用Java执行Impala查询？，我们在St

Impala java section https impala-java-client hadoop hbase jsch

hadoop - 具有制表符分隔值和字段名称的 Impala 外部表

我在HDFS中有一些数据，我想创建一个外部表并通过Impala进行查询。数据以制表符分隔，但也包含字段名称。示例数据:state:ILcity:chicagopopulation:2714856state:NYcity:NewYorkpopulation:8336697我知道如何创建表格并指定数据以制表符分隔，但有没有办法处理数据中的字段？最佳答案黑斑羚Impala中的解决方案使用与我之前发布的Pig示例相同的REGEXP_EXTRACT逻辑。--csp.txt(输入文件，驻留在/user/cloudera/csp)state:

制表符 hadoop population state city impala

hadoop - Impala:如何查询具有不同模式的多个 Parquet 文件

在Spark2.1中我经常使用类似的东西df=spark.read.parquet(/path/to/my/files/*.parquet)即使具有不同的架构，也可以加载parquet文件的文件夹。然后我使用SparkSQL对数据框执行一些SQL查询。现在我想尝试Impala，因为我阅读了wikiarticle，其中包含如下句子:ApacheImpalaisanopensourcemassivelyparallelprocessing(MPP)SQLqueryenginefordatastoredinacomputerclusterrunningApacheHadoop[...].Re

Parquet hadoop 39 role apache-spark-sql impala

12 13 141516 17 18