草庐IT

impala-tpcds-kit

全部标签

shell - 将 hdfs 上的脚本文件传递给 impala-shell

我有一个oozie作业,它有一个shell操作。首先,shell操作以编程方式查找存储在hdfs上的某些sql脚本文件。然后尝试在impala上运行每个sql脚本。由于事先不知道我要运行的sql脚本列表,因此不能作为传递给oozie操作参数,有没有办法运行impala-shell并给它一个hdfs路径而不是linux路径? 最佳答案 Impalashell可以接受来自STDIN的查询文本。如所述here,选项-f-fquery_fileor--query_file=query_filequery_file=path_to_query

hadoop - 使用 hdfs 的 Impala 分区表

我将数据以以下格式存储在hdfs中,并使用“altertableaddpartition”命令将这些数据插入到impala分区表中。/user/impala/subscriber_data/year=2013/month=10/day=01/user/impala/subscriber_data/year=2013/month=10/day=02一切正常。现在我有一个新数据,月份和年份分别为10和01。现在我需要处理这些数据并将这些数据附加到现有的hdfs目录中(年=2013/月=10/日=01)。当我尝试处理并插入到hdfs目录时,由于输出目录已经存在而给出错误。有没有办法在不删除现

hadoop - 用于了解数据库表大小的 Impala 命令

有什么方法可以检查数据库表的大小和其他属性吗?我尝试了COMPUTESTATS,但它提供了除大小之外的表的详细信息。非常感谢任何查找信息和其他详细信息的链接。 最佳答案 showtablestatstablename如我所愿,非常感谢 关于hadoop-用于了解数据库表大小的Impala命令,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/48274739/

sql - 在 Impala 中将数组列查询为行的解决方法

在Hive中,我可以使用explode函数,但在Impala中如何做到这一点?我读了这篇文章,但仍然没有头绪:IsthereafunctionequivalenttoHive's'explode'functioninApacheImpala?这是我在Hive中创建表的方式:createtabletb(arr_colarray)insertintotbselectarray('A','B')from(select'temp')x我的查询会报错:selecttb.arr_colfromtb..inselectlistreturnsacomplextype'ARRAY'.Onlyscalar

java - 是否可以/支持使用 Java 执行 Impala 查询?

我想在HBase表上用java运行一个impala查询。我找不到办法做到这一点。谁能给我指出正确的方向,让我找到一个库、一个示例或任何我可以运行查询并获得结果的东西?我已经尝试使用jsch在服务器上运行命令,但不幸的是这给我带来了问题(没有输出出现)。 最佳答案 我还没有真正使用过它,但看起来像https://github.com/pauldeschacht/impala-java-client可能会满足您的需求 关于java-是否可以/支持使用Java执行Impala查询?,我们在St

hadoop - 具有制表符分隔值和字段名称的 Impala 外部表

我在HDFS中有一些数据,我想创建一个外部表并通过Impala进行查询。数据以制表符分隔,但也包含字段名称。示例数据:state:ILcity:chicagopopulation:2714856state:NYcity:NewYorkpopulation:8336697我知道如何创建表格并指定数据以制表符分隔,但有没有办法处理数据中的字段? 最佳答案 黑斑羚Impala中的解决方案使用与我之前发布的Pig示例相同的REGEXP_EXTRACT逻辑。--csp.txt(输入文件,驻留在/user/cloudera/csp)state:

hadoop - Impala:如何查询具有不同模式的多个 Parquet 文件

在Spark2.1中我经常使用类似的东西df=spark.read.parquet(/path/to/my/files/*.parquet)即使具有不同的架构,也可以加载parquet文件的文件夹。然后我使用SparkSQL对数据框执行一些SQL查询。现在我想尝试Impala,因为我阅读了wikiarticle,其中包含如下句子:ApacheImpalaisanopensourcemassivelyparallelprocessing(MPP)SQLqueryenginefordatastoredinacomputerclusterrunningApacheHadoop[...].Re

hadoop - impala 不支持 Hive 日期格式

Impala不支持Hive日期格式。我在hive表中的日期列上创建了分区,但是当我可以从impala中的hive_metadata访问同一个表时,它显示了CAUSEDBY:TableLoadingException:Failedtoloadmetadatafortable'employee_part'becauseofunsupportedpartition-columntype'DATE'inpartitioncolumn'hiredate'.请让我知道hive和impala通常支持哪种日期格式。我在hive中使用的日期格式为yyyy-mm-dd 最佳答案

hadoop - 在 Mesos 上运行 Impala

是否可以在Mesos上运行Impala?有没有人试过这个?我知道有Llama用于在YARN上运行Impala。Mesos有类似的东西吗? 最佳答案 还没有听说有人在Mesos上运行Impala,尽管在Marathon上运行它或为它构建自定义框架应该不会太难。您还可以在Myriad上的YARN上的Llama上运行Impala在Mesos上,但这对您来说可能层太多了。 关于hadoop-在Mesos上运行Impala,我们在StackOverflow上找到一个类似的问题:

hadoop - 使用 Impala 显示与记录关联的所有字段

假设,我有一个student表,其中包含impala中的一些字段。假设有一个名为total_mark的字段,我应该从每个分支中找到分数最高的学生详细信息。我的table是这样的:-在这个表中,我必须获取每个系最高分学生的详细信息。我的查询将是这样的:-selectid,max(total_marks)fromstudent_detailsgroupbydepartment;但是使用这个查询我只能得到id和total_marks。如果可以有同名的学生,年龄我不能用年龄,姓名等字段分组。那么我应该如何查询表以获取每个部门的优等生的所有详细信息??提前致谢。 最佳