草庐IT

大数据之 impala教程

一、什么是Impala?Impala是用于处理存储在Hadoop集群中的大量数据的MPP(大规模并行处理)SQL查询引擎。它是一个用C++和Java编写的开源软件。与其他Hadoop的SQL引擎相比,它提供了高性能和低延迟。换句话说,Impala是性能最高的SQL引擎(提供类似RDBMS的体验),它提供了访问存储在Hadoop分布式文件系统中的数据的最快方法。二、为什么选择Impala?Impala通过使用标准组件(如HDFS,HBase,Metastore,YARN和Sentry)将传统分析数据库的SQL支持和多用户性能与ApacheHadoop的可扩展性和灵活性相结合。使用Impala,与

impala中的刷新元数据和刷新表

impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。虽然Hive系统也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,impala的最大特点也是最大卖点就是它的快速。换句话说,impala是性能最高的SQL引擎,它提供了访问存储在Hadoop分布式文件系统中的数据的最快方法。场景案例假如我们在hive中有一些数据希望通过impala查询,这时我们就需要把hive的数据同步到impala,每当hive表的数据或表结构发生变更,就需要

csv - 为 Impala 上传 CSV

我正在尝试为Impala上传HDFS上的csv文件,但失败了很多次。不确定这里有什么问题,因为我已经按照指南进行操作。而且csv也在HDFS上。CREATEEXTERNALTABLEgc_imp(asdINT,full_nameSTRING,sd_fd_dateSTRING,retINT,ftyuINT,qwerINT)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','LOCATION'/user/hadoop/Gc_4';我遇到的错误。我正在为此使用Hue。>TExecuteStatementResp(status=TStatus(errorCode=No

hadoop - hive 或 impala 中没有加载表

我在Centos6.5上使用CDH5,当我浏览到查询编辑器>Hive或Impala时,左侧的表格部分和一个等待微调器一起坐在那里。有可用的表,因为我可以从配置单元cli查询它们,它从不加载表,有人能指出我正确的方向吗? 最佳答案 我认为没有食谱解决方案,我会采取以下行动确保Hive可以从hiveshell列出表和查询值,如果在看到它们之前不重新配置hive确保impala-shell可以列出表和查询值,如果不能重新配置impala,直到看到它们为Hue查询编辑器重复阶段1和2小提示:有关实际错误的更多数据可能会在子系统的日志中找到

hadoop - Hive/Impala 中的多维分析

我有一个非规范化的表说Sales看起来像:销售键,SalesOfParts、SalesOfEquipments、CostOfSales作为一些数字度量行业、国家、州、销售区域、设备ID、客户ID、销售年份、销售月份和一些更相似的维度。(共12个维度)我需要支持对销售的聚合查询,例如一年、一个月的销售总数……它们的总成本等。此外,还需要过滤这些聚合,例如2013年的总销售额,04属于XYZ客户的制造行业。我在hive/impala中有这些维度表和事实。我不认为我可以在所有维度上制作一个立方体。我阅读了一篇论文,了解如何在多个维度上执行OLAP:http://www.vldb.org/co

hadoop - 在 Impala 中使用 Hive UDF 在 Impala 1.2.4 中给出错误结果

我有两个Java中的HiveUDF,它们可以工作在Hive中非常好。这两个功能是互补的。StringmyUDF(BigInt)BigIntmyUDFReverso(String)myUDF("myInput")给出一些输出当myUDFReverso(myUDF("myInput"))应该返回myInput这在Hive中有效,但是当我尝试使用它在Impala(版本1.2.4)中给出了预期的myUDF(BigInt)的答案(打印的答案是正确的)但是传递给myUDFReverso(String)的答案没有给出返回原始答案)。我注意到Impala1.2.4中的length(myUDF("myI

hadoop - 同时使用 Hive 和 Impala 时出现表文件夹权限问题

我们使用最新版本的Hive和Impala。Impala正在使用LDAP进行身份验证,并通过Sentry完成授权。Hive访问尚未通过Sentry授权。我们正在从Impala创建表,而/user/hive/warehouse具有“hive”组的组级所有权,因此,文件夹权限是impala:hive。drwxrwx--T-impalahive02015-08-2421:16/user/hive/warehouse/test1.dbdrwxrwx--T-impalahive02015-08-1117:12/user/hive/warehouse/test1.db/events_test_ven

sql - 如何在 impala 中使用 distinct

您好,我正在尝试查询表中的不同位置。这是我的查询。selectdistinctcity,locality,avg_sqftfromreal_estate.re_searchwherecity='bangalore'ANDlocality!='jayanagar';结果+-----------+--------------+----------+|city|locality|avg_sqft|+-----------+--------------+----------+|bangalore|bannerghatta|13500||bangalore|kormangala|18000||b

sql - 尝试将数据从 Impala Parquet 表复制到非 Parquet 表

我在Impala中移动数据,而不是我的设计,我丢失了一些数据。我需要将数据从Parquet表复制回它们原来的非Parquet表。最初,开发人员使用脚本中的一个简单的一行来完成此操作。由于我对数据库一无所知,尤其是对Impala,我希望你能帮助我。这是用于转换为我需要反转的Parquet表的一行。impalaShell-iusedbINVALIDATEMETADATA;CREATETABLELIKESTOREDASPARQUETTABLE;INSERTOVERWRITESELECT*FROM;谢谢。 最佳答案 你有没有试过简单地做CR

bash - 在 Impala Shell 中重新启动失败的脚本查询

我一直在查看ImpalaShell文档,但没有找到解决此问题的任何内容。我有一个运行Impala查询的bash脚本,然后发送一封包含查询结果的电子邮件。问题是,每隔一段时间查询就会失败;发生这种情况时,脚本的下一行开始运行,并通过电子邮件发送一个空白的CSV文件。是否可以对ImpalaShell脚本本身或框架bash脚本进行修改以解决此问题?我最初的想法是让脚本在CSV文件为空时重新运行查询,但在查询合法地没有产生任何结果的情况下,这会使脚本陷入循环。有什么建议吗?这是脚本现在的模型:#!/bin/bashNOW=$(date+"%F")NAME="001"impala-shell-i