草庐IT

impala-tpcds-kit

全部标签

hadoop - hive 或 impala 中没有加载表

我在Centos6.5上使用CDH5,当我浏览到查询编辑器>Hive或Impala时,左侧的表格部分和一个等待微调器一起坐在那里。有可用的表,因为我可以从配置单元cli查询它们,它从不加载表,有人能指出我正确的方向吗? 最佳答案 我认为没有食谱解决方案,我会采取以下行动确保Hive可以从hiveshell列出表和查询值,如果在看到它们之前不重新配置hive确保impala-shell可以列出表和查询值,如果不能重新配置impala,直到看到它们为Hue查询编辑器重复阶段1和2小提示:有关实际错误的更多数据可能会在子系统的日志中找到

hadoop - Hive/Impala 中的多维分析

我有一个非规范化的表说Sales看起来像:销售键,SalesOfParts、SalesOfEquipments、CostOfSales作为一些数字度量行业、国家、州、销售区域、设备ID、客户ID、销售年份、销售月份和一些更相似的维度。(共12个维度)我需要支持对销售的聚合查询,例如一年、一个月的销售总数……它们的总成本等。此外,还需要过滤这些聚合,例如2013年的总销售额,04属于XYZ客户的制造行业。我在hive/impala中有这些维度表和事实。我不认为我可以在所有维度上制作一个立方体。我阅读了一篇论文,了解如何在多个维度上执行OLAP:http://www.vldb.org/co

hadoop - 在 Impala 中使用 Hive UDF 在 Impala 1.2.4 中给出错误结果

我有两个Java中的HiveUDF,它们可以工作在Hive中非常好。这两个功能是互补的。StringmyUDF(BigInt)BigIntmyUDFReverso(String)myUDF("myInput")给出一些输出当myUDFReverso(myUDF("myInput"))应该返回myInput这在Hive中有效,但是当我尝试使用它在Impala(版本1.2.4)中给出了预期的myUDF(BigInt)的答案(打印的答案是正确的)但是传递给myUDFReverso(String)的答案没有给出返回原始答案)。我注意到Impala1.2.4中的length(myUDF("myI

hadoop - 同时使用 Hive 和 Impala 时出现表文件夹权限问题

我们使用最新版本的Hive和Impala。Impala正在使用LDAP进行身份验证,并通过Sentry完成授权。Hive访问尚未通过Sentry授权。我们正在从Impala创建表,而/user/hive/warehouse具有“hive”组的组级所有权,因此,文件夹权限是impala:hive。drwxrwx--T-impalahive02015-08-2421:16/user/hive/warehouse/test1.dbdrwxrwx--T-impalahive02015-08-1117:12/user/hive/warehouse/test1.db/events_test_ven

sql - 如何在 impala 中使用 distinct

您好,我正在尝试查询表中的不同位置。这是我的查询。selectdistinctcity,locality,avg_sqftfromreal_estate.re_searchwherecity='bangalore'ANDlocality!='jayanagar';结果+-----------+--------------+----------+|city|locality|avg_sqft|+-----------+--------------+----------+|bangalore|bannerghatta|13500||bangalore|kormangala|18000||b

sql - 尝试将数据从 Impala Parquet 表复制到非 Parquet 表

我在Impala中移动数据,而不是我的设计,我丢失了一些数据。我需要将数据从Parquet表复制回它们原来的非Parquet表。最初,开发人员使用脚本中的一个简单的一行来完成此操作。由于我对数据库一无所知,尤其是对Impala,我希望你能帮助我。这是用于转换为我需要反转的Parquet表的一行。impalaShell-iusedbINVALIDATEMETADATA;CREATETABLELIKESTOREDASPARQUETTABLE;INSERTOVERWRITESELECT*FROM;谢谢。 最佳答案 你有没有试过简单地做CR

bash - 在 Impala Shell 中重新启动失败的脚本查询

我一直在查看ImpalaShell文档,但没有找到解决此问题的任何内容。我有一个运行Impala查询的bash脚本,然后发送一封包含查询结果的电子邮件。问题是,每隔一段时间查询就会失败;发生这种情况时,脚本的下一行开始运行,并通过电子邮件发送一个空白的CSV文件。是否可以对ImpalaShell脚本本身或框架bash脚本进行修改以解决此问题?我最初的想法是让脚本在CSV文件为空时重新运行查询,但在查询合法地没有产生任何结果的情况下,这会使脚本陷入循环。有什么建议吗?这是脚本现在的模型:#!/bin/bashNOW=$(date+"%F")NAME="001"impala-shell-i

shell - 告诉 Impala 忽略错误并继续

我正在尝试使用shellnohup运行一个长刷新脚本,脚本#!/bin/bashimpala-shell-fRefresh.sql-i"landingarea"但是每次遇到错误它都会停止,我必须进入脚本修复错误并从头开始重新运行,我喜欢它运行到最后,我可以找出错误,这可能吗?shellnohupshRefresh.shcatnohup.out 最佳答案 请使用-c查询失败继续。impala-shell-f-cRefresh.sql-i"landingarea"如果您不想捕获详细/错误消息,您可以包含--quiet选项impala-s

hadoop - 将条件字段添加到 Hive 或 Impala 中的表

我有一个存储为parquet的大表,我需要根据条件添加列。有没有一种方法可以做到这一点而不必在Hive或Impala中重新创建一个新表?是这样的吗?ALTERTABLExyzADDCOLUMNflagAS(CASEWHEN...END)谢谢 最佳答案 我认为Hive或Impala不支持计算列。这种类型的计算通常使用View来完成:CREATEVIEWv_xyzASSELECTxyz.*,(CASEWHEN...END)asflagFROMxyz;然后您可以随时更新View以调整逻辑或添加新列。

apache - 超出内存限制 - Apache Impala

Screenshotofmymemorystatus您好,当我尝试运行TPCDS-Benchmark查询时遇到错误片段超出内存限制:9944e21b4d6634c0:1HDFS_SCAN_NODE(id=2)无法在不超过限制的情况下分配1.95KB。进程:超出内存限制。限制=256.00MB总计=286.62MB峰值=380.11MB我的电脑有10GB的内存。然而,impala似乎只分配了256MB。我曾尝试使用mem_limit命令增加启动时的内存限制,但它不起作用。 最佳答案 我能够通过ClouderaManager解决我的问题