草庐IT

hadoop - 为什么 Impala 不在 hbase 表上工作?

我使用hive创建了hbase表A的外部表B。我可以成功访问B的数据。然后我按照官方的指导输入ImaplaShell:invalidatemetadataB;然后我在ImpalaShell中查询这个外部表B:select*fromBlimit4;但它输出:ERROR:RuntimeException:couldn'tretrieveHBasetable(mv_p2pusers)info:Enable/Disablefailed下面是一些相关的日志:11:13:58.937AMINFOjni-util.cc:177java.lang.RuntimeException:couldn'tre

hadoop - 使用边缘节点运行 Hadoop 集群时如何连接到 Impala

我已经使用ClouderaManager安装了Hadoop集群,目前ImpalaDaemon正在所有数据节点上运行。集群位于网关/边缘节点之后,边缘节点上只安装网关服务(例如httpfs、hivegateway、sparkgateway、oo​​zie)。我想知道如何使用网关/边缘节点连接Impala,因为所有Impala守护进程都在集群的数据节点上运行,并且没有服务暴露给网关/边缘节点。 最佳答案 您可以在边缘节点上安装haproxy:https://www.cloudera.com/documentation/enterpris

sql - Impala 分析函数在 where 子句中

所以这个问题的基本前提是我在hadoop中有一些巨大的表,我需要每个月从中获取一些样本。我模拟了下面的内容以显示我想要的东西,但显然这不是真实数据......--CreatethetableCREATETABLEexp_dqss_team.testranking(NameSTRING,AgeINT,Favourite_CheeseSTRING)STOREDASPARQUET;--PutsomedatainINSERTINTOTABLEexp_dqss_team.testrankingVALUES(('Tim',33,'Cheddar'),('Martin',49,'Gorgonzola

string - 使用 hive/impala 或其他方式通过子字符串连接大表的有效方法

我有2个表tabl1:+-------+--------+--------+----------+|att1|att2|att3|att4|+-------+--------+--------+----------+|abcd|ava012|df012f|afsdaldf|.......和tabl2:+----+|val|+----+|012|...tabl2包含的数字可以是tabl1的4列中的一列或多列中的子字符串。这两个表都是包含数百万条记录的大表。我试图连接tabl1列并在其中进行搜索,但查询永远不会结束。有没有一种有效的方法来做到这一点。也许将整个表格转换为一个txt文件并在其

hadoop - HIVE - "skip.footer.line.count"在 Impala 中不起作用

我正在将平面文件传送到hdfs。文件的一般结构如下:我在这个数据集之上构建了一个外部配置单元表。下面是我的配置单元ddl:createexternaltableext_test(idstring,namestring,agestring)rowformatDELIMITEDFIELDSTERMINATEDBY','STOREDASTEXTFILELOCATION''TBLPROPERTIES('skip.footer.line.count'='1','skip.header.line.count'='2')当我在HIVE中查询select*fromext_test时;我从外部表中得到了

hadoop - 构建 Impala 是否依赖于 Hive、HBase 和 Sentry?

我有一个Hadoop集群,有一个主节点和3个从节点。现在,我想在此集群上添加ApacheImpala功能。我已经从here下载了tarball.我想构建Impala,但不确定先决条件是什么。有两个不同的来源:This,来自文档,其中说要求是:MySQL(或PostgreSQL)、Hivemetastore和Java依赖项(很明显)。apache-impala目录中的README.md文件在解压tar包后创建。引用它:Impalacanbebuiltwithpre-builtcomponents,downloadedfromS3,orcanbebuiltwithanin-placetoo

hadoop - 在 impala 数据库名称中使用连字符

我有一个脚本,它直接要求在数据库名称中使用连字符创建impala数据库。我无法使用以下命令在impalashell中执行相同的操作。********default>createdatabasetest-1;Query:createdatabasetest-1ERROR:AnalysisException:Invaliddatabasename:test-1连反勾也无济于事********default>createdatabase`test-1`;Query:createdatabase`test-1`ERROR:AnalysisException:Invaliddatabasenam

hadoop - Impala 2.2 avro 选择 * 查询不工作

我在AmazonEMR3.10的Impala2.2中创建了外部表名称“operation_details”,它读取存储在HDFS中的avro模式和HDFS中的avro文件....我能够在该表上运行所有显示正确记录的查询当我运行selectfromoperation_details时,控制台显示::WARNINGS:Unresolvablecolumntypes(column2):declaredtype=DOUBLE,Avrotype=string无法解析的列类型(第2列):声明类型=DOUBLE,Avro类型=字符串未知的磁盘ID。这会对性能产生负面影响。检查您的hdfs设置以启用b

hadoop - Impala 查询结果中的数值发生变化

我们有一个Impala表,其中包含约10亿行和一个Double类型的值列。当我们在同一个表上连续多次运行相同的“select{dimensions},sum(value)fromtablegroupby{dimensions}”查询时,每次得到的总和略有不同。当我们对四舍五入的值求和时也会发生这种情况。这种可变性的原因可能是什么?有什么方法可以解决这个问题吗? 最佳答案 由于Impala查询的执行是分布式的,因此某些计算发生的顺序可能会因网络可变性或其他进程而有所不同,并且因为浮点运算不是关联的[1],这可能会导致您看到的行为。这就

hadoop - 用于在给定分隔符后提取文本的 impala 字符串函数

假设我有一个可变长度的字符串,例如:'633000000HIQWA4:005160000UT334''00YYSKSG004:00YJDJJDA3443''300SGDK112WA4:00KFJJD900'在之后使用哪个impala字符串函数提取文本:例如:'005160000UT334''00YJDJJDA3443''00KFJJD900' 最佳答案 使用split_part(stringsource,stringdelimiter,bigintn)函数。n的值将是字段从1开始编号。selectsplit_part('633000