Impala

Cloudera Impala 的内存配置

我正在使用Impala，我知道Impala在内存中进行处理。我搜索了Impala配置选项的列表，但我没有找到任何关于此的详尽文档，尤其是关于内存/堆的文档。Impala有这样的设置吗？还是依赖于hdfs/datanode堆空间？我知道您可以使用-mem_limit来限制Impala内存使用量，但我正在尝试更好地理解这是如何完成的。最佳答案自Impala1.4.0版本起，包含在CDH5.1.0中,Impala在查询处理过程中同时使用内存和磁盘。要了解有关如何控制Impala对内存的使用的更多信息，我建议阅读Clouderadocu

database - 将数据加载到 impala 分区表中

我在HDFS中有以下目录结构中的数据:/exported/2014/07/01/00/SEARCHES/part-m-00000.bz2part-m-00001.bz2/exported/2014/07/01/02/SEARCHES/part-m-00000.bz2part-m-00001.bz2part-m-00003.bz2..../exported/2014/08/01/09/SEARCHES/part-m-00005.bz2每个子目录下有多个零件文件。我想将此数据集加载到impala表中，因此使用以下查询来创建表:CREATEEXTERNALTABLEsearch(time_s

database impala section part-m 不支 hadoop database-schema cloudera

python-2.7 - 使用 ODBC 使用远程执行的 Python 代码运行 impala 查询

我目前正在尝试设置能够对远程Impala服务器执行Impala查询的Python代码。在我的本地Windows上，我使用的是ODBC驱动程序，该驱动程序已设置并可成功用于在Tableau中通过Impala检索数据。我们使用的Hadoop环境是Kerberised。要使用ODBC管理员进行成功的连接测试，我们需要SASL和受信任的.pem证书。我已经尝试使用多个库进行连接，但我不确定如何设置连接属性以及我需要哪些属性。我尝试关注thisguide开始。我通过设置对pyodbc进行了实验:Driver,Host,Port,Database,AuthMech=3,UseSASL=1,UID,

python section 39 code python-2.7 hadoop odbc cloudera impala

sql - Hadoop SQL - Impala 和计算字段

我是Hadoop的新手，正在尝试像在SQL中那样使用“计算的”字段:SELECT"one"astest,CASEWHENcalculatedtest="one"then"Thisworks"else"Nope"endaschecker但这似乎会产生一个错误:AnalysisException:Syntaxerrorinline1:...est,CASEWHENcalculatedtest="one"then"Thiswork...^Encountered:IDENTIFIERExpected:AND,BETWEEN,DIV,ILIKE,IN,IREGEXP,IS,LIKE,NOT,OR

Hadoop Impala code section blockquote sql

hadoop - Impala 可以从表中执行 COUNT() 但不能执行 SELECT

我遇到了一个奇怪的Impala行为。我从复制到Hadoop集群中的.csv文件在HUE中创建了一个表。我可以通过Metastore管理器在HUE中正确导航表格，但我无法在Impala中运行以下查询，因为它会抛出IllegalStateException:null异常:select*frommy_db.my_tablelimit100;奇怪的是下面的命令检索到正确的行数:selectcount(*)frommy_db.my_table; 最佳答案错误是由无效类型引起的。并不是所有的Hive数据类型在Impala中都受支持。Impal

hadoop Impala section code hive

hadoop - Hive 和 Impala 以及它们与 HDFS 的交互

尽管多年来一直使用传统数据库，但我相信我对Hive和Impala如何与HDFS交互(或者HDFS本身如何工作!)存在根本性的误解，并希望得到一些建议。只是为了说明我的想法:在Windows上，当我创建一个文件(比如bob.txt)时，该文件存储在“文件系统”(NTFS)上。现在，无论我使用Windows资源管理器、命令提示符还是其他软件，我总是会看到bob.txt，因为它存在于“文件系统上”并且所有软件都可以访问该文件系统。在我使用RedHat上的Cloudera与HDFS进行新手交互时，我认为它的工作方式与上一段中所述不完全相同。例如，在使用Hue时，如果我在“Hive查询编辑器

hadoop Impala section Hive filesystems hdfs

shell - 删除 impala shell 历史记录

我遇到了这个问题:我们有一个共享用户，我们在同一台机器上使用impala-shell进行impala查询。我不希望我的查询可见，并且我希望能够清除我的impala-shell历史记录。我们通过以下方式访问impala:impala-shell使用向上键的任何用户都可以看到所有查询。我该怎么做？最佳答案您可以删除位于主文件夹中的历史文件。rm~/.impalahistory 关于shell-删除impalashell历史记录，我们在StackOverflow上找到一个类似的问题：

shell impala section hadoop

hadoop - 启动 Impala 的问题

我一直在尝试在nativeHadoop安装上安装和启动Impala。下面是使用impalad的错误日志。Impala服务器位于二级名称节点(nn02.tcs.com)[root@nn02impala]#impaladlog4j:WARNNoappenderscouldbefoundforlogger(org.apache.hadoop.metrics2.lib.MutableMetricsFactory).log4j:WARNPleaseinitializethelog4jsystemproperly.log4j:WARNSeehttp://logging.apache.org/log

hadoop Impala section com code hive

hadoop - Cloudera CDH 上的 Impala "Could not create logging file: Permission denied"

我在CDH4.2.0-1.cdh4.2.0.p0.10集群上的ClouderaManager4.5中通过包裹安装了Impala。当我尝试启动服务时，它在所有节点上都失败并显示此消息perl-pi-e's#{{CMF_CONF_DIR}}#/run/cloudera-scm-agent/process/800-impala-IMPALAD#g'/run/cloudera-scm-agent/process/800-impala-IMPALAD/impala-conf/impalad_flags'['impalad=impalad']'exec/opt/cloudera/parcels/I

Permission amp cloudera impala section hadoop

hadoop - Hadoop 1.0.4 上的 Impala

我正尝试在我的linux机器上处理impala。我的不是cloudera发行版。我分别安装了Hadoop、Hive、HBase等组件。这是版本Hadoop-1.0.4HBase-0.94.8Hive-0.9.0Impala-1.2.3我使用rpm安装impala，因为我的是redhatlinuxbox。我无法在我的机器上配置impala服务器(实际上无法找到site.xml)。在我所做的研究中，我了解到impala只能与Hadoop2.x一起使用。是真的吗？如果正确，我需要迁移到2.x而不是在1.x上浪费时间。有人可以证实吗？提前致谢。最佳答案

hadoop code section cloudera impala

9 10 111213 14 15