草庐IT

Cloudera Impala 的内存配置

我正在使用Impala,我知道Impala在内存中进行处理。我搜索了Impala配置选项的列表,但我没有找到任何关于此的详尽文档,尤其是关于内存/堆的文档。Impala有这样的设置吗?还是依赖于hdfs/datanode堆空间?我知道您可以使用-mem_limit来限制Impala内存使用量,但我正在尝试更好地理解这是如何完成的。 最佳答案 自Impala1.4.0版本起,包含在CDH5.1.0中,Impala在查询处理过程中同时使用内存和磁盘。要了解有关如何控制Impala对内存的使用的更多信息,我建议阅读Clouderadocu

database - 将数据加载到 impala 分区表中

我在HDFS中有以下目录结构中的数据:/exported/2014/07/01/00/SEARCHES/part-m-00000.bz2part-m-00001.bz2/exported/2014/07/01/02/SEARCHES/part-m-00000.bz2part-m-00001.bz2part-m-00003.bz2..../exported/2014/08/01/09/SEARCHES/part-m-00005.bz2每个子目录下有多个零件文件。我想将此数据集加载到impala表中,因此使用以下查询来创建表:CREATEEXTERNALTABLEsearch(time_s

python-2.7 - 使用 ODBC 使用远程执行的 Python 代码运行 impala 查询

我目前正在尝试设置能够对远程Impala服务器执行Impala查询的Python代码。在我的本地Windows上,我使用的是ODBC驱动程序,该驱动程序已设置并可成功用于在Tableau中通过Impala检索数据。我们使用的Hadoop环境是Kerberised。要使用ODBC管理员进行成功的连接测试,我们需要SASL和受信任的.pem证书。我已经尝试使用多个库进行连接,但我不确定如何设置连接属性以及我需要哪些属性。我尝试关注thisguide开始。我通过设置对pyodbc进行了实验:Driver,Host,Port,Database,AuthMech=3,UseSASL=1,UID,

sql - Hadoop SQL - Impala 和计算字段

我是Hadoop的新手,正在尝试像在SQL中那样使用“计算的”字段:SELECT"one"astest,CASEWHENcalculatedtest="one"then"Thisworks"else"Nope"endaschecker但这似乎会产生一个错误:AnalysisException:Syntaxerrorinline1:...est,CASEWHENcalculatedtest="one"then"Thiswork...^Encountered:IDENTIFIERExpected:AND,BETWEEN,DIV,ILIKE,IN,IREGEXP,IS,LIKE,NOT,OR

hadoop - Impala 可以从表中执行 COUNT(*) 但不能执行 SELECT *

我遇到了一个奇怪的Impala行为。我从复制到Hadoop集群中的.csv文件在HUE中创建了一个表。我可以通过Metastore管理器在HUE中正确导航表格,但我无法在Impala中运行以下查询,因为它会抛出IllegalStateException:null异常:select*frommy_db.my_tablelimit100;奇怪的是下面的命令检索到正确的行数:selectcount(*)frommy_db.my_table; 最佳答案 错误是由无效类型引起的。并不是所有的Hive数据类型在Impala中都受支持。Impal

hadoop - Hive 和 Impala 以及它们与 HDFS 的交互

尽管多年来一直使用传统数据库,但我相信我对Hive和Impala如何与HDFS交互(或者HDFS本​​身如何工作!)存在根本性的误解,并希望得到一些建议。只是为了说明我的想法:在Windows上,当我创建一个文件(比如bob.txt)时,该文件存储在“文件系统”(NTFS)上。现在,无论我使用Windows资源管理器、命令提示符还是其他软件,我总是会看到bob.txt,因为它存在于“文件系统上”并且所有软件都可以访问该文件系统。在我使用RedHat上的Cloudera与HDFS进行新手交互时,我认为它的工作方式与上一段中所述不完全相同。例如,在使用Hue时,如果我在“Hive查询编辑器

shell - 删除 impala shell 历史记录

我遇到了这个问题:我们有一个共享用户,我们在同一台机器上使用impala-shell进行impala查询。我不希望我的查询可见,并且我希望能够清除我的impala-shell历史记录。我们通过以下方式访问impala:impala-shell使用向上键的任何用户都可以看到所有查询。我该怎么做? 最佳答案 您可以删除位于主文件夹中的历史文件。rm~/.impalahistory 关于shell-删除impalashell历史记录,我们在StackOverflow上找到一个类似的问题:

hadoop - 启动 Impala 的问题

我一直在尝试在nativeHadoop安装上安装和启动Impala。下面是使用impalad的错误日志。Impala服务器位于二级名称节点(nn02.tcs.com)[root@nn02impala]#impaladlog4j:WARNNoappenderscouldbefoundforlogger(org.apache.hadoop.metrics2.lib.MutableMetricsFactory).log4j:WARNPleaseinitializethelog4jsystemproperly.log4j:WARNSeehttp://logging.apache.org/log

hadoop - Cloudera CDH 上的 Impala "Could not create logging file: Permission denied"

我在CDH4.2.0-1.cdh4.2.0.p0.10集群上的ClouderaManager4.5中通过包裹安装了Impala。当我尝试启动服务时,它在所有节点上都失败并显示此消息perl-pi-e's#{{CMF_CONF_DIR}}#/run/cloudera-scm-agent/process/800-impala-IMPALAD#g'/run/cloudera-scm-agent/process/800-impala-IMPALAD/impala-conf/impalad_flags'['impalad=impalad']'exec/opt/cloudera/parcels/I

hadoop - Hadoop 1.0.4 上的 Impala

我正尝试在我的linux机器上处理impala。我的不是cloudera发行版。我分别安装了Hadoop、Hive、HBase等组件。这是版本Hadoop-1.0.4HBase-0.94.8Hive-0.9.0Impala-1.2.3我使用rpm安装impala,因为我的是redhatlinuxbox。我无法在我的机器上配置impala服务器(实际上无法找到site.xml)。在我所做的研究中,我了解到impala只能与Hadoop2.x一起使用。是真的吗?如果正确,我需要迁移到2.x而不是在1.x上浪费时间。有人可以证实吗?提前致谢。 最佳答案