草庐IT

hadoop - Impala 查询停留在执行状态

我有一个在Hue中成功运行的查询CREATETABLEfoobarASSELECT...(返回的状态是Inserted986571row(s))并需要几个秒完成。然而,在ClouderaManager中,它的状态-超过10分钟后-仍然显示Executing。这是ClouderaManager中的错误还是此查询实际上仍在运行? 最佳答案 当Hue执行查询时,它会使查询保持打开状态,以便用户可以按照自己的节奏对结果进行分页。(当然,这种行为对DDL语句不是很有用。)这意味着Impala仍然认为查询正在执行,即使它没有主动使用CPU周期(

sql - 来自另一个表的动态正则表达式搜索字符串

我有两个表:项目CREATETABLEitems(IDint,TXTstring,CODEstring);INSERTINTOitemsVALUES(1,'AABBCC','ZZ-100');INSERTINTOitemsVALUES(2,'BBCCDD','ZZ-200');INSERTINTOitemsVALUES(3,'AACCEE','ZZ-300');INSERTINTOitemsVALUES(4,'EEFFGG','ZZ-400');INSERTINTOitemsVALUES(5,'CCHHII','ZZ-500');+----+----------+--------+|i

hadoop - 使用 Impala 访问 Hbase 表时,所有 SQL 操作是否都有效?

HBase不允许对其表进行连接操作。为了克服这个问题,我计划创建HBase表并通过Impala访问它。Impala允许所有连接以及分组依据和其他SQL操作。我对此几乎没有疑问-有人测试过这种方法吗?所有可用的SQL操作是否同样有效impala与Hive一起工作?我试图在cloudera的文档中找到答案,但没有明确的答案。 最佳答案 “明确答案”一词取决于您要查找的参数...Q1:Hasanyonetestedthisapproach?是的,Impala的这种方法-hbase外部表是可行的,因为我们已经为即席查询做了同样的事情。然而,

hadoop - [Vertica][VJDBC](100172) 一行或多行被服务器拒绝

使用Sqoop将数据从Impala加载到Vertica时出现以下错误。Error:java.io.IOException:Can'texportdata,pleasecheckfailedmaptasklogsatorg.apache.sqoop.mapreduce.TextExportMapper.map(TextExportMapper.java:112)atorg.apache.sqoop.mapreduce.TextExportMapper.map(TextExportMapper.java:39)atorg.apache.hadoop.mapreduce.Mapper.run

sql - (Hive, SQL) - 如何对列内的字符串列表进行排序?

我在Hive(SQL)中遇到大数据问题。SELECTgenre,COUNT(*)ASunique_countFROMtable_nameGROUPBYgenre结果如下:genre|unique_count----------------------------------Romance,Crime,Drama,Law|1560Crime,Drama,Law,Romance|895Law,Romance,Crime,Drama|942Adventure,Action|3250Action,Adventure|910我想要的是按genreASC|DESC对元素进行排序并得到如下结果gen

hadoop - 连接错误 : <class 'thrift.transport.TTransport.TTransportException' > Could not connect to localhost:21000

我正在尝试在没有cloudera管理器的情况下在我的本地计算机(32位ubuntu)上安装clouderaimpala(它们不支持32位ubuntu,我也尝试过但失败了)。我已尝试按照以下命令从存储库下载impala。$sudoapt-getinstallimpala-shell$sudoapt-getinstallimpala#Binariesfordaemons$sudoapt-getinstallimpala-server#Servicestart/stopscript$sudoapt-getinstallimpala-state-store#Servicestart/stops

csv - Impala 不支持自定义 SerDe,在带双引号的 CSV 中查询文件的最佳方式是什么?

我有一个CSV数据,每个字段都用双引号引起来。当我创建Hive表使用serde'com.bizo.hive.serde.csv.CSVSerde'当在Impala中查询上表时,出现错误SerDenotfound。我在/usr/lib/impala/lib文件夹中添加了CSVSerdeJAR文件。后来在Impala文档中研究到Impala不支持自定义塞尔德。在这种情况下,我该如何克服这个问题,使我的CSV数据引号被照顾。我想使用CSVSerde因为它需要值中的逗号是合法的字段值。非常感谢 最佳答案 可以使用Hive吗?如果是这样,这里

hadoop - 有没有办法用带参数的sql脚本运行impala shell?

有什么方法可以使用带参数的SQL脚本运行impalashell吗?例如:impala-shell-f/home/john/sql/load.sql/dir1/dir2/dir3/data_file我有错误:Error,couldnotparsearguments"-f/home/john/sql/load.sql/dir1/dir2/dir3/data_file” 最佳答案 此功能在CDH5.7/Impala2.5及更高版本中可用。--var选项允许您将替换变量传递给由该impala-shellsession执行的语句,例如由-f选

hadoop - 拆分功能在 Cloudera Impala 中不起作用

当我尝试在ClouderaImpala中使用拆分功能时,我不断收到“拆分未知”的AnalysisException。它似乎是内置函数页面上列出的有效函数。作为引用,我使用Hue与Impala进行交互。有谁知道这个问题的原因吗? 最佳答案 Impala中的以下作品:split_part(stringsource,stringdelimiter,bigintn)文档在这里:https://www.cloudera.com/documentation/enterprise/5-9-x/topics/impala_string_functi

hadoop - 如何有效地将数据从 Kafka 移动到 Impala 表?

以下是当前流程的步骤:Flafka将日志写入HDFS上的“着陆区”。由Oozie安排的作业将完整文件从着陆区复制到暂存区。暂存数据由使用暂存区域作为其位置的Hive表“模式化”。将暂存表中的记录添加到永久Hive表中(例如,insertintopermanent_tableselect*fromstaging_table)。通过在Impala中执行refreshpermanent_table,可以在Impala中使用来自Hive表的数据。我查看了我构建的流程,它“闻起来”很糟糕:有太多的中间步骤会影响数据流。大约20个月前,我看到了一个演示,其中数据从AmazonKinesis管道流式