草庐IT

sql - 如何将查询答案传递给限制函数 Impala

我正尝试在impala中抽取一张table的20%。我在某处听说内置的impala采样功能有问题。有没有办法将子查询传递给impalalimit函数以对整个表进行n%的采样。我有这样的东西:select*fromtable_aorderbyrand()limit(selectround((count(distinctids))*.2,0)fromtable_a))子查询给了我所有记录的20% 最佳答案 我不确定Impala是否有特定的采样逻辑(某些数据库有)。但是你可以使用窗口函数:selecta.*from(selecta.*,r

hadoop - Hue UI 中的黑斑羚时间

我正在尝试估算Impala中从简单到复杂的查询所需的时间,并使用HueUI。是否可以通过UI知道完成查询所需的时间。 最佳答案 Impala或Hive仅提供进度的一般估计。Hue可以尝试通过根据当前进度推断开始时间来显示结束时间。欢迎关注https://issues.cloudera.org/browse/HUE-1219. 关于hadoop-HueUI中的黑斑羚时间,我们在StackOverflow上找到一个类似的问题: https://stackoverf

hadoop - 为什么 Impala 为一个插入语句生成多个文件

假定应该为单个“插入...选择”语句生成一个文件,而在我的例子中生成了20个文件。如何将结果缩减为一个文件? 最佳答案 如果文件很小,您可以使用SETNUM_NODES=1强制所有数据通过单个节点,如documentation中所述. 关于hadoop-为什么Impala为一个插入语句生成多个文件,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/30367636/

shell - OOzie Shell -Impala 操作 XML 错误

我正在尝试使用ozzie运行示例impala查询。运行shell时出现以下错误Error:E0701:E0701:XMLschemaerror,cvc-complex-type.2.3:Element'shell'cannothavecharacter[children],becausethetype'scontenttypeiselement-only.HDFS中的Workflow.xml                                        ${jobTracker}                ${nameNode}mapred.job.queue.na

python - 为什么在调用 impala.dbapi.connect() 时出现“"TypeError: ' 模块对象不可调用”?

我正在尝试连接到impala,我正在关注impylaguide.但是当我执行connect()时出现此错误。错误如下所示:In[27]:importimpala.dbapiasconnectIn[28]:conn=connect(host="some798.xyz.something",...:port=22,...:user="username",...:password="password")Traceback(mostrecentcalllast):File"",line4,inpassword="password")TypeError:'module'objectisnotca

hadoop - 如果 Impala 查询内存不足会怎样?

如果Impala查询内存不足会发生什么:Impala守护进程是否崩溃?它会写入磁盘吗?详细的解释会有所帮助! 最佳答案 这取决于Impala的版本及其配置方式。一般来说,Impala会在内存不足时终止查询。有一个进程范围的内存限制,此时任何请求内存的查询都将被终止。还有另一个可选的、每个查询的内存限制。Impala2.0及更高版本支持“溢出”大型连接和聚合运算符,这有助于避免这些内存不足的情况。 关于hadoop-如果Impala查询内存不足会怎样?,我们在StackOverflow上找

hadoop - Impala 是否支持用 Impala SQL(不是 C++ 或 Java)编写的用户定义函数?

Impala确实支持UDFswritteninC++orJava,但我有一个由内置函数调用组成的简单公式。我需要在我的代码中使用很多次并且我不想重复它。是否支持类似于以下伪代码的内容?--UDFdefinitionCREATEFUNCTIONget_date_string(datetimep_value)ASRETURNyear(p_value)*10000+month(p_value)*100+day(p_value);--UDFcallSELECTget_date_string(CreatedOn)FROMPosts;更新:Hive支持这样的UDF——它们被称为macros但我发现

hadoop - 在 HDFS 中创建 zip 表

我试过创建不是这样的zip表。CREATETABLEexample_table(|aBIGINT,bBIGINT,vSTRING,dTINYINT)STOREDASTEXTFILELOCATION/path/to/directory/这不是压缩表。我还想用zip创建新表来获取该表的历史记录。我怎样才能用zip创建1个表? 最佳答案 首先设置下面的属性SEThive.exec.compress.output=true;SETmapred.output.compression.type=BLOCK;setmapred.output.co

hadoop - 在 cloudera impala 1.2.3 中使用 date_sub() udf 从 View 查询时出现连接重置错误

我已经编写了一个查询来在Impala中创建一个View。该View包含一个字段record_date,它是格式为yyyy-MM-ddhh:mm:ss的字符串数据类型。在尝试执行使用date_sub('2014-01-3000:00:00',1)提取先前日期记录的查询时,我收到如下错误:错误:与impalad通信时出错:TSocket读取0个字节。如果我尝试对创建的表而不是View执行相同的查询,我会得到正确的输出。感谢任何帮助。谢谢 最佳答案 这是一个错误,请升级到最新版本的Impala,因为它似乎从1.2.3开始就已修复,这是很旧

hadoop - 是否可以在 Hadoop 1(没有 YARN)中使用 Impala?

我在Hadoop1的限制中看到我们唯一可以使用的范例是mapreduce。如果您想使用其他范例(例如spark),则必须使用Hadoop2.0和YARN。但我有一个与Impala相关的问题。是否可以在没有YARN的情况下使用Impala?谢谢。 最佳答案 是的,Impala可以独立于YARN使用。 关于hadoop-是否可以在Hadoop1(没有YARN)中使用Impala?,我们在StackOverflow上找到一个类似的问题: https://stacko