impala-tpcds-kit

hadoop - 查询以仅显示 impala 中的列名

在配置单元中，我们可以执行“在TABLE_NAME中显示列”，以仅获取表的列名。但是我希望查询仅显示IMPALA中表的列名。我如何才能仅获取表的列名IMPALA中的表？最佳答案你可以使用describedb.tablename 关于hadoop-查询以仅显示impala中的列名，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/46299676/

列名 hadoop section stackoverflow hive impala

sql - Impala 外部表位置/URI

我正在对外部(非托管)表的应用程序问题进行故障排除，该表是通过ClouderaImpala使用CREATETABLEXLIKEPARQUET语法创建的。我正在尝试确定包含外部表分区的文件的位置，但很难确定如何执行此操作，也很难找到描述此操作的文档。如果我这样做:showcreatetableT1;我看到hive管理的位置，例如:LOCATION'hdfs://nameservice1/user/hive/warehouse/databaseName'如果我这样做:describeformattedT1;我看到该表实际上是外部的，但它没有提供任何关于非托管位置的信息。|TableType

Impala sql section code pre hadoop cloudera

hadoop - 在 Impala 中将十进制字符串更改为时间戳

如何将字符串类型转换为t1.updte_timestamp2018-06-02-08.18.45.5627422018-05-26-09.18.16.594824变成时间戳？应该导致:2018-06-02-08.18.452018-05-26-09.18.16等这些值是从excel中导入的，并且是字符串类型我试过:SELECTto_timestamp(cast(t1.updte_timestampasstring),'yyyy-mm-ddhh:mm:ss')asupdted_timestampFROMOLD;但是所有值的结果都是NULL谢谢最佳答案

十进 hadoop section code timestamp impala

sql - impala 长度小于 8 位数字

我有一些客户编号，其中一些长度超过8位。我怎样才能标记它们，使它们不被计算在内？我尝试了以下方法:SELECTt1.updte_userasstaff_number,(CASEWHEN(CAST(t1.updte_user)ASINT)Integernotnullcheck((CAST(t1.updte_user)ASINT)between0and99999999THEN1else0)endasTRUE_STAFFfromoldast1;我需要改变什么？最佳答案这个怎么样？selectstaff_number,(casewhen

impala sql section updte_user code hadoop

apache-spark - 具有合并 Parquet 文件的 Impala 表的性能问题

在这里，我使用python实用程序使用Pyarrow库为单个数据集创建多个parquet文件，因为一天的数据集大小很大。这里的parquet文件在每个拆分的parquet文件中包含10K的parquet行组，最后我们将拆分文件组合成一个文件以创建一个大的单个parquet文件。在这里，我创建了两个带有合并文件和多个拆分文件的Impala表。当拆分文件数据加载到Impala表中并尝试查询它时，结果会在几秒钟内更快，但是当Impala表是在单个合并的parquet文件上创建时。与提到的拆分文件Impala表相比，它会产生性能问题。在尝试计算Impala表的统计信息时，我无法识别这两个表之间

apache-spark Parquet Impala section hadoop pyarrow

hadoop - Hive/Impala - 在层次结构表中查找结束子节点

我有一个场景，从具有parent_node_id和child_node_id的层次结构表中找到最低级别的子节点，如下所示。源表位于Hive和Impala数据库中。请建议hive/impala查询以找出源表中每个父节点的最低级别子节点。我尝试在Impala中使用CTE递归查询，但我猜它不受支持。提前致谢!源表:+-------------+--------------+|child_node_id|parent_node_id|+-------------+--------------+|C1|P1|+-------------+--------------+|C2|P2|+------

hadoop Impala hier_temp code select hive hiveql

hadoop - 如果在 impala statestore 关闭时执行 DDL，为什么 Impala 查询会失败？

在impala的官方文档中here,statestore组件有一条语句:IfyouissueaDDLstatementwhilethestatestoreisdown,thequeriesthataccessthenewobjecttheDDLcreatedwillfail.如果我错了请纠正我，但通过ImpalaSQL进行的元数据更改会从Impala目录服务传播到Impala守护进程。那为什么statestore挂了，通过DDL生成的新对象查询会失败呢？最佳答案只是您理解中的一个小修正，文档如下所示TheImpalacompon

statestore hadoop Impala section blockquote cloudera-cdh

Cloudera Impala 的内存配置

我正在使用Impala，我知道Impala在内存中进行处理。我搜索了Impala配置选项的列表，但我没有找到任何关于此的详尽文档，尤其是关于内存/堆的文档。Impala有这样的设置吗？还是依赖于hdfs/datanode堆空间？我知道您可以使用-mem_limit来限制Impala内存使用量，但我正在尝试更好地理解这是如何完成的。最佳答案自Impala1.4.0版本起，包含在CDH5.1.0中,Impala在查询处理过程中同时使用内存和磁盘。要了解有关如何控制Impala对内存的使用的更多信息，我建议阅读Clouderadocu

Cloudera Impala noreferrer memory hadoop ram

database - 将数据加载到 impala 分区表中

我在HDFS中有以下目录结构中的数据:/exported/2014/07/01/00/SEARCHES/part-m-00000.bz2part-m-00001.bz2/exported/2014/07/01/02/SEARCHES/part-m-00000.bz2part-m-00001.bz2part-m-00003.bz2..../exported/2014/08/01/09/SEARCHES/part-m-00005.bz2每个子目录下有多个零件文件。我想将此数据集加载到impala表中，因此使用以下查询来创建表:CREATEEXTERNALTABLEsearch(time_s

database impala section part-m 不支 hadoop database-schema cloudera

python-2.7 - 使用 ODBC 使用远程执行的 Python 代码运行 impala 查询

我目前正在尝试设置能够对远程Impala服务器执行Impala查询的Python代码。在我的本地Windows上，我使用的是ODBC驱动程序，该驱动程序已设置并可成功用于在Tableau中通过Impala检索数据。我们使用的Hadoop环境是Kerberised。要使用ODBC管理员进行成功的连接测试，我们需要SASL和受信任的.pem证书。我已经尝试使用多个库进行连接，但我不确定如何设置连接属性以及我需要哪些属性。我尝试关注thisguide开始。我通过设置对pyodbc进行了实验:Driver,Host,Port,Database,AuthMech=3,UseSASL=1,UID,

python section 39 code python-2.7 hadoop odbc cloudera impala

33 34 353637 38 39