草庐IT

impala-tpcds-kit

全部标签

hadoop - 查询以仅显示 impala 中的列名

在配置单元中,我们可以执行“在TABLE_NAME中显示列”,以仅获取表的列名。但是我希望查询仅显示IMPALA中表的列名。我如何才能仅获取表的列名IMPALA中的表? 最佳答案 你可以使用describedb.tablename 关于hadoop-查询以仅显示impala中的列名,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/46299676/

sql - Impala 外部表位置/URI

我正在对外部(非托管)表的应用程序问题进行故障排除,该表是通过ClouderaImpala使用CREATETABLEXLIKEPARQUET语法创建的。我正在尝试确定包含外部表分区的文件的位置,但很难确定如何执行此操作,也很难找到描述此操作的文档。如果我这样做:showcreatetableT1;我看到hive管理的位置,例如:LOCATION'hdfs://nameservice1/user/hive/warehouse/databaseName'如果我这样做:describeformattedT1;我看到该表实际上是外部的,但它没有提供任何关于非托管位置的信息。|TableType

hadoop - 在 Impala 中将十进制字符串更改为时间戳

如何将字符串类型转换为t1.updte_timestamp2018-06-02-08.18.45.5627422018-05-26-09.18.16.594824变成时间戳?应该导致:2018-06-02-08.18.452018-05-26-09.18.16等这些值是从excel中导入的,并且是字符串类型我试过:SELECTto_timestamp(cast(t1.updte_timestampasstring),'yyyy-mm-ddhh:mm:ss')asupdted_timestampFROMOLD;但是所有值的结果都是NULL谢谢 最佳答案

sql - impala 长度小于 8 位数字

我有一些客户编号,其中一些长度超过8位。我怎样才能标记它们,使它们不被计算在内?我尝试了以下方法:SELECTt1.updte_userasstaff_number,(CASEWHEN(CAST(t1.updte_user)ASINT)Integernotnullcheck((CAST(t1.updte_user)ASINT)between0and99999999THEN1else0)endasTRUE_STAFFfromoldast1;我需要改变什么? 最佳答案 这个怎么样?selectstaff_number,(casewhen

apache-spark - 具有合并 Parquet 文件的 Impala 表的性能问题

在这里,我使用python实用程序使用Pyarrow库为单个数据集创建多个parquet文件,因为一天的数据集大小很大。这里的parquet文件在每个拆分的parquet文件中包含10K的parquet行组,最后我们将拆分文件组合成一个文件以创建一个大的单个parquet文件。在这里,我创建了两个带有合并文件和多个拆分文件的Impala表。当拆分文件数据加载到Impala表中并尝试查询它时,结果会在几秒钟内更快,但是当Impala表是在单个合并的parquet文件上创建时。与提到的拆分文件Impala表相比,它会产生性能问题。在尝试计算Impala表的统计信息时,我无法识别这两个表之间

hadoop - Hive/Impala - 在层次结构表中查找结束子节点

我有一个场景,从具有parent_node_id和child_node_id的层次结构表中找到最低级别的子节点,如下所示。源表位于Hive和Impala数据库中。请建议hive/impala查询以找出源表中每个父节点的最低级别子节点。我尝试在Impala中使用CTE递归查询,但我猜它不受支持。提前致谢!源表:+-------------+--------------+|child_node_id|parent_node_id|+-------------+--------------+|C1|P1|+-------------+--------------+|C2|P2|+------

hadoop - 如果在 impala statestore 关闭时执行 DDL,为什么 Impala 查询会失败?

在impala的官方文档中here,statestore组件有一条语句:IfyouissueaDDLstatementwhilethestatestoreisdown,thequeriesthataccessthenewobjecttheDDLcreatedwillfail.如果我错了请纠正我,但通过ImpalaSQL进行的元数据更改会从Impala目录服务传播到Impala守护进程。那为什么statestore挂了,通过DDL生成的新对象查询会失败呢? 最佳答案 只是您理解中的一个小修正,文档如下所示TheImpalacompon

Cloudera Impala 的内存配置

我正在使用Impala,我知道Impala在内存中进行处理。我搜索了Impala配置选项的列表,但我没有找到任何关于此的详尽文档,尤其是关于内存/堆的文档。Impala有这样的设置吗?还是依赖于hdfs/datanode堆空间?我知道您可以使用-mem_limit来限制Impala内存使用量,但我正在尝试更好地理解这是如何完成的。 最佳答案 自Impala1.4.0版本起,包含在CDH5.1.0中,Impala在查询处理过程中同时使用内存和磁盘。要了解有关如何控制Impala对内存的使用的更多信息,我建议阅读Clouderadocu

database - 将数据加载到 impala 分区表中

我在HDFS中有以下目录结构中的数据:/exported/2014/07/01/00/SEARCHES/part-m-00000.bz2part-m-00001.bz2/exported/2014/07/01/02/SEARCHES/part-m-00000.bz2part-m-00001.bz2part-m-00003.bz2..../exported/2014/08/01/09/SEARCHES/part-m-00005.bz2每个子目录下有多个零件文件。我想将此数据集加载到impala表中,因此使用以下查询来创建表:CREATEEXTERNALTABLEsearch(time_s

python-2.7 - 使用 ODBC 使用远程执行的 Python 代码运行 impala 查询

我目前正在尝试设置能够对远程Impala服务器执行Impala查询的Python代码。在我的本地Windows上,我使用的是ODBC驱动程序,该驱动程序已设置并可成功用于在Tableau中通过Impala检索数据。我们使用的Hadoop环境是Kerberised。要使用ODBC管理员进行成功的连接测试,我们需要SASL和受信任的.pem证书。我已经尝试使用多个库进行连接,但我不确定如何设置连接属性以及我需要哪些属性。我尝试关注thisguide开始。我通过设置对pyodbc进行了实验:Driver,Host,Port,Database,AuthMech=3,UseSASL=1,UID,