草庐IT

impala-tpcds-kit

全部标签

hadoop - Impala 是否在 Hive Bucketed 表中有效使用 Buckets?

我正在改进表格的性能。说这个表:CREATETABLEuser_info_bucketed(user_idBIGINT,firstnameSTRING,lastnameSTRING)COMMENT'Abucketedcopyofuser_info'PARTITIONEDBY(Yearint,monthint)STOREDASPARQUET;我计划按user_id应用分桶,因为查询通常将user_id作为一个子句。像这样CREATETABLEuser_info_bucketed(user_idBIGINT,firstnameSTRING,lastnameSTRING)COMMENT'Ab

hadoop - Impala - 找不到文件错误

我使用带有水槽的impala作为文件流。问题是flume正在添加扩展名为.tmp的临时文件,然后当它们被删除时,impala查询失败并显示以下消息:Backend0:FailedtoopenHDFSfilehdfs://localhost:8020/user/hive/../FlumeData.1420040201733.tmpError(2):Nosuchfileordirectory如何让impala忽略这个tmp文件,或者flume不写入它们,或者将它们写入另一个目录?水槽配置:###Agent2-AvroSourceandFileChannel,hdfsSink####Name

hadoop - Cloudera Impala 使元数据无效

正如在impala教程中讨论的那样,Impala使用Hive共享的Metastore。但已经提到,如果您使用配置单元在表上创建或执行某些版本,您应该执行INVALIDATEMETADATA或REFRESH命令以通知impala有关更改。所以我很困惑,我的问题是:如果元数据数据库是共享的,为什么impala需要执行INVALIDATEMETADATA或REFRESH?如果它是用于impala缓存元数据,为什么守护进程在发生缓存未命中时不更新缓存,而不需要手动刷新元数据?感谢任何帮助。 最佳答案 好的!让我们从您在评论中提出的问题开始,

sql - 如何计算 Impala 中两个时间戳之间的秒数?

我没有看到Impala函数可以减去两个datestamps并返回两者之间的秒数(或分钟数)。http://www.cloudera.com/documentation/archive/impala/2-x/2-0-x/topics/impala_datetime_functions.html 最佳答案 unix_timestamp(finish_time)-unix_timestamp(start_time)将为您提供它们之间的秒数。 关于sql-如何计算Impala中两个时间戳之间的秒

hadoop - 在没有cloudera manager的情况下安装cloudera impala

请提供在没有cloudera管理器的情况下在ubuntu中安装imapala的链接。无法使用官方链接安装。无法使用这些查询定位包impala:sudoapt-getinstallimpala#Binariesfordaemonssudoapt-getinstallimpala-server#Servicestart/stopscriptsudoapt-getinstallimpala-state-store#Servicestart/stopscript 最佳答案 首先你需要获取包列表并将其存储在/etc/apt/sources.l

hadoop - Impala 找不到 com.mysql.jdbc.Driver

我正在尝试在RedHat5上以伪分布式模式使用CDH4设置ClouderaImpala。我让Hive使用JDBC连接到MySQL元存储,但我在使用JDBC设置Impala时遇到了问题。我一直按照此处的说明进行操作:http://www.cloudera.com/content/cloudera-content/cloudera-docs/Impala/latest/Installing-and-Using-Impala/ciiu_impala_jdbc.html我已将JAR提取到一个目录中,并将该目录包含在$CLASSPATH中。我还在$CLASSPATH中包含了/usr/lib/hi

sql - 在 Impala 中将 YYYYMMDD 字符串转换为日期

我在Impala中使用SQL来编写此查询。我正在尝试将以YYYYMMDD格式存储的日期字符串转换为日期格式,以便运行如下查询:SELECTdatadate,session_infoFROMdatabaseWHEREdatadate>=NOW()-INTERVAL5DAYORDERBYdatadateDESC;由于>=NOW()-INTERVAL5DAY代码不适用于YYYYMMDD字符串,我想找到一种方法将其转换为适用的日期格式这种类型的查询。我的想法是它应该看起来像这样(基于关于其他SQL查询编辑器的类似问题),但它在Impala中不起作用:SELECTdatadate,session

hadoop - ETL informatica 大数据版(非云版)能否连接Cloudera Impala?

我们正在尝试在Informatica大数据版本(而非云版本)上进行概念验证,我发现我们可以使用HDFS、Hive作为源和目标。但我的问题是Informatica是否连接到ClouderaImpala?如果是这样,我们是否需要为此配备任何额外的连接器?我已经进行了全面的研究以检查这是否受支持但找不到任何东西。有没有人已经尝试过这个?如果是这样,您能否指定步骤并链接到任何文档?Informatica版本:9.6.1(修补程序2) 最佳答案 可以使用cloudera提供的odbc驱动。http://www.cloudera.com/dow

hadoop - impala 与 hive 相比如何提供更快的查询响应

我最近开始研究使用Hive和Impala查询位于HDFS上的大量CSV数据。正如我所预料的那样,对于我目前使用的查询,与Hive相比,Impala的响应时间更短。我想知道是否有某些类型的查询/用例仍然需要Hive以及Impala不适合的地方。对于HDFS上的相同数据,与Hive相比,Impala如何提供更快的查询响应? 最佳答案 您应该将Impala视为“HDFS上的SQL”,而Hive更像是“Hadoop上的SQL”。换句话说,Impala甚至根本不使用Hadoop。它只是在所有节点上运行守护进程,缓存HDFS中的一些数据,以便这

CDH大数据平台 31Cloudera Manager Console之impala hive负载均衡(markdown新版)

?个人主页:@与自己作战?作者简介:CSDN@博客专家、CSDN@大数据领域优质创作者、CSDN@内容合伙人、阿里云@专家博主?希望大佬们多多支持,携手共进?如果文章对你有帮助的话,欢迎评论?点赞?收藏?加关注⛔如需要支持请私信我,?必支持文章目录一、安装配置haproxy1、安装haproxy2、配置haproxy3、启动haproxy二、配置hive1、修改配置文件2、重新启动hive三、配置i