草庐IT

scala - Spark-Scala HBase 表创建失败(MetaException(消息 :file:/user/hive/warehouse/src is not a directory or unable to create one)

我的VM中运行着hortonworks沙盒。我已经完成了所有的hive-site.xml配置并放置在Spark/conf文件中。我可以使用PySpark访问HBase并创建/更新表,但是当我在Scala中执行相同的实现时,会出现以下错误:FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.DDLTask.MetaException(message:file:/user/hive/warehouse/srcisnotadirectoryorunabletocreateone)我也更改了对“hive/war

hadoop - HIVE QUERY SELECT * FROM bookfreq where freq IN (SELECT Max(freq) FROM bookfreq);

我正在编写配置单元查询,因为获取记录具有最大频率值。tablenamebookfreq,havingtwocolumnyear&freqyearfreq19992200041989419905查询:SELECT*FROMbookfreqwherefreqIN(SELECTMax(freq)FROMbookfreq);我遇到了这样的异常FAILED:ParseExceptionline1:38cannotrecognizeinputnear'SELECT''Max''('inexpressionspecification 最佳答案 如

hadoop - 是否可以使用 spark 的 jdbc 驱动程序将 apache spark 与 jasper 集成?

我们想使用apachespark进行实时分析?我们目前使用hive/MR进行数据处理,使用mysqlsql存储聚合结果,使用jasper报告进行分析?由于mysql的可伸缩性问题,这种方法远非理想。我们正在探索apachespark在hdfs或cassandra之上运行,唯一的问题是是否有办法让spark与jasper服务器集成?如果不是,还有哪些其他UI选项可以与spark一起使用? 最佳答案 我找到了共享的答案和想法,如果你将hivemetastore与spark一起使用,你可以将RDD持久化为hive表,一旦你这样做了,任何使

shell - 如果 Hive 失败则停止 Bash 脚本

我有一个循环遍历文件夹并处理所有*.hql文件的bash脚本。有时,其中一个配置单元脚本失败(语法、资源限制等),而不是脚本失败,它将继续到下一个.hql文件。无论如何,我可以阻止bash处理剩余的部分吗?下面是我的示例bash:foriin`ls${layer}/*.hql`;doecho"Processing$i..."hive${hiveconf_all}-hiveconfDATE=${date}-f${i}&if[$j-le5];thenj=$((j+1))elsewaitj=0fidone 最佳答案 我会检查前一个命令的进

sql - Teradata 和 HIVE 之间的字符串匹配差异

我正在进入Hive并学习Hive。我在teradata中有客户表,使用sqoop在hive中提取完整表,效果很好。请参阅下面的Teradata和HIVE客户表。在Teradata中:selectTOP4id,name,'"'||status||'"'fromcustomer;3172460Customer#003172460"BUILDING"3017726Customer#003017726"BUILDING"2817987Customer#002817987"COMPLETE"2817984Customer#002817984"BUILDING"在HIVE中:selectid,na

hadoop - HUE 查询结果 - 已过期

团队,我正在使用HUE-BEEWAX(HiveUI)执行Hive查询。到目前为止,我一直能够访问同一天执行的查询的查询结果,但今天我看到很多查询结果显示为过期,尽管它们只在一小时前运行。我的问题是?查询结果集什么时候过期?什么设置控制这个?是否可以将此结果集保留在HDFS中的某处?(怎么样?)问候 最佳答案 我的理解是它是由Hive控制的,而不是Hue(蜂蜡)。当HiveServer重新启动时,它会清理临时目录。这是由这个设置控制的:hive.start.cleanup.scratchdir。您要重新启动HiveServers吗?查

hadoop - 在脚本中运行脚本? - Hive(和其他 QL)

是否可以在运行脚本的其余部分之前调用脚本并运行它?我的目标是执行一个设置脚本,该脚本将下载和组织执行我的主要查询所需的数据。我正在寻找类似的东西:createtablelogcontent(contentstring)rowformatdelimitedfieldsterminatedby'\n';**callsecondaryhivescriptwithdate-rangeargumentsanddownloadnecessarylogsinto****performtherestofthequery**我想这样做是为了为表格设置创建一个很好的抽象,以便最终用户不必担心表格设置,这将

mysql - sqoop 从 mysql 导入配置单元,用户名被更改(拒绝用户访问)

我正在尝试通过sqoop将一些数据从mysql导入到hive。当sqoop和mysqldb在同一台主机上时它工作,否则失败。这是我正在执行的查询。[user@xyz~]$sqoopimport--connect"jdbc:mysql://abc.something.com/test"--usernameuser--passwordpass--tabledataSql--hive-import--hive-tabletest.dataHive--target-dir/tmp/sqoop$RANDOM请注意,我目前在主机xyz上,我正在尝试连接到主机abc上的mysql数据库。以下是我看到

hadoop - Fiware Cosmos Hive 授权问题

我正在使用FiwareCosmos的共享实例(意思是我没有root权限)。直到今天,我已经成功地使用jdbc和HiveCLI远程访问和管理了hive中的表。但是现在我在启动HiveCLI时遇到了这个错误:log4j:ERRORCouldnotinstantiateclass[org.apache.hadoop.hive.shims.HiveEventCounter].java.lang.RuntimeException:Couldnotloadshimsinclassorg.apache.hadoop.log.metrics.EventCounteratorg.apache.hadoo

hadoop - 如何在配置单元中管理日期间隔

我是Hive-Hadoop的新手。我在日期间隔管理方面遇到了一些问题。在Postgresql中,我可以获得给定日期之前的“6天”:selectmax(datejour)+INTERVAL'-6day'asmaxdatefromtable例如:如果max(datejour)=2015-08-22==>我的查询返回2015-08-15有人可以帮助我了解如何在Hive中做到这一点吗?谢谢。 最佳答案 您可以使用HiveINTERVAL来实现这一点。从表中选择(max(datejour)-INTERVAL'6'DAY)作为maxdate以上