HIVE

sql - 在 Hive 的 LOCATION 字段中明确指定之前，不会创建数据库目录

我使用以下查询在我的首选位置(/user/hive/)创建了一个数据库。createdatabasetestlocation"/user/hive/";创建数据库后，我使用命令hadoopdfs-ls/user/在位置/user/hive/中检查了test.db目录hive。它不可用。后来我使用下面的查询创建了一个默认位置的数据库。createdatabasetest2;对于数据库test2，可以在默认仓库目录/user/hive/warehouse/下看到test2.db目录/user/hive/test.db目录是在我在LOCATION文件中明确指定它时创建的，如下所示。creat

hadoop - 如何创建 hive 仓库目录？

我已经安装了hadoop和hive。我正在尝试按如下方式配置配置单元:hadoopfs-mkdir/data/hive/warehouse我一直收到这个错误:mkdir:'/data/hive/warehouse':Nosuchfileordirectory在发出hadoopfs命令之前，我是否需要使用os命令创建目录？有什么想法吗？最佳答案您缺少类似于UNIX/Linux的-p选项。$hadoopfs-mkdir-p/data/hive/warehouse此外，如果您为多个用户设置此目录，您还应该chmod1777这个目录，如

hadoop hive code section

sql - 根据日期计算某行最大值与其他行的差值

我有一个表格如下:datetable_namecount_table2018-07-19A502018-07-19B402018-07-18A252018-07-18B302018-07-17A102018-07-17B5我想计算每个日期之间的计数差异。结果表如下:date1date2table_namediff2018-07-172018-07-18A152018-07-182018-07-19A252018-07-172018-07-18B252018-07-182018-07-19B10`谢谢你的帮助最佳答案如果存在多个日

与其 sql 2018 table table_name hadoop hive hiveql

hadoop - 从给定查询的配置单元日志中获取应用程序 ID

在我们的环境中，我们有许多用户从不同的工具发出Hive查询。很多时候用户会给我们查询，说在某个时候失败了，我们需要深入挖掘，找到原因。所以我们需要解析Hive日志并找到查询。找到查询是比较容易的部分，有没有办法很容易地找出一旦在配置单元日志中找到查询(通常在执行命令之后)，我如何轻松地获得与之关联的yarn应用程序ID？我正在尝试自动执行此过程，以便减少我们的分析时间。谢谢最佳答案您可以做的一件事是，您可以使用yarnapplication-list-appStatesALL命令。它的作用是，它将为您提供所有应用程序的列表及其各

配置单给定 section code hadoop hive hadoop-yarn

hadoop - 既然 HDFS 已经提供了数据存储，为什么还要 Hive？

我已经开始学习Hadoop。我知道HDFS提供分布式存储系统，而Mapreduce用于数据处理。现在我正在阅读Hadoop生态系统。从Hive的定义来看，它是一个建立在hadoop之上，提供类SQL接口(interface)的数据仓库。我的问题是当hadoop提供容错的分布式HDFS时，为什么要配置单元？Hive会取代HDFS吗？hive是只提供sql接口(interface)还是也提供存储？最佳答案 Hive不会取代HDFS。Hive为存储在HDFS中的数据提供了sql类型的接口(interface)。它主要用于查询和分析存储的

hadoop HDFS section Hive mapreduce

hadoop - Hive转HBase的问题

我看到一个外部Hive表存储了HBase的数据:CREATEEXTERNALTABLEIFNOTEXISTSods.demo_table(rowkeyStringCOMMENT'rowkeyofhbase',....)STOREDBY'org.apache.hadoop.hive.hbase.HBaseStorageHandler'WITHSERDEPROPERTIES("hbase.columns.mapping"="info:...")TBLPROPERTIES("hbase.table.name"="...","hbase.mapred.output.outputtable"="

hadoop HBase strong hive

hadoop - 在创建需要动态配对的 Hive 表时，是否有任何列顺序？

我正在尝试将RDBMS表加载到Hive中。我需要根据列数据对表进行动态分区。我有如下所示的Greenplum表架构:forecast_id:bigintperiod_year:numeric(15,0)period_num:numeric(15,0)period_name:charactervarying(15)drm_org:charactervarying(10)ledger_id:bigintcurrency_code:charactervarying(15)source_system_name:charactervarying(30)source_record_type:cha

hadoop Hive code bigint section

hadoop - Hive:如果不存在则创建函数

在我的配置单元脚本的开头，我有以下语句:使用jarz创建函数x作为y；现在，如果函数已经存在，它会给我一个错误:处理语句时出错:失败:执行错误，从org.apache.hadoop.hive.ql.exec.FunctionTask返回代码1。AlreadyExistsException(消息:函数x已经存在)如果我使用createfunctionifnotexistsxasyusingjarz;，我会得到这个错误:编译语句时出错:FAILED:ParseExceptionline7:192cannotrecognizeinputnear'if''not''exists'infunct

hadoop Hive code section 时出 hiveql

apache-spark - spark-sql读取hive表失败

我想通过hivejdbc连接将整个hive表加载到spark内存中。并且已经在我的项目中添加了hive-site.xml、hdfs-site.xml。由于成功获取列名(eg.role_id)，spark已经连接到hive。但是spark似乎将列名加载为数据，并抛出异常。这是我的代码:valdf=spark.read.format("jdbc").option("driver",CommonUtils.HIVE_DIRVER).option("url",CommonUtils.HIVE_URL).option("dbtable","datasource_test.t_leave_map_

spark apache-spark cloudera2 cloudera hadoop hive

hadoop - 配置单元错误 : For Exists/Not Exists operator SubQuery must be Correlated

select*fromstudents1;students1.namestudents1.agestudents1.gpafred351.28barney322.32shyam322.32select*fromstudents2;students1.namestudents1.agefred35barney32当我运行这个查询时selectname,agefromstudents1wherenotexists(selectname,agefromstudents2);我收到这个波纹管错误Errorwhilecompilingstatement:FAILED:SemanticExcept

配置单 Exists students students1 section hadoop hive bigdata

39 40 414243 44 45