spark-hive

sql - 改变 hive 中的现有 map

我有一个配置单元表，其中一列为map数据类型。map>现在我想在结构值中添加一列，如下所示:map>任何人都知道如何实现这一目标。提前致谢。最佳答案 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-ChangeColumnName/Type/Position/Commentaltertabletchangecolumnmycolmycolmap>;请注意，默认情况下只有新分区会受到更改的影响。如果您希望它应用

java - 在 spark 提交中覆盖 spark 的库

我们应用程序的hadoop集群安装了spark1.5。但由于特定要求，我们开发了2.0.2版的spark作业。当我将作业提交到yarn时，我使用--jars命令覆盖集群中的spark库。但它仍然没有选择scala库jar。它抛出一个错误说ApplicationMaster:Userclassthrewexception:java.lang.NoSuchMethodError:scala.Predef$.ArrowAssoc(Ljava/lang/Object;)Ljava/lang/Object;java.lang.NoSuchMethodError:scala.Predef$.Arr

spark java section jar scala hadoop apache-spark

python - Spark 簇错误: ClassNotFoundException

我使用spark框架处理大数据、hadoop文件系统和集群管理器YARN。当我尝试使用命令spark-submit--deploy-modecluster--masteryarnstreaming.py运行我的python应用程序时我收到一个错误:16/12/1915:42:44WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicableExceptioninthread"main"java.lang.RuntimeE

ClassNotFoundException python gt lt property hadoop apache-spark hdfs hadoop-yarn

sql - 排序行时优化 Hive GROUP BY

我有以下(非常简单的)Hive查询:selectuser_id,event_id,min(time)asstart,max(time)asend,count(*)astotal,count(interaction==1)asclicksfromevents_allgroupbyuser_id,event_id;表格结构如下:user_idevent_idtimeinteractionEx833Lli36nxTvGTA1DvjuCUv6EnkVundBHSBzQevw14304815302950Ex833Lli36nxTvGTA1DvjuCUv6EnkVundBHSBzQevw14304

行时 GROUP code section event_id sql hadoop hive query-optimization hiveql

sql - 错误 :Invalid table alias or column reference while using map in Hive

我正在执行以下配置单元查询:createorreplaceviewtest.hospasselectp.hosp_id,p.hosp_name,max(casewhen`p.my_map[1].id`isNULLthen1else0end)ashos_main_idfromarch.hospitalgroupbyp.hosp_id,p.hosp_name,p.my_map[1].id;Error:Invalidtablealiasorcolumnreference'p.my_map[1].id'.有map名称my_map>，那为什么我仍然收到错误消息:Error:Invalidtabl

reference Invalid section code my_map sql hadoop hive

hadoop - 在 docker 容器上的 zeppelin 中运行 spark 时找不到 lzo

我正在尝试将spark代码运行到zeppelin中，我得到了这个:java.lang.ClassNotFoundException:找不到类com.hadoop.compression.lzo.LzoCodeczeppelinembeddedspark和我自己安装的sparkshell(1.6.3)存在同样的问题session:来自debian:jessie的docker容器zeppelin版本:0.6.2(从tar安装而不是从源代码构建)cdh版本:5.9.0容器上安装了liblzo2-dev和hadoop-lzoSPARK_HOME和HADOOP_HOME被设置为环境变量，也在co

中运容器 apache spark scala hadoop apache-spark cloudera-cdh apache-zeppelin

csv - 将 csv 文件的全部内容加载到 Hive 表中的单个列中

在Hive相关问题上需要一些帮助。我正在尝试将整个csv文件加载到单列Hive表中。文件中的每个条目都应该是Hive表中的一行。我试图更改ROWFORMAT-特别是尝试更改为LINESTERMINATEDBY','而不是'\n'。但是，目前仅支持'\n'字符。目前这是一个JIRA问题(https://issues.apache.org/jira/browse/HIVE-11996)。我目前唯一的想法是通过linux命令用\n替换文件中的逗号，但是我想看看是否有人可以提出一些其他值得考虑的解决方案。提前致谢! 最佳答案您可以在Hiv

csv Hive col section hadoop

hadoop - 具有 unix 时间戳的 Hive float 据类型

我正在使用float数据类型的hive外部表(错误地)来存储Unix纪元时间戳。当我在配置单元外部表上发出where子句时，它会返回一些奇怪的结果。举个例子。selectevent_timefromtbl_namewhereevent_time=1478649561limit10输出:1478649600任何人都可以帮助我理解这里有什么问题吗？最佳答案这与其说是Hive问题，不如说是浮点精度的一般问题。您将看到1478649561(整数类型)在浮点表示中被近似以适应32位Java浮点类型的效果。为了在Hive上下文之外以更简单的

hadoop float section code 1478649561 hive floating-point hiveql

hadoop - Hive修改分区表数据

问题:一列值为空。它应该是'ab'。不幸的是我写了''而不是'ab'。我的表是分区表。有什么办法可以改变吗？我找到了下面的方法。但它似乎效率低下。像我的表一样创建一个临时表使用插入覆盖。从我的旧表中读取数据并写入新表。我正在使用case语句将''更改为'ab'然后将我的临时表更改为原始表。我正在寻找类似更新分区和msck的解决方案。有什么办法吗？最佳答案您可以通过这种方式覆盖单个分区:sethive.exec.dynamic.partition=true;sethive.exec.dynamic.partition.mode=n

hadoop Hive section partition column

hadoop - 错误 : while processing statement: FAILED: Hive Internal Error: hive. mapred.supports.subdirectories 必须为真

我遇到了一个错误Errorwhileprocessingstatement:FAILED:HiveInternalError:hive.mapred.supports.subdirectoriesmustbetrueifanyoneoffollowingistrue:hive.optimize.listbucketing,mapred.input.dir.recursiveandhive.optimize.union.remove.当我尝试从HDFS目录递归加载数据到hive表时发生此错误我尝试设置以下参数:SETmapred.input.dir.recursive=true;SETh

subdirectories processing section blockquote mapred hadoop recursion optimization hive bigdata

132 133 134135136 137 138