spark-hive

apache-spark - Kerberos Cloudera Hadoop 的 livy curl 请求错误

在kerberizedCDH5.10.x上配置了livy服务器，它在端口8998上运行良好，但curl请求给出以下错误，curl--negotiate-u:http://xxxxxxx:8998/sessionsError403HTTPERROR:403Problemaccessing/sessions.Reason:GSSException:Novalidcredentialsprovided(Mechanismlevel:FailedtofindanyKerberoscredentails)PoweredbyJetty://无法理解为什么请求没有通过kerberos安全层？

java - spark提交抛出错误java.lang.ClassNotFoundException : scala. runtime.java8.JFunction2$mcIII$sp

我写了一个字数统计代码，但是当我尝试使用下面的命令在Windows中从CMD运行它时，它抛出了一个异常。spark-submit--classcom.sample.WordCount--masterlocalfile:///E:/WordCountSample/target/WordCountSample-0.0.1-SNAPSHOT.jarfile:///C:/Users/siddh/OneDrive/Desktop/sample.txtpom.xml4.0.0SparkSampleInScalaWordCountSample0.0.1-SNAPSHOTjarWordCountSam

java ClassNotFoundException gt lt SparkSubmit scala apache-spark hadoop

apache-spark - 今天使用 MapReduce 代替 Spark 有什么好处？

我正在设置一个Hadoop集群用于测试/PoC目的。今天有什么不能用Spark作为处理引擎来完成的吗？在我看来，Spark已经取代了MR，并且围绕Hadoop构建的所有其他工具/抽象也与Spark兼容(Hive、Sqoop、Flume、HBase、Pig...)——是否有其他限制？据我了解，即使对于批处理作业，Spark至少与MR一样快，如果您想在未来扩展您的用例(流式处理)，那么无论如何您都需要适应Spark。我问这个问题是因为直到今天，大多数介绍和教程都在教您有关Hadoop和MapReduce的知识。最佳答案很简单，不，现

apache-spark MapReduce section Spark hadoop

scala - 更改 Spark 的 Hadoop 版本

如何在不提交jar和定义特定Hadoop二进制文件的情况下为Spark应用程序设置Hadoop版本？这有可能吗？我只是不太确定在提交Spark应用程序时如何更改Hadoop版本。这样的东西是行不通的:valsparkSession=SparkSession.builder.master("local[*]").appName("SparkJobHDFSApp").getOrCreate()sparkSession.sparkContext.hadoopConfiguration.set("hadoop.common.configuration.version","2.7.4")

Hadoop scala section Spark apache-spark

datetime - 创建具有不规则日期/时间格式列的 Hive 表

我必须从csv创建一个Hive表，其中两列有一个日期/时间字段，格式如下:11/28/20188:35:23PM或11/30/20185:02:17AM等例如:responseidprocess_startprocess_endstatus2611/28/20188:35:23PM11/30/20185:02:17AMcomplete我知道我可以先将这些字段创建为字符串，然后再执行如下操作:insertintotablenewtableselectprocess_start,from_unixtime(unix_timestamp(process_start,'dd-MM-yyyyHH

不规则 datetime code section process hadoop hive hiveql simpledateformat

mysql - 如何在 hive 中的 select 语句中编写子查询，其中附加列的单个值是通过某些行的总和获得的

假设有一个表格，其中包含列作为学生表现的详细信息。Student(name,subject,marks,verdict('pass'/'fail')).我需要在此表中添加另一列，即特定学生不及格的科目总分。在MySQL中我可以这样写:select*,select(sum(marks)fromStudentwherename=s.nameandverdict='fail')fromStudents;但它在hive中不起作用。ERROR:UnsupportedSubQueryExpressionInvalidsubquery.SubqueryinSELECTcouldonlybetop-l

何在编写 section Student name mysql hadoop hive

hadoop - Spark(2.3) 无法识别通过 Hive Alter Table 命令添加的 Parquet 表中的新列

我有一个使用Spark2.3APIdf.saveAstable创建的HiveParquet表。有一个单独的Hive进程可以更改同一个Parquet表以添加列(根据要求)。但是，下次当我尝试将同一个parquet表读入Spark数据帧时，使用HiveAlterTable命令添加到parquet表的新列不会显示在df.printSchema输出中。根据初步分析，似乎可能存在一些冲突，Spark使用自己的模式而不是读取Hive元存储。因此，我尝试了以下选项:更改Spark设置:spark.sql.hive.convertMetastoreParquet=false并刷新spark目录:spa

Parquet hadoop code section table hive pyspark apache-spark-2.3

sql - Hive 相对于同一表中的其他数组列对数组列进行排序

我在hive中有一个表，其中2列为col1array和col2array.输出如下图col1col2[1,2,3,4,5][0.43,0.01,0.45,0.22,0.001]我想按升序对col2进行排序，并且col1也应该相应地更改其索引，例如col1col2[5,2,4,3,1][0.001,0.01,0.22,0.43,0.45] 最佳答案分解两个数组，排序，然后再次聚合数组。在collect_list之前的子查询中使用sort对数组进行排序:withyour_dataas(selectarray(1,2,3,4,5)asc

Hive sql col original_col original arrays hadoop hiveql

hadoop - Hive:修改外部表的位置需要太长时间

Hive有ManagedTables和ExternalTables两种表，区别可以查看Managed.VSExternalTables.目前，要将外部数据库从HDFS移动到Alluxio，我需要将外部表的位置修改为alluxio://。语句类似于:altertablecatalog_pagesetlocation"alluxio://node1:19998/user/root/tpcds/1000/catalog_returns"按照我的理解，应该是简单的metastore修改，但是对于一些表的修改，需要几十分钟。顺便说一句，数据库本身包含大约1TB的数据。我有什么办法可以加快表更改过

hadoop Hive code section Tables bigdata alluxio

hadoop - 追加不与 hive 一起工作

我正在尝试将数据从表a插入到表b(两者都是外部表)，基本上依赖于环境的追加功能。我也对托管表进行了相同的尝试，但行为是相同的。不知何故，追加对我来说并不奏效。另一方面，覆盖工作得很好。例如以下失败hive>inserttablepage_viewselectviewtime,userid,page_url,countryfrompage_view1;FAILED:ParseError:line1:0cannotrecognizeinputnear'insert''table''page_view'ininsertclause但是，以下工作正常......hive>insertoverw

hadoop hive page_view page section

139 140 141142143 144 145