spark-graphx

apache-spark - Kerberos Cloudera Hadoop 的 livy curl 请求错误

在kerberizedCDH5.10.x上配置了livy服务器，它在端口8998上运行良好，但curl请求给出以下错误，curl--negotiate-u:http://xxxxxxx:8998/sessionsError403HTTPERROR:403Problemaccessing/sessions.Reason:GSSException:Novalidcredentialsprovided(Mechanismlevel:FailedtofindanyKerberoscredentails)PoweredbyJetty://无法理解为什么请求没有通过kerberos安全层？

java - spark提交抛出错误java.lang.ClassNotFoundException : scala. runtime.java8.JFunction2$mcIII$sp

我写了一个字数统计代码，但是当我尝试使用下面的命令在Windows中从CMD运行它时，它抛出了一个异常。spark-submit--classcom.sample.WordCount--masterlocalfile:///E:/WordCountSample/target/WordCountSample-0.0.1-SNAPSHOT.jarfile:///C:/Users/siddh/OneDrive/Desktop/sample.txtpom.xml4.0.0SparkSampleInScalaWordCountSample0.0.1-SNAPSHOTjarWordCountSam

java ClassNotFoundException gt lt SparkSubmit scala apache-spark hadoop

apache-spark - 今天使用 MapReduce 代替 Spark 有什么好处？

我正在设置一个Hadoop集群用于测试/PoC目的。今天有什么不能用Spark作为处理引擎来完成的吗？在我看来，Spark已经取代了MR，并且围绕Hadoop构建的所有其他工具/抽象也与Spark兼容(Hive、Sqoop、Flume、HBase、Pig...)——是否有其他限制？据我了解，即使对于批处理作业，Spark至少与MR一样快，如果您想在未来扩展您的用例(流式处理)，那么无论如何您都需要适应Spark。我问这个问题是因为直到今天，大多数介绍和教程都在教您有关Hadoop和MapReduce的知识。最佳答案很简单，不，现

apache-spark MapReduce section Spark hadoop

scala - 更改 Spark 的 Hadoop 版本

如何在不提交jar和定义特定Hadoop二进制文件的情况下为Spark应用程序设置Hadoop版本？这有可能吗？我只是不太确定在提交Spark应用程序时如何更改Hadoop版本。这样的东西是行不通的:valsparkSession=SparkSession.builder.master("local[*]").appName("SparkJobHDFSApp").getOrCreate()sparkSession.sparkContext.hadoopConfiguration.set("hadoop.common.configuration.version","2.7.4")

Hadoop scala section Spark apache-spark

hadoop - Spark(2.3) 无法识别通过 Hive Alter Table 命令添加的 Parquet 表中的新列

我有一个使用Spark2.3APIdf.saveAstable创建的HiveParquet表。有一个单独的Hive进程可以更改同一个Parquet表以添加列(根据要求)。但是，下次当我尝试将同一个parquet表读入Spark数据帧时，使用HiveAlterTable命令添加到parquet表的新列不会显示在df.printSchema输出中。根据初步分析，似乎可能存在一些冲突，Spark使用自己的模式而不是读取Hive元存储。因此，我尝试了以下选项:更改Spark设置:spark.sql.hive.convertMetastoreParquet=false并刷新spark目录:spa

Parquet hadoop code section table hive pyspark apache-spark-2.3

hadoop - 上传资源文件时 createBlockOutputStream 中的 Spark HDFS 异常

我正在尝试使用yarn-cluster在集群中运行我的JAR，但一段时间后出现异常。失败前的最后一个INFO是Uploadingresource。我检查了所有安全组，成功执行了hsdfls但仍然出现错误。./bin/spark-submit--classMyMainClass--masteryarn-cluster/tmp/myjar-1.0.jarmyjarparameter16/01/2116:13:51WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-j

createBlockOutputStream hadoop code DFSOutputStream apache-spark hadoop-yarn

hadoop - 在整个集群中使用 spark-submit 运行 Spark 作业

我最近在AmazonEMR上设置了一个Spark集群，其中有1个主节点和2个从节点。我可以运行pyspark，并使用spark-submit提交作业。但是，当我创建一个独立作业时，例如job.py，我创建了一个SparkContext，如下所示:sc=SparkContext("local","AppName")这看起来不对，但我不确定该放什么。当我提交作业时，我确定它没有使用整个集群。如果我想在我的整个集群上运行一个作业，比如每个从属4个进程，我必须做什么a.)作为参数传递给spark-submitb.)在脚本本身中作为参数传递给SparkContext()。

spark-submit hadoop code section apache-spark pyspark emr amazon-emr

scala - 用于 Spark 集成测试的 Hive 配置

我正在寻找一种方法来配置Hive以进行SparkSQL集成测试，以便将表写入临时目录或测试根目录下的某个位置。我的调查表明这需要同时设置fs.defaultFS和hive.metastore.warehouse.dir之前HiveContext被build。只需设置后者，如本answer中所述不适用于Spark1.6.1。valsqlc=newHiveContext(sparkContext)sqlc.setConf("hive.metastore.warehouse.dir",hiveWarehouseDir)表元数据位于正确的位置，但写入的文件位于/user/hive/wareho

scala Spark code section warehouse hadoop apache-spark hive scalatest

hadoop - Spark Streaming StreamingContext 事件计数

sparkdocs状态:OnlyoneStreamingContextcanbeactiveinaJVMatthesametime.想象一下我计划从两个Kafka主题读取/处理数据的情况，其中一个作业从一个Kafka主题获取数据，另一个从另一个Kafka主题获取数据。我可以在同一个hadoop集群上同时触发这两个作业吗？它还指出，Onceacontexthasbeenstopped,itcannotberestarted.因此，如果由于某种原因我必须停止spark作业，有什么方法可以重新启动它？我是否通过oozie或其他方式触发它？最佳答案

StreamingContext Streaming blockquote section hadoop apache-spark spark-streaming

scala - Spark Hadoop 广播失败

运行spark-submit作业并收到“无法获取broadcast_58_piece0...”错误。我真的不确定我做错了什么。我是否过度使用了UDF？功能太复杂？作为我的目标的总结，我正在解析pdf中的文本，这些文本作为base64编码的字符串存储在JSON对象中。我正在使用ApacheTika获取文本，并尝试大量使用数据帧来简化操作。我写了一段代码，通过tika将文本提取作为“主”之外的一个函数在数据上作为RDD运行，并且运行完美。但是，当我尝试将提取作为数据帧上的UDF引入main时，它会以各种不同的方式出现问题。在我到达这里之前，我实际上是在尝试将最终数据框编写为:valid.t

Hadoop scala 34 TorrentBroadcast spark apache-spark hdfs spark-dataframe

68 69 707172 73 74