sparking

java - Spark 作业与 yarn-client 一起正常工作，但与 yarn-cluster 完全不工作

我在用yarn提交spark作业jar时遇到问题。当我使用--masteryarn-client提交它时，它运行良好并给我预期的结果命令如下；./spark-submit--classmain.MainClass--masteryarn-client--driver-memory4g--executor-memory4g--num-executors4--executor-cores2job.jar其他选项但是当提交到集群模式时同样不起作用；命令如下;./spark-submit--classmain.MainClass--masteryarn--deploy-modecluster-

yarn yarn-cluster 03 INFO gt java hadoop apache-spark spark-submit

java - Apache Spark : Pre requisite questions

我即将在Ubuntu16.04LTS上安装ApacheSpark2.1.0。我的目标是一个独立的集群，使用Hadoop，Scala和Python(2.7是Activity的)下载时我得到了选择:为Hadoop2.7及更高版本预构建(文件为spark-2.1.0-bin-hadoop2.7.tgz)这个包实际上包含HADOOP2.7还是需要单独安装(首先我假设)？我安装了JavaJRE8(其他任务需要)。由于JDK8似乎也是先决条件，我还执行了“sudoaptinstalldefault-jdk”，它确实显示为已安装:default-jdk/xenial,now2:1.8-56ubunt

requisite questions section Java python scala ubuntu hadoop

hadoop - Giraph、Hadoop、Spark 和 Cassandra

如果我有Spark集群和Cassandra但没有Hadoop集群，我可以使用Giraph吗？目前，我正在使用GraphX，并想改用Giraph。考虑到我有Spark集群并且正在使用Cassandra，这是否可能？最佳答案几年前我对Giraph的使用经验有限，而且我从未尝试过在Hadoop集群之外使用它。但看起来你想要的东西即使不一定容易，至少在技术上是可行的。这code是使用ApacheGiraph进行实用图形分析的姊妹篇。如您所见，例如，它在DoubleWritable和Text的类路径中需要Hadoop，但它对Hadoop集

Cassandra hadoop section code Giraph apache-spark

java - Spark saveAsNewAPIHadoopFile java.io.IOException : Could not find a serializer for the Value class

我正在尝试将java对RDD存储为Hadoop序列文件，如下所示:JavaPairRDDputRdd=...config.set("io.serializations","org.apache.hadoop.io.serializer.JavaSerialization,org.apache.hadoop.io.serializer.WritableSerialization");putRdd.saveAsNewAPIHadoopFile(outputPath,ImmutableBytesWritable.class,Put.class,SequenceFileOutputFormat

saveAsNewAPIHadoopFile java apache SequenceFile hadoop apache-spark serialization hdfs

scala - 无法启动 spark-shell，因为它会在 hadoop 集群配置上产生错误，但是，在没有 hadoop 集群的情况下工作正常

当我删除hadoop集群设置文件夹时，我的spark-shell工作得很好，但是，如果我尝试使用hadoop集群设置文件夹，那么spark-shell会产生各种错误，例如“实例化'org.apache.spark时出错.sql.hive.HiveSessionState'inspark"即使我没有在任何地方配置配置单元。请注意，即使我尝试关闭hadoop和spark的所有集群，但即使是spark-shell也会产生以下错误: 最佳答案运行:mkdir/user/$whoami/spark-warehouse然后运行:spark-s

hadoop spark-shell spark section scala shell apache-spark apache-spark-sql

java - 基于 Spark 的应用程序在 JDK 8 中失败？

我正在运行作为Spark安装的一部分的内置示例示例，并在Hadoop2.7+Spark和JDK8中运行。但是它给了我以下错误:Exceptioninthread"main"java.lang.OutOfMemoryError:CannotallocatenewDoublePointer(10000000):totalBytes=363M,physicalBytes=911Matorg.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:187)atorg.apache.spark.deploy.SparkSubm

Spark java 中运 SparkSubmit section scala hadoop apache-spark

hadoop - 集群中 MapReduce 和 Spark 作业的资源分配

我无法理解为MapReduce和Spark作业分配资源的内部机制。在同一个集群中，我们可以运行MapReduce和Spark作业，但是为了运行MapReduce作业，内部资源管理器将为作业分配可用资源，例如数据节点和任务跟踪器。在内部工作我需要的“N”个映射器和缩减器。当谈到Spark上下文时，它需要工作节点和执行程序(内部JVM)来计算程序。这是否意味着MapReduce和Spark作业会有不同的节点？如果不是，任务跟踪器和执行器之间将如何区分。集群管理器将如何为Hadoop和Spark作业识别特定节点。这里有人能赐教吗最佳答案

MapReduce hadoop 跟踪器 section Spark apache-spark hadoop-yarn

hadoop - Spark-Streaming CustomReceiver 未知主机异常

我是SparkStreaming的新手。我想在线流式传输url以便从某个URL检索信息，我使用JavaCustomReceiver来流式传输url。这是我正在使用的代码(source)publicclassJavaCustomReceiverextendsReceiver{privatestaticfinalPatternSPACE=Pattern.compile("");publicstaticvoidmain(String[]args)throwsException{SparkConfsparkConf=newSparkConf().setAppName("JavaCustomRe

Spark-Streaming CustomReceiver String Integer JavaCustomReceiver hadoop apache-spark bigdata

hadoop - sqlContext.read...load() 和 sqlContext.write...save() 代码在 Spark Cluster 上运行在哪里？

我正在使用SparkDataframeAPI从NFS共享加载/读取文件，然后将该文件的数据保存/写入HDFS。我有一个包含一个主节点和两个工作节点的三节点Spark集群。我的Spark集群使用YARN作为集群管理器，因此两个工作节点是YARNNodeManager节点，主节点是YarnResourceManager节点。我有一个远程位置，比如/data/files，它安装到所有三个YARN/SPARK节点，因为它是[/data/files]，其中存在我想要读取的所有csv文件[多个]从并最终写入HDFS。我在我的主节点上运行以下代码importjava.io.Fileimportorg

sqlContext Cluster String 34 fileFormat hadoop apache-spark apache-spark-sql spark-dataframe hadoop2

hadoop - Spark Controller 和 SAP Vora 之间的区别

我有一个版本为2SP01的HANAExpress服务器和一个带有HortonworksDataPlatform2.6的Hadoop集群。在Hadoop集群上，我安装了Vora1.4和SparkController2.1.1。我看到了以下视频，其中解释了从一个HANA版本到另一个版本的更改:https://www.youtube.com/watch?v=-B9LUjt8x2s&list=PLkzo92owKnVxweu0HK_3QjCfHiMn0jIcA%E2%88%88dex=66在SPS10中，SparkController似乎是HANA/Hadoop交互的实际连接器。但是，有没有可

Controller hadoop section Vora hana data-access

216 217 218219220 221 222