草庐IT

sparking

全部标签

java - Spark 作业与 yarn-client 一起正常工作,但与 yarn-cluster 完全不工作

我在用yarn提交spark作业jar时遇到问题。当我使用--masteryarn-client提交它时,它运行良好并给我预期的结果命令如下;./spark-submit--classmain.MainClass--masteryarn-client--driver-memory4g--executor-memory4g--num-executors4--executor-cores2job.jar其他选项但是当提交到集群模式时同样不起作用;命令如下;./spark-submit--classmain.MainClass--masteryarn--deploy-modecluster-

java - Apache Spark : Pre requisite questions

我即将在Ubuntu16.04LTS上安装ApacheSpark2.1.0。我的目标是一个独立的集群,使用Hadoop,Scala和Python(2.7是Activity的)下载时我得到了选择:为Hadoop2.7及更高版本预构建(文件为spark-2.1.0-bin-hadoop2.7.tgz)这个包实际上包含HADOOP2.7还是需要单独安装(首先我假设)?我安装了JavaJRE8(其他任务需要)。由于JDK8似乎也是先决条件,我还执行了“sudoaptinstalldefault-jdk”,它确实显示为已安装:default-jdk/xenial,now2:1.8-56ubunt

hadoop - Giraph、Hadoop、Spark 和 Cassandra

如果我有Spark集群和Cassandra但没有Hadoop集群,我可以使用Giraph吗?目前,我正在使用GraphX,并想改用Giraph。考虑到我有Spark集群并且正在使用Cassandra,这是否可能? 最佳答案 几年前我对Giraph的使用经验有限,而且我从未尝试过在Hadoop集群之外使用它。但看起来你想要的东西即使不一定容易,至少在技术上是可行的。这code是使用ApacheGiraph进行实用图形分析的姊妹篇。如您所见,例如,它在DoubleWritable和Text的类路径中需要Hadoop,但它对Hadoop集

java - Spark saveAsNewAPIHadoopFile java.io.IOException : Could not find a serializer for the Value class

我正在尝试将java对RDD存储为Hadoop序列文件,如下所示:JavaPairRDDputRdd=...config.set("io.serializations","org.apache.hadoop.io.serializer.JavaSerialization,org.apache.hadoop.io.serializer.WritableSerialization");putRdd.saveAsNewAPIHadoopFile(outputPath,ImmutableBytesWritable.class,Put.class,SequenceFileOutputFormat

scala - 无法启动 spark-shell,因为它会在 hadoop 集群配置上产生错误,但是,在没有 hadoop 集群的情况下工作正常

当我删除hadoop集群设置文件夹时,我的spark-shell工作得很好,但是,如果我尝试使用hadoop集群设置文件夹,那么spark-shell会产生各种错误,例如“实例化'org.apache.spark时出错.sql.hive.HiveSessionState'inspark"即使我没有在任何地方配置配置单元。请注意,即使我尝试关闭hadoop和spark的所有集群,但即使是spark-shell也会产生以下错误: 最佳答案 运行:mkdir/user/$whoami/spark-warehouse然后运行:spark-s

java - 基于 Spark 的应用程序在 JDK 8 中失败?

我正在运行作为Spark安装的一部分的内置示例示例,并在Hadoop2.7+Spark和JDK8中运行。但是它给了我以下错误:Exceptioninthread"main"java.lang.OutOfMemoryError:CannotallocatenewDoublePointer(10000000):totalBytes=363M,physicalBytes=911Matorg.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:187)atorg.apache.spark.deploy.SparkSubm

hadoop - 集群中 MapReduce 和 Spark 作业的资源分配

我无法理解为MapReduce和Spark作业分配资源的内部机制。在同一个集群中,我们可以运行MapReduce和Spark作业,但是为了运行MapReduce作业,内部资源管理器将为作业分配可用资源,例如数据节点和任务跟踪器。在内部工作我需要的“N”个映射器和缩减器。当谈到Spark上下文时,它需要工作节点和执行程序(内部JVM)来计算程序。这是否意味着MapReduce和Spark作业会有不同的节点?如果不是,任务跟踪器和执行器之间将如何区分。集群管理器将如何为Hadoop和Spark作业识别特定节点。这里有人能赐教吗 最佳答案

hadoop - Spark-Streaming CustomReceiver 未知主机异常

我是SparkStreaming的新手。我想在线流式传输url以便从某个URL检索信息,我使用JavaCustomReceiver来流式传输url。这是我正在使用的代码(source)publicclassJavaCustomReceiverextendsReceiver{privatestaticfinalPatternSPACE=Pattern.compile("");publicstaticvoidmain(String[]args)throwsException{SparkConfsparkConf=newSparkConf().setAppName("JavaCustomRe

hadoop - sqlContext.read...load() 和 sqlContext.write...save() 代码在 Spark Cluster 上运行在哪里?

我正在使用SparkDataframeAPI从NFS共享加载/读取文件,然后将该文件的数据保存/写入HDFS。我有一个包含一个主节点和两个工作节点的三节点Spark集群。我的Spark集群使用YARN作为集群管理器,因此两个工作节点是YARNNodeManager节点,主节点是YarnResourceManager节点。我有一个远程位置,比如/data/files,它安装到所有三个YARN/SPARK节点,因为它是[/data/files],其中存在我想要读取的所有csv文件[多个]从并最终写入HDFS。我在我的主节点上运行以下代码importjava.io.Fileimportorg

hadoop - Spark Controller 和 SAP Vora 之间的区别

我有一个版本为2SP01的HANAExpress服务器和一个带有HortonworksDataPlatform2.6的Hadoop集群。在Hadoop集群上,我安装了Vora1.4和SparkController2.1.1。我看到了以下视频,其中解释了从一个HANA版本到另一个版本的更改:https://www.youtube.com/watch?v=-B9LUjt8x2s&list=PLkzo92owKnVxweu0HK_3QjCfHiMn0jIcA%E2%88%88dex=66在SPS10中,SparkController似乎是HANA/Hadoop交互的实际连接器。但是,有没有可