我正在尝试在Dataproc集群上运行Spark作业,但由于Yarn配置错误,Spark无法启动。从shell运行“spark-shell”时(在本地主机上),以及通过web-GUI和本地计算机上的gcloud命令行实用程序上传作业时,我收到以下错误:15/11/0821:27:16ERRORorg.apache.spark.SparkContext:ErrorinitializingSparkContext.java.lang.IllegalArgumentException:Requiredexecutormemory(38281+2679MB)isabovethemaxthres
我对我正在学习的教程中的这张图片有疑问。因此,基于yarn架构中的这张图片,spark应用程序的执行看起来像这样:首先,您有一个在客户端节点或某个数据节点上运行的驱动程序。在这个驱动程序中(类似于java中的驱动程序?)包含您提交给Spark上下文的代码(用java、python、scala等编写)。然后该spark上下文表示与HDFS的连接,并将您的请求提交给Hadoop生态系统中的资源管理器。然后资源管理器与名称节点通信,以确定集群中哪些数据节点包含客户端节点请求的信息。spark上下文还将在将运行任务的工作节点上放置一个执行程序。然后节点管理器将启动执行器,该执行器将运行Spar
我是新的apache-spark。我已经在spark独立模式下测试了一些应用程序。但我想运行应用程序yarn模式。我在windows中运行apache-spark2.1.0。这是我的代码c:\spark>spark-submit2--masteryarn--deploy-modeclient--executor-cores4--jarsC:\DependencyJars\spark-streaming-eventhubs_2.11-2.0.3.jar,C:\DependencyJars\scalaj-http_2.11-2.3.0.jar,C:\DependencyJars\confi
我已经进行了很多小时的试验和谷歌搜索,但没有成功。我有一个在本地Spark集群中运行良好的SparkStreaming应用程序。现在我需要在cloudera5.4.4上部署它。我需要能够启动它,让它在后台持续运行,并且能够停止它。我试过这个:$spark-submit--masteryarn-cluster--classMyMainmy.jarmyArgs但它只是不停地打印这些行。15/07/2817:58:18INFOClient:Applicationreportforapplication_1438092860895_0012(state:RUNNING)15/07/2817:5
我成功地在Yarn上启动了一个spark应用程序。然而,内存使用情况有点奇怪,如下所示:http://imgur.com/1k6VvSI保留内存是什么意思?我怎样才能有效地使用所有可用内存?提前致谢。 最佳答案 查看thisblog来自Cloudera,解释了YARN中的新内存管理。这里是相关的部分:...Animplementationdetailofthischangethatpreventsapplicationsfromstarvingunderthisnewflexibilityisthenotionofreservedc
在3节点Spark/Hadoop集群上,哪个调度程序(管理器)可以高效工作?目前我正在使用独立管理器,但对于每个spark作业,我必须明确指定所有资源参数(例如:核心、内存等),这是我想避免的。我也尝试过Yarn,但它的运行速度比独立管理器慢10倍。Mesos会有帮助吗?集群详细信息:Spark1.2.1和Hadoop2.7.1 最佳答案 ApacheSpark在以下集群模式下运行本地独立yarn金币库伯内特游牧本地模式用于在操作系统上运行Spark应用程序。这种模式对于Spark应用的开发和测试很有用。standalone、Yar
我正在使用Hadoop2.6.0(emr-4.2.0图片)。我在yarn-site.xml中做了一些更改,并想重新启动yarn以使更改生效。是否有我可以使用的命令? 最佳答案 编辑(2017年10月26日):有关如何执行此操作的更详细的知识中心文章已由AWS在此处正式发布-https://aws.amazon.com/premiumsupport/knowledge-center/restart-service-emr/.您可以通过ssh进入您的EMR集群的主节点并运行-"sudo/sbin/stophadoop-yarn-reso
无论我如何修改yarn-site.xml中的设置,即使用以下所有选项yarn.scheduler.minimum-allocation-vcoresyarn.nodemanager.resource.memory-mbyarn.nodemanager.resource.cpu-vcoresyarn.scheduler.maximum-allocation-mbyarn.scheduler.maximum-allocation-vcores我仍然无法让我的应用程序(即Spark)利用集群上的所有核心。spark执行器似乎正确地占用了所有可用内存,但每个执行器只占用一个内核,不再占用更多。
我一直在尝试在YARNclient模式下运行spark-shell,但我遇到了很多ClosedChannelException错误。我正在为Hadoop2.6使用spark2.0.0build。以下是异常(exception)情况:$spark-2.0.0-bin-hadoop2.6/bin/spark-shell--masteryarn--deploy-modeclientSettingdefaultloglevelto"WARN".Toadjustlogginglevelusesc.setLogLevel(newLevel).16/09/1314:12:36WARNutil.Nat
YARN中的容器是什么?它与运行节点管理器上的任务的子JVM相同还是不同? 最佳答案 它表示给定集群中单个节点上的资源(内存)。一个容器是由节点经理监督由资源经理安排一个MR任务在这样的容器中运行。 关于hadoop-YARN中的容器是什么?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/14365218/