YARN_OPTS

hadoop - 自动设置 Dataproc 集群后，Yarn/Spark 的内存分配不正确

我正在尝试在Dataproc集群上运行Spark作业，但由于Yarn配置错误，Spark无法启动。从shell运行“spark-shell”时(在本地主机上)，以及通过web-GUI和本地计算机上的gcloud命令行实用程序上传作业时，我收到以下错误:15/11/0821:27:16ERRORorg.apache.spark.SparkContext:ErrorinitializingSparkContext.java.lang.IllegalArgumentException:Requiredexecutormemory(38281+2679MB)isabovethemaxthres

不正 Dataproc code spark executor hadoop google-cloud-platform google-cloud-dataproc

scala - Spark Yarn 架构

我对我正在学习的教程中的这张图片有疑问。因此，基于yarn架构中的这张图片，spark应用程序的执行看起来像这样:首先，您有一个在客户端节点或某个数据节点上运行的驱动程序。在这个驱动程序中(类似于java中的驱动程序？)包含您提交给Spark上下文的代码(用java、python、scala等编写)。然后该spark上下文表示与HDFS的连接，并将您的请求提交给Hadoop生态系统中的资源管理器。然后资源管理器与名称节点通信，以确定集群中哪些数据节点包含客户端节点请求的信息。spark上下文还将在将运行任务的工作节点上放置一个执行程序。然后节点管理器将启动执行器，该执行器将运行Spar

scala Spark 的中运 hadoop apache-spark hdfs

hadoop - 异常 : java. Spark 中的 lang.Exception : When running with master 'yarn' either HADOOP_CONF_DIR or YARN_CONF_DIR must be set in the environment.

我是新的apache-spark。我已经在spark独立模式下测试了一些应用程序。但我想运行应用程序yarn模式。我在windows中运行apache-spark2.1.0。这是我的代码c:\spark>spark-submit2--masteryarn--deploy-modeclient--executor-cores4--jarsC:\DependencyJars\spark-streaming-eventhubs_2.11-2.0.3.jar,C:\DependencyJars\scalaj-http_2.11-2.3.0.jar,C:\DependencyJars\confi

CONF HADOOP_CONF_DIR spark section DependencyJars hadoop apache-spark pyspark hadoop-yarn

hadoop - 在 yarn 中启动/停止 Spark 流作业的正确方法是什么？

我已经进行了很多小时的试验和谷歌搜索，但没有成功。我有一个在本地Spark集群中运行良好的SparkStreaming应用程序。现在我需要在cloudera5.4.4上部署它。我需要能够启动它，让它在后台持续运行，并且能够停止它。我试过这个:$spark-submit--masteryarn-cluster--classMyMainmy.jarmyArgs但它只是不停地打印这些行。15/07/2817:58:18INFOClient:Applicationreportforapplication_1438092860895_0012(state:RUNNING)15/07/2817:5

hadoop Spark strong code application apache-spark spark-streaming hadoop-yarn cloudera

hadoop - Yarn 上保留的内存是什么

我成功地在Yarn上启动了一个spark应用程序。然而，内存使用情况有点奇怪，如下所示:http://imgur.com/1k6VvSI保留内存是什么意思？我怎样才能有效地使用所有可用内存？提前致谢。最佳答案查看thisblog来自Cloudera，解释了YARN中的新内存管理。这里是相关的部分:...Animplementationdetailofthischangethatpreventsapplicationsfromstarvingunderthisnewflexibilityisthenotionofreservedc

hadoop Yarn section the application apache-spark hadoop-yarn hadoop2

hadoop - 独立管理器与。 yarn 比。金币

在3节点Spark/Hadoop集群上，哪个调度程序(管理器)可以高效工作？目前我正在使用独立管理器，但对于每个spark作业，我必须明确指定所有资源参数(例如:核心、内存等)，这是我想避免的。我也尝试过Yarn，但它的运行速度比独立管理器慢10倍。Mesos会有帮助吗？集群详细信息:Spark1.2.1和Hadoop2.7.1 最佳答案 ApacheSpark在以下集群模式下运行本地独立yarn金币库伯内特游牧本地模式用于在操作系统上运行Spark应用程序。这种模式对于Spark应用的开发和测试很有用。standalone、Yar

hadoop yarn strong Mesos Spark apache-spark hadoop-yarn

hadoop - 如何在 AWS EMR 上重启 yarn

我正在使用Hadoop2.6.0(emr-4.2.0图片)。我在yarn-site.xml中做了一些更改，并想重新启动yarn以使更改生效。是否有我可以使用的命令？最佳答案编辑(2017年10月26日):有关如何执行此操作的更详细的知识中心文章已由AWS在此处正式发布-https://aws.amazon.com/premiumsupport/knowledge-center/restart-service-emr/.您可以通过ssh进入您的EMR集群的主节点并运行-"sudo/sbin/stophadoop-yarn-reso

何在 hadoop section yarn noreferrer hadoop-yarn emr

hadoop - Apache Hadoop Yarn - 内核利用率不足

无论我如何修改yarn-site.xml中的设置，即使用以下所有选项yarn.scheduler.minimum-allocation-vcoresyarn.nodemanager.resource.memory-mbyarn.nodemanager.resource.cpu-vcoresyarn.scheduler.maximum-allocation-mbyarn.scheduler.maximum-allocation-vcores我仍然无法让我的应用程序(即Spark)利用集群上的所有核心。spark执行器似乎正确地占用了所有可用内存，但每个执行器只占用一个内核，不再占用更多。

hadoop Apache code spark yarn apache-spark hadoop-yarn resourcemanager

hadoop - 如何知道在 YARN 客户端模式下带有 spark-shell 的 ClosedChannelException 的原因是什么？

我一直在尝试在YARNclient模式下运行spark-shell，但我遇到了很多ClosedChannelException错误。我正在为Hadoop2.6使用spark2.0.0build。以下是异常(exception)情况:$spark-2.0.0-bin-hadoop2.6/bin/spark-shell--masteryarn--deploy-modeclientSettingdefaultloglevelto"WARN".Toadjustlogginglevelusesc.setLogLevel(newLevel).16/09/1314:12:36WARNutil.Nat

ClosedChannelException spark-shell scala spark apache hadoop apache-spark spark-streaming hadoop-yarn

hadoop - YARN 中的容器是什么？

YARN中的容器是什么？它与运行节点管理器上的任务的子JVM相同还是不同？最佳答案它表示给定集群中单个节点上的资源(内存)。一个容器是由节点经理监督由资源经理安排一个MR任务在这样的容器中运行。关于hadoop-YARN中的容器是什么？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/14365218/

容器 hadoop section 中运 mapreduce hadoop-yarn

70 71 727374 75 76