草庐IT

YARN-Cgroups

全部标签

hadoop - 异常 : java. Spark 中的 lang.Exception : When running with master 'yarn' either HADOOP_CONF_DIR or YARN_CONF_DIR must be set in the environment.

我是新的apache-spark。我已经在spark独立模式下测试了一些应用程序。但我想运行应用程序yarn模式。我在windows中运行apache-spark2.1.0。这是我的代码c:\spark>spark-submit2--masteryarn--deploy-modeclient--executor-cores4--jarsC:\DependencyJars\spark-streaming-eventhubs_2.11-2.0.3.jar,C:\DependencyJars\scalaj-http_2.11-2.3.0.jar,C:\DependencyJars\confi

hadoop - 在 yarn 中启动/停止 Spark 流作业的正确方法是什么?

我已经进行了很多小时的试验和谷歌搜索,但没有成功。我有一个在本地Spark集群中运行良好的SparkStreaming应用程序。现在我需要在cloudera5.4.4上部署它。我需要能够启动它,让它在后台持续运行,并且能够停止它。我试过这个:$spark-submit--masteryarn-cluster--classMyMainmy.jarmyArgs但它只是不停地打印这些行。15/07/2817:58:18INFOClient:Applicationreportforapplication_1438092860895_0012(state:RUNNING)15/07/2817:5

hadoop - Yarn 上保留的内存是什么

我成功地在Yarn上启动了一个spark应用程序。然而,内存使用情况有点奇怪,如下所示:http://imgur.com/1k6VvSI保留内存是什么意思?我怎样才能有效地使用所有可用内存?提前致谢。 最佳答案 查看thisblog来自Cloudera,解释了YARN中的新内存管理。这里是相关的部分:...Animplementationdetailofthischangethatpreventsapplicationsfromstarvingunderthisnewflexibilityisthenotionofreservedc

hadoop - 独立管理器与。 yarn 比。金币

在3节点Spark/Hadoop集群上,哪个调度程序(管理器)可以高效工作?目前我正在使用独立管理器,但对于每个spark作业,我必须明确指定所有资源参数(例如:核心、内存等),这是我想避免的。我也尝试过Yarn,但它的运行速度比独立管理器慢10倍。Mesos会有帮助吗?集群详细信息:Spark1.2.1和Hadoop2.7.1 最佳答案 ApacheSpark在以下集群模式下运行本地独立yarn金币库伯内特游牧本地模式用于在操作系统上运行Spark应用程序。这种模式对于Spark应用的开发和测试很有用。standalone、Yar

hadoop - 如何在 AWS EMR 上重启 yarn

我正在使用Hadoop2.6.0(emr-4.2.0图片)。我在yarn-site.xml中做了一些更改,并想重新启动yarn以使更改生效。是否有我可以使用的命令? 最佳答案 编辑(2017年10月26日):有关如何执行此操作的更详细的知识中心文章已由AWS在此处正式发布-https://aws.amazon.com/premiumsupport/knowledge-center/restart-service-emr/.您可以通过ssh进入您的EMR集群的主节点并运行-"sudo/sbin/stophadoop-yarn-reso

hadoop - Apache Hadoop Yarn - 内核利用率不足

无论我如何修改yarn-site.xml中的设置,即使用以下所有选项yarn.scheduler.minimum-allocation-vcoresyarn.nodemanager.resource.memory-mbyarn.nodemanager.resource.cpu-vcoresyarn.scheduler.maximum-allocation-mbyarn.scheduler.maximum-allocation-vcores我仍然无法让我的应用程序(即Spark)利用集群上的所有核心。spark执行器似乎正确地占用了所有可用内存,但每个执行器只占用一个内核,不再占用更多。

hadoop - 如何知道在 YARN 客户端模式下带有 spark-shell 的 ClosedChannelException 的原因是什么?

我一直在尝试在YARNclient模式下运行spark-shell,但我遇到了很多ClosedChannelException错误。我正在为Hadoop2.6使用spark2.0.0build。以下是异常(exception)情况:$spark-2.0.0-bin-hadoop2.6/bin/spark-shell--masteryarn--deploy-modeclientSettingdefaultloglevelto"WARN".Toadjustlogginglevelusesc.setLogLevel(newLevel).16/09/1314:12:36WARNutil.Nat

hadoop - YARN 中的容器是什么?

YARN中的容器是什么?它与运行节点管理器上的任务的子JVM相同还是不同? 最佳答案 它表示给定集群中单个节点上的资源(内存)。一个容器是由节点经理监督由资源经理安排一个MR任务在这样的容器中运行。 关于hadoop-YARN中的容器是什么?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/14365218/

hadoop - Spark on yarn 概念理解

我想了解spark如何在YARN集群/客户端上运行。我心中有以下问题。yarncluster的所有节点都必须安装spark吗?我认为这应该是因为集群中的工作节点执行任务并且应该能够解码驱动程序发送到集群的spark应用程序中的代码(sparkAPI)?文档中说“确保HADOOP_CONF_DIR或YARN_CONF_DIR指向包含Hadoop集群(客户端)配置文件的目录”。为什么client节点在向集群发送作业时必须安装Hadoop? 最佳答案 添加到其他答案。Isitnecessarythatsparkisinstalledona

hadoop - YARN 上的 Spark 中的日志在哪里?

我是新手。现在我可以在yarn(2.0.0-cdh4.2.1)上运行spark0.9.1。但是执行后没有log。以下命令用于运行spark示例。但是在正常的MapReduce作业中,在历史服务器中找不到日志。SPARK_JAR=./assembly/target/scala-2.10/spark-assembly-0.9.1-hadoop2.0.0-cdh4.2.1.jar\./bin/spark-classorg.apache.spark.deploy.yarn.Client--jar./spark-example-1.0.0.jar\--classSimpleApp--argsya