我的MR作业执行成功。但是当我检查它的历史记录时出现错误:Failedredirectforcontainer_1400260444475_3309_01_000001Failedwhiletryingtoconstructtheredirecturltothelogserver.LogServerurlmaynotbeconfiguredUnknowncontainer.Containereitherhasnotstartedorhasalreadycompletedordoesn'tbelongtothisnodeatall.我的HistoryServer也运行良好。好消息是,我可
是否可以将spark作业提交到yarn集群并使用命令行或在jar中选择哪个用户将“拥有”该作业?spark-submit将从包含用户的脚本中启动。PS:如果集群有一个kerberos配置(和一个keytab脚本),它仍然可能吗? 最佳答案 对于非Kerberized集群:exportHADOOP_USER_NAME=zorro在提交Spark作业之前就可以了。如果您想在其余的shell脚本(或交互式shellsession)中恢复为默认凭据,请确保之后unsetHADOOP_USER_NAME。对于kerberized集群,在不破坏
我在基于Kerberos的集群上运行Spark1.1.0、HDP2.1。我可以使用--masteryarn-client成功运行spark-submit,并且结果已正确写入HDFS,但是,该作业没有显示在HadoopAllApplications页面上。我想使用--masteryarn-cluster运行spark-submit但我仍然收到此错误:appDiagnostics:Applicationapplication_1417686359838_0012failed2timesduetoAMContainerforappattempt_1417686359838_0012_0000
我正在尝试在Dataproc集群上运行Spark作业,但由于Yarn配置错误,Spark无法启动。从shell运行“spark-shell”时(在本地主机上),以及通过web-GUI和本地计算机上的gcloud命令行实用程序上传作业时,我收到以下错误:15/11/0821:27:16ERRORorg.apache.spark.SparkContext:ErrorinitializingSparkContext.java.lang.IllegalArgumentException:Requiredexecutormemory(38281+2679MB)isabovethemaxthres
我对我正在学习的教程中的这张图片有疑问。因此,基于yarn架构中的这张图片,spark应用程序的执行看起来像这样:首先,您有一个在客户端节点或某个数据节点上运行的驱动程序。在这个驱动程序中(类似于java中的驱动程序?)包含您提交给Spark上下文的代码(用java、python、scala等编写)。然后该spark上下文表示与HDFS的连接,并将您的请求提交给Hadoop生态系统中的资源管理器。然后资源管理器与名称节点通信,以确定集群中哪些数据节点包含客户端节点请求的信息。spark上下文还将在将运行任务的工作节点上放置一个执行程序。然后节点管理器将启动执行器,该执行器将运行Spar
我是新的apache-spark。我已经在spark独立模式下测试了一些应用程序。但我想运行应用程序yarn模式。我在windows中运行apache-spark2.1.0。这是我的代码c:\spark>spark-submit2--masteryarn--deploy-modeclient--executor-cores4--jarsC:\DependencyJars\spark-streaming-eventhubs_2.11-2.0.3.jar,C:\DependencyJars\scalaj-http_2.11-2.3.0.jar,C:\DependencyJars\confi
我已经进行了很多小时的试验和谷歌搜索,但没有成功。我有一个在本地Spark集群中运行良好的SparkStreaming应用程序。现在我需要在cloudera5.4.4上部署它。我需要能够启动它,让它在后台持续运行,并且能够停止它。我试过这个:$spark-submit--masteryarn-cluster--classMyMainmy.jarmyArgs但它只是不停地打印这些行。15/07/2817:58:18INFOClient:Applicationreportforapplication_1438092860895_0012(state:RUNNING)15/07/2817:5
我成功地在Yarn上启动了一个spark应用程序。然而,内存使用情况有点奇怪,如下所示:http://imgur.com/1k6VvSI保留内存是什么意思?我怎样才能有效地使用所有可用内存?提前致谢。 最佳答案 查看thisblog来自Cloudera,解释了YARN中的新内存管理。这里是相关的部分:...Animplementationdetailofthischangethatpreventsapplicationsfromstarvingunderthisnewflexibilityisthenotionofreservedc
在3节点Spark/Hadoop集群上,哪个调度程序(管理器)可以高效工作?目前我正在使用独立管理器,但对于每个spark作业,我必须明确指定所有资源参数(例如:核心、内存等),这是我想避免的。我也尝试过Yarn,但它的运行速度比独立管理器慢10倍。Mesos会有帮助吗?集群详细信息:Spark1.2.1和Hadoop2.7.1 最佳答案 ApacheSpark在以下集群模式下运行本地独立yarn金币库伯内特游牧本地模式用于在操作系统上运行Spark应用程序。这种模式对于Spark应用的开发和测试很有用。standalone、Yar
我正在使用Hadoop2.6.0(emr-4.2.0图片)。我在yarn-site.xml中做了一些更改,并想重新启动yarn以使更改生效。是否有我可以使用的命令? 最佳答案 编辑(2017年10月26日):有关如何执行此操作的更详细的知识中心文章已由AWS在此处正式发布-https://aws.amazon.com/premiumsupport/knowledge-center/restart-service-emr/.您可以通过ssh进入您的EMR集群的主节点并运行-"sudo/sbin/stophadoop-yarn-reso