YARN_OPTS

scala - YARN : how to monitor stages progress programatically? 上的 Spark 2.3.1

我有一个在YARN上运行Spark的设置，我的目标是通过应用程序ID以编程方式获取Spark作业进度的更新。我的第一个想法是解析YARNGUI的HTML输出。然而，这种GUI的问题是，与spark作业关联的进度条不会定期更新，甚至大部分时间都不会更改:当作业开始时，百分比大约是10%，并且卡住了到这个值，直到工作完成。所以这样的YARN进度条与SparkJobs无关。当我单击与Spark作业对应的ApplicationMaster链接时，我将被重定向到在作业运行期间临时绑定(bind)的SparkGUI。阶段页面与Spark作业的进度非常相关。然而，它是纯HTML，因此解析起来很痛苦。

apache-spark - Hadoop copyToLocalFile 在 Yarn 集群模式下失败

我试图从我的Spark2应用程序使用Hadoop的copyToLocalFile函数将文件从HDFS复制到本地。valhadoopConf=newConfiguration()valhdfs=FileSystem.get(hadoopConf)valsrc=newPath("/user/yxs7634/all.txt")valdest=newPath("file:///home/yxs7634/all.txt")hdfs.copyToLocalFile(src,dest)当我在Yarn客户端模式下提交我的spark应用程序时，上面的代码工作正常。但是，它在Yarn集群模式下一直失败并出

copyToLocalFile apache-spark section 并出 hadoop hdfs hadoop-yarn

Apache hadoop Yarn 示例程序

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭6年前。Improvethisquestion我是ApacheYARN的新手。我已经安装了ApacheYARN。现在我需要的是一个示例程序来测试安装。你能告诉我程序位置吗(HortonworksYARN示例除外)。提前致谢。

Apache hadoop section class notice hadoop-yarn

hadoop - YARN 中公平调度程序的 ACL 不起作用

我在fair-scheduler.xml中用ACL配置了我的队列。但是其他用户也可以在同一个队列中运行作业。我是否需要根据我的队列在其他地方定义ACL。任何链接或帮助将不胜感激。谢谢10000mb,10vcores30000mb,30vcores102.0fairUser1User1 最佳答案注意:这是关于容量调度器的。不确定公平调度程序ACL继承行为是否不同。ACL通过yarn.scheduler.capacity..acl_submit_applications配置,请参阅CapacityScheduler:yarn.sche

hadoop YARN code queue mapreduce hadoop-yarn hadoop2

hadoop - Spark yarn-cluster 模式 - 读取通过 --files 传递的文件

我正在使用yarn-clustermaster运行我的spark应用程序。应用程序有什么作用？外部服务根据对RESTService的HTTP请求生成一个jsonFileSpark需要读取这个文件并在解析完json之后做一些工作想到的最简单的解决方案是使用--files加载该文件。在yarn-cluster模式下读取文件意味着它必须在hdfs上可用(如果我是对的？)并且我的文件正在被复制到这样的路径:/hadoop_user_path/.sparkStaging/spark_applicationId/myFile.json我当然可以在哪里阅读它，但是我找不到从任何配置/SparkEnv

yarn-cluster 传递 code spark section hadoop apache-spark hdfs hadoop-yarn

hadoop - 在 YARN 上启动的 h2o 不起作用

当我在cdh集群上启动H2o时，出现以下错误。我从他的网站下载了所有内容并按照教程进行操作。我运行的命令是hadoopjarh2odriver.jar-nodes2-mapperXmx1g-outputhdfsOutputDirName表示容器没有被使用。目前尚不清楚这些将在hadoop上进行哪些设置。我已经给了所有设置内存。内存的0.0没有意义，为什么容器不使用内存。集群现在是否正在运行？-----YARNclustermetrics-----NumberofYARNworkernodes:3-----Nodes-----Node:http://data-node-3:8042Rac

hadoop YARN section used hadoop-yarn h2o

shell - 在 yarn 客户端错误上运行 spark shell

我有Spark1.6.1并且我已经设置了exportHADOOP_CONF_DIR=/folder/location现在，如果我运行sparkshell:$./spark-shell--masteryarn--deploy-mode客户端我得到这种类型的错误(相关部分)$16/09/1815:49:18INFOimpl.TimelineClientImpl:Timelineserviceaddress:http://URL:PORT/ws/v1/timeline/16/09/1815:49:18INFOclient.RMProxy:ConnectingtoResourceManager

shell spark hadoop FSPermissionChecker section apache-spark hadoop-yarn

hadoop - Yarn Resource Manager UI 中的 Num Off Switch Containers 是什么意思？

我有一个ETL作业占用大量CPU和内存并运行了很长时间。我在调试时观察到的第一件事如下(来自资源管理器GUI上的作业)NumNodeLocalContainers(满足)=6NumRackLocalContainers(满足)=00NumOffSwitchContainers(满足)=11367我们只有两个架子。我需要帮助回答以下三个问题NumOffSwitchContainer的含义是什么？我如何识别这些“关闭开关”容器以及它们在哪些节点上运行？关闭开关容器是否会导致作业处理时间变慢？最佳答案 1.NumOffSwitchCon

Containers Resource 容器 section strong hadoop mapreduce hadoop-yarn hortonworks-data-platform

hadoop - hadoop-2.7.3 中的 yarn : yarn-default. xml 位置

我们正在尝试在hadoop-2.7.3中找到yarn-default.xml的位置，有人可以指出它可能位于的位置......我能够找到yarn-site.xml但找不到yarn-default.xml如果有人能指出它的位置，将不胜感激。最佳答案在包含您的hadoop安装的目录中导航到share/doc/hadoop/hadoop-yarn/hadoop-yarn-common.如您所知，yarn-default.xml用作默认值的文档，而yarn-site.xml代表您的自定义配置值。

hadoop yarn section hadoop-yarn hadoop2

hadoop - MRv2/YARN 特性

我正在努力思考新API的实际用途，并且通过互联网阅读，我找到了对我正在处理的相同问题的不同答案。我想知道答案的问题是:1)哪个MRv2/YARN守护进程负责启动应用程序容器和监控应用程序资源使用情况。2)MRv2/YARN旨在解决哪两个问题？我会尝试通过指定资源和我的搜索中的实际数据来使这个线程对其他读者具有教育意义和建设性，所以我希望它不会看起来像我提供了太多信息，而我可以只问问题和缩短我的帖子。对于第一个问题，阅读文档，我可以找到3个主要资源可以依赖:来自Hadoop文档:ApplicationMasterNodeManagerLaunchcontainers.Communicat

hadoop MRv2 blockquote ApplicationMaster the

41 42 434445 46 47