Yarn

hadoop - 将作业提交到 YARN 集群的正确方法，其中作业依赖于外部 jar？

我试图了解将MR(就此而言，基于Java的Spark)作业提交到YARN集群的正确方法是什么。考虑以下情况:使用客户端机器开发代码(MR或Spark)作业，并说代码使用第3方jar。现在，当开发人员必须将作业提交到YARN集群时，将作业提交到集群的正确方法是什么，这样就不会出现未找到类的运行时异常。由于作业是作为jar文件提交的，开发人员如何“放置”第3方jar？我很难理解这一点，谁能帮助我理解这一点？最佳答案您必须使用Gradle或Maven简单地构建一个“fatjar子”，它不仅包含您编译的代码，还包含所有传递依赖项。您可以

交到 hadoop section noreferrer apache-spark hadoop-yarn hadoop2

hadoop - 输出状态为 : ACCEPTED in YARN MODE 的 Spark Hang

我的Spark环境Spark->2.1.0Hadoop->2.8.1Eclipse->Neon2我在yarn模式下获取spark上下文时卡住了，如何在yarn模式下获取spark上下文，请帮我解决。我的Hadoop、Yarn和Spark安装成功。$jps3200NameNode5264ExecutorLauncher5328CoarseGrainedExecutorBackend3555SecondaryNameNode5316CoarseGrainedExecutorBackend7590Jps3357DataNode4045NodeManager5118SparkSubmit372

ACCEPTED hadoop section spark code apache-spark hadoop-yarn

hadoop - Yarn 上的 Spark 作业 |性能调整和优化

优化部署在基于Yarn的集群上的Spark作业的最佳方法是什么？.根据配置而不是代码级别查找更改。我的问题是典型的设计级问题，应该使用什么方法来优化在SparkStreaming或SparkSQL上开发的作业。最佳答案有一个神话，认为大数据是神奇的，一旦部署到大数据集群，您的代码就会像梦一样工作。每个新手都有相同的信念:)还有一种误解，认为网络博客上的给定配置可以很好地解决所有问题。如果不深入了解您的集群，就没有通过Hadoop优化或调整作业的捷径。但考虑到以下方法，我确信您将能够在几个小时内优化您的工作。我更喜欢应用纯科学方法

hadoop Spark section 的 apache-spark apache-spark-sql spark-streaming

hadoop - YARN-指定在哪个Nodemanager上运行哪个应用

我有一个HadoopYARN集群，包括一个资源管理器和6个节点管理器。我想在集群上同时运行Flink和Spark应用程序。所以我有两个关于YARN的主要问题:如果是Spark，我应该在资源管理器和每个节点管理器上安装和配置Spark吗？当我想在YARN上提交Spark应用程序时，除了YARNresourcemanager和nodemanagers之外，是否应该运行Spark集群(master和slaves)？我可以将YARN设置为在一些特殊的节点管理器中运行Flink吗？谢谢最佳答案对于第一个问题，这取决于您是否使用打包的Had

Nodemanager hadoop section Spark YARN apache-spark hadoop-yarn apache-flink

apache-spark - 如何将配置从 spark-submit 传递到 yarn cluster？

我想知道有什么方法可以让spark-submit临时更改yarn作业的配置？问题是因为我们的Sparkoveryarncluster的historyserver只允许admin访问，不方便用户检索自己job的log。我了解到mapreduce-default.xml中的“mapreduce.job.acl-view-job”可以更改特定作业的ACL。因为我正在使用spark-submit来启Action业，并且“--conf”是为spark本身保留的，但是我如何从命令行和应用程序一起设置yarn的配置？最佳答案您可以修改Spar

spark apache-spark code section hadoop mapreduce hadoop-yarn spark-submit

hadoop - 在 YARN 中支持 Flink ACL

在安全的Hadoop集群中，我尝试从YARN访问FlinkAM页面和日志，并看到以下错误:用户%remoteUser无权查看应用程序%appID看来是因为Flink这边不支持YARN中的ACL。代码是如何工作的消息来自使用ApplicationACLsManager类的hadoop/yarn/server/AppBlock类。此类执行检查并引用在RMAppManager中设置的应用程序信息:this.applicationACLsManager.addApplication(applicationId,submissionContext.getAMContainerSpec().get

hadoop Flink section strong hadoop-yarn apache-flink

scala - YARN : how to monitor stages progress programatically? 上的 Spark 2.3.1

我有一个在YARN上运行Spark的设置，我的目标是通过应用程序ID以编程方式获取Spark作业进度的更新。我的第一个想法是解析YARNGUI的HTML输出。然而，这种GUI的问题是，与spark作业关联的进度条不会定期更新，甚至大部分时间都不会更改:当作业开始时，百分比大约是10%，并且卡住了到这个值，直到工作完成。所以这样的YARN进度条与SparkJobs无关。当我单击与Spark作业对应的ApplicationMaster链接时，我将被重定向到在作业运行期间临时绑定(bind)的SparkGUI。阶段页面与Spark作业的进度非常相关。然而，它是纯HTML，因此解析起来很痛苦。

programatically progress Spark section scala apache-spark hadoop hadoop-yarn

apache-spark - Hadoop copyToLocalFile 在 Yarn 集群模式下失败

我试图从我的Spark2应用程序使用Hadoop的copyToLocalFile函数将文件从HDFS复制到本地。valhadoopConf=newConfiguration()valhdfs=FileSystem.get(hadoopConf)valsrc=newPath("/user/yxs7634/all.txt")valdest=newPath("file:///home/yxs7634/all.txt")hdfs.copyToLocalFile(src,dest)当我在Yarn客户端模式下提交我的spark应用程序时，上面的代码工作正常。但是，它在Yarn集群模式下一直失败并出

copyToLocalFile apache-spark section 并出 hadoop hdfs hadoop-yarn

Apache hadoop Yarn 示例程序

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭6年前。Improvethisquestion我是ApacheYARN的新手。我已经安装了ApacheYARN。现在我需要的是一个示例程序来测试安装。你能告诉我程序位置吗(HortonworksYARN示例除外)。提前致谢。

Apache hadoop section class notice hadoop-yarn

hadoop - YARN 中公平调度程序的 ACL 不起作用

我在fair-scheduler.xml中用ACL配置了我的队列。但是其他用户也可以在同一个队列中运行作业。我是否需要根据我的队列在其他地方定义ACL。任何链接或帮助将不胜感激。谢谢10000mb,10vcores30000mb,30vcores102.0fairUser1User1 最佳答案注意:这是关于容量调度器的。不确定公平调度程序ACL继承行为是否不同。ACL通过yarn.scheduler.capacity..acl_submit_applications配置,请参阅CapacityScheduler:yarn.sche

hadoop YARN code queue mapreduce hadoop-yarn hadoop2

40 41 424344 45 46