yarn-daemon

hadoop - 输出状态为 : ACCEPTED in YARN MODE 的 Spark Hang

我的Spark环境Spark->2.1.0Hadoop->2.8.1Eclipse->Neon2我在yarn模式下获取spark上下文时卡住了，如何在yarn模式下获取spark上下文，请帮我解决。我的Hadoop、Yarn和Spark安装成功。$jps3200NameNode5264ExecutorLauncher5328CoarseGrainedExecutorBackend3555SecondaryNameNode5316CoarseGrainedExecutorBackend7590Jps3357DataNode4045NodeManager5118SparkSubmit372

hadoop - Yarn 上的 Spark 作业 |性能调整和优化

优化部署在基于Yarn的集群上的Spark作业的最佳方法是什么？.根据配置而不是代码级别查找更改。我的问题是典型的设计级问题，应该使用什么方法来优化在SparkStreaming或SparkSQL上开发的作业。最佳答案有一个神话，认为大数据是神奇的，一旦部署到大数据集群，您的代码就会像梦一样工作。每个新手都有相同的信念:)还有一种误解，认为网络博客上的给定配置可以很好地解决所有问题。如果不深入了解您的集群，就没有通过Hadoop优化或调整作业的捷径。但考虑到以下方法，我确信您将能够在几个小时内优化您的工作。我更喜欢应用纯科学方法

hadoop Spark section 的 apache-spark apache-spark-sql spark-streaming

hadoop - YARN-指定在哪个Nodemanager上运行哪个应用

我有一个HadoopYARN集群，包括一个资源管理器和6个节点管理器。我想在集群上同时运行Flink和Spark应用程序。所以我有两个关于YARN的主要问题:如果是Spark，我应该在资源管理器和每个节点管理器上安装和配置Spark吗？当我想在YARN上提交Spark应用程序时，除了YARNresourcemanager和nodemanagers之外，是否应该运行Spark集群(master和slaves)？我可以将YARN设置为在一些特殊的节点管理器中运行Flink吗？谢谢最佳答案对于第一个问题，这取决于您是否使用打包的Had

Nodemanager hadoop section Spark YARN apache-spark hadoop-yarn apache-flink

apache-spark - 如何将配置从 spark-submit 传递到 yarn cluster？

我想知道有什么方法可以让spark-submit临时更改yarn作业的配置？问题是因为我们的Sparkoveryarncluster的historyserver只允许admin访问，不方便用户检索自己job的log。我了解到mapreduce-default.xml中的“mapreduce.job.acl-view-job”可以更改特定作业的ACL。因为我正在使用spark-submit来启Action业，并且“--conf”是为spark本身保留的，但是我如何从命令行和应用程序一起设置yarn的配置？最佳答案您可以修改Spar

spark apache-spark code section hadoop mapreduce hadoop-yarn spark-submit

hadoop - 在 YARN 中支持 Flink ACL

在安全的Hadoop集群中，我尝试从YARN访问FlinkAM页面和日志，并看到以下错误:用户%remoteUser无权查看应用程序%appID看来是因为Flink这边不支持YARN中的ACL。代码是如何工作的消息来自使用ApplicationACLsManager类的hadoop/yarn/server/AppBlock类。此类执行检查并引用在RMAppManager中设置的应用程序信息:this.applicationACLsManager.addApplication(applicationId,submissionContext.getAMContainerSpec().get

hadoop Flink section strong hadoop-yarn apache-flink

scala - YARN : how to monitor stages progress programatically? 上的 Spark 2.3.1

我有一个在YARN上运行Spark的设置，我的目标是通过应用程序ID以编程方式获取Spark作业进度的更新。我的第一个想法是解析YARNGUI的HTML输出。然而，这种GUI的问题是，与spark作业关联的进度条不会定期更新，甚至大部分时间都不会更改:当作业开始时，百分比大约是10%，并且卡住了到这个值，直到工作完成。所以这样的YARN进度条与SparkJobs无关。当我单击与Spark作业对应的ApplicationMaster链接时，我将被重定向到在作业运行期间临时绑定(bind)的SparkGUI。阶段页面与Spark作业的进度非常相关。然而，它是纯HTML，因此解析起来很痛苦。

programatically progress Spark section scala apache-spark hadoop hadoop-yarn

apache-spark - Hadoop copyToLocalFile 在 Yarn 集群模式下失败

我试图从我的Spark2应用程序使用Hadoop的copyToLocalFile函数将文件从HDFS复制到本地。valhadoopConf=newConfiguration()valhdfs=FileSystem.get(hadoopConf)valsrc=newPath("/user/yxs7634/all.txt")valdest=newPath("file:///home/yxs7634/all.txt")hdfs.copyToLocalFile(src,dest)当我在Yarn客户端模式下提交我的spark应用程序时，上面的代码工作正常。但是，它在Yarn集群模式下一直失败并出

copyToLocalFile apache-spark section 并出 hadoop hdfs hadoop-yarn

Apache hadoop Yarn 示例程序

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭6年前。Improvethisquestion我是ApacheYARN的新手。我已经安装了ApacheYARN。现在我需要的是一个示例程序来测试安装。你能告诉我程序位置吗(HortonworksYARN示例除外)。提前致谢。

Apache hadoop section class notice hadoop-yarn

hadoop - YARN 中公平调度程序的 ACL 不起作用

我在fair-scheduler.xml中用ACL配置了我的队列。但是其他用户也可以在同一个队列中运行作业。我是否需要根据我的队列在其他地方定义ACL。任何链接或帮助将不胜感激。谢谢10000mb,10vcores30000mb,30vcores102.0fairUser1User1 最佳答案注意:这是关于容量调度器的。不确定公平调度程序ACL继承行为是否不同。ACL通过yarn.scheduler.capacity..acl_submit_applications配置,请参阅CapacityScheduler:yarn.sche

hadoop YARN code queue mapreduce hadoop-yarn hadoop2

hadoop - Spark yarn-cluster 模式 - 读取通过 --files 传递的文件

我正在使用yarn-clustermaster运行我的spark应用程序。应用程序有什么作用？外部服务根据对RESTService的HTTP请求生成一个jsonFileSpark需要读取这个文件并在解析完json之后做一些工作想到的最简单的解决方案是使用--files加载该文件。在yarn-cluster模式下读取文件意味着它必须在hdfs上可用(如果我是对的？)并且我的文件正在被复制到这样的路径:/hadoop_user_path/.sparkStaging/spark_applicationId/myFile.json我当然可以在哪里阅读它，但是我找不到从任何配置/SparkEnv

yarn-cluster 传递 code spark section hadoop apache-spark hdfs hadoop-yarn

60 61 626364 65 66