Yarn

hadoop - 使用 YARN/Hadoop 调度，我可以只抢占某些队列吗？

情况是我正在使用YARN来管理同时运行Spark和Hadoop的集群。通常作业没有相对大量的输入数据，但是有一系列偶尔运行的HadoopMapReduce作业确实有大量的输入数据并且可以长时间占用集群，因此其他用户不能运行他们小得多的工作。我希望能够做的是在集群为空时将整个集群用于大量作业，但如果另一个用户提交了作业，我想使用Preempt调度功能来杀死一些大型作业中的容器，因此它们可以腾出时间来处理较小的作业。但是，我不希望任何其他作业被抢占，只有大量作业被抢占。根据我的发现，似乎可以使用公平调度程序来执行此操作，为大量作业定义一个队列，并以某种方式仅在大量作业队列上启用抢占。我想问

java - 从 Eclipse IDE 在 YARN 上提交 Spark 应用程序

当我尝试通过Eclipse在Yarn上提交我的Spark应用程序时，我遇到了一个问题。我尝试提交一个简单的SVM程序，但出现以下错误。我有macbook，如果有人能给我详细的答案，我将不胜感激16/09/1710:04:19ERRORSparkContext:ErrorinitializingSparkContext.java.lang.IllegalStateException:Librarydirectory'.../MyProject/assembly/target/scala-2.11/jars'doesnotexist;makesureSparkisbuilt.atorg.a

Eclipse Spark apache section java hadoop apache-spark

hadoop - 如果工作节点上未安装 Spark(在 YARN 上)，如何启动 Spark Executors？

我有一个关于以集群模式在YARN上运行的ApacheSpark的问题。根据thisthread,Spark本身不必安装在集群中的每个(工作)节点上。我的问题出在SparkExecutors上:一般来说，YARN或者资源管理器应该决定资源分配。因此，SparkExecutors可以在集群中的任何(工作)节点上随机启动。但是，如果没有在任何(工作)节点上安装Spark，YARN如何启动SparkExecutors？最佳答案在高层次上，当Spark应用程序在YARN上启动时，ApplicationMaster(Spark特定)将在其中

Spark Executors strong section hadoop apache-spark hadoop-yarn

hadoop - Spark Streaming 和 Spark 应用程序可以在同一个 YARN 集群中运行吗？

大家好，新年快乐；)!我正在使用ApacheSpark、HDFS和Elastichsearch构建一个lambda架构。在下图中，这是我正在尝试做的事情:到目前为止，我已经用java为我的spark流和spark应用程序编写了源代码。我在spark文档中读到spark可以在Mesos或YARNclutser中运行。如图所示，我已经有一个hadoop集群。是否可以在同一个hadoop集群中运行我的sparkstreaming和spark应用程序？如果是，是否有任何特定的配置要做(例如节点数、RAM...)。或者我是否必须添加专门用于Spark流的hadoop集群？我希望我的解释很清楚。亚

中运 Spark code hadoop apache-spark spark-streaming hadoop-yarn

hadoop - ApplicationManager 在 YARN 中的作用

我正在看书，上面的图片描述为YARN中的ResourceManager他们说:AdminandClientService负责“客户端交互，例如作业请求提交、启动、重启等”“ApplicationMasterLauncher在客户端提交作业时启动ApplicationMaster的容器。”然后他们用下面的陈述来反驳他们上面所说的话:TheApplicationManagerisresponsibleforacceptingtheclient’sjobsubmissionrequests,negotiatingthecontainerstoexecutetheapplicationsspe

ApplicationManager hadoop strong ApplicationMaster ResourceManager hadoop-yarn

hadoop - yarn - 为什么应用程序尝试两次？

我制作的spark应用程序故意抛出错误。当我在hadoopyarn上运行这个应用程序时，它总是尝试两次。我只想运行一次应用程序，而不是两次。最佳答案应用程序尝试次数由此属性yarn.resourcemanager.am.max-attempts控制。默认情况下为2。在yarn-site.xml中修改，yarn.resourcemanager.am.max-attempts1 关于hadoop-yarn-为什么应用程序尝试两次？，我们在StackOverflow上找到一个类似的问题：

hadoop yarn section code strong apache-spark hadoop-yarn

java - Spring Boot YARN如何部署到Hadoop

我正在尝试运行SpringBootYARN示例(Windows上为https://spring.io/guides/gs/yarn-basic/)。但是示例使用本地hadoop。在application.yml中，我更改了fsUri和resourceManagerHost以指向我的VM主机192.168....但它不起作用。当我将jars移动到VM并运行时-它有效。但是我想从我的主机运行另一个节点(在我的例子中是VM)。还有一个问题:针对另一个真正的HadoopYARN而不是针对本地运行我的应用程序的正确方法是什么？我搜索、阅读、观看了很多信息，但没有关于部署的明确解释。

Spring Hadoop code section namenode java spring-boot hadoop-yarn

hadoop - 我在哪里可以找到 spark.hadoop.yarn.* 属性？

我试图运行spark(1.6.0)应用程序，该应用程序使用com.databricks.spark.csvjar从eclipse在yarn客户端模式下加载csv文件。它在throw未找到CSVRelatio$annonfunc$func异常。这是通过设置解决的spark.hadoop.yarn.application.classpathSparkConf中的属性。我的问题是spark.hadoop.yarn.application.classpathproperty不是在任何spark官方文件中列出。那么我在哪里可以找到所有这些特性？我知道这是愚蠢的问题，但有很多初学者引用官方文件(h

hadoop spark code apache-spark hadoop-yarn databricks

hadoop - 如何从命令行以人类可读的格式查找 yarn 应用统计信息

我有一个应用程序，其ID类似于application_2019xxxxxxxxxxxxx我可以使用命令yarnapplication-statusapplication_2019xxxxxxxxxxxxx找到它的统计信息，它以键值格式输出。这里的问题是一些字段不是人类可读的格式，例如应用程序的开始时间和结束时间采用unix纪元格式。这会导致脚本自动化出现问题。任何人都可以帮助如何以人类可读的格式获取所有值吗？提前致谢:) 最佳答案有很多方法可以将该数据转换为人类可读的格式，其中一些如下所示:mysql>selectfrom_uni

hadoop yarn section 1517874876754 code hadoop-yarn

apache-spark - 如何修复 oozie spark yarn 提交中的 '' java.lang.NoSuchMethodError"？

我已经启动并运行了裸机hadoop3.1.2集群，我还安装了Oozie5.1.0并成功运行了shell示例。但是当我运行Spark示例(FileCopy)时，它在oozie中指示“成功”，而文件并未真正复制，并且YARNstderr包含:Exceptioninthread"main"java.lang.NoSuchMethodError:org.apache.hadoop.yarn.api.protocolrecords.RegisterApplicationMasterResponse.getResourceProfiles()Ljava/util/Map;atorg.apache.

amp spark apache section registerApplicationMaster apache-spark hadoop oozie

51 52 535455 56 57