草庐IT

hadoop - 使用 YARN/Hadoop 调度,我可以只抢占某些队列吗?

情况是我正在使用YARN来管理同时运行Spark和Hadoop的集群。通常作业没有相对大量的输入数据,但是有一系列偶尔运行的HadoopMapReduce作业确实有大量的输入数据并且可以长时间占用集群,因此其他用户不能运行他们小得多的工作。我希望能够做的是在集群为空时将整个集群用于大量作业,但如果另一个用户提交了作业,我想使用Preempt调度功能来杀死一些大型作业中的容器,因此它们可以腾出时间来处理较小的作业。但是,我不希望任何其他作业被抢占,只有大量作业被抢占。根据我的发现,似乎可以使用公平调度程序来执行此操作,为大量作业定义一个队列,并以某种方式仅在大量作业队列上启用抢占。我想问

java - 从 Eclipse IDE 在 YARN 上提交 Spark 应用程序

当我尝试通过Eclipse在Yarn上提交我的Spark应用程序时,我遇到了一个问题。我尝试提交一个简单的SVM程序,但出现以下错误。我有macbook,如果有人能给我详细的答案,我将不胜感激16/09/1710:04:19ERRORSparkContext:ErrorinitializingSparkContext.java.lang.IllegalStateException:Librarydirectory'.../MyProject/assembly/target/scala-2.11/jars'doesnotexist;makesureSparkisbuilt.atorg.a

hadoop - 如果工作节点上未安装 Spark(在 YARN 上),如何启动 Spark Executors?

我有一个关于以集群模式在YARN上运行的ApacheSpark的问题。根据thisthread,Spark本身不必安装在集群中的每个(工作)节点上。我的问题出在SparkExecutors上:一般来说,YARN或者资源管理器应该决定资源分配。因此,SparkExecutors可以在集群中的任何(工作)节点上随机启动。但是,如果没有在任何(工作)节点上安装Spark,YARN如何启动SparkExecutors? 最佳答案 在高层次上,当Spark应用程序在YARN上启动时,ApplicationMaster(Spark特定)将在其中

hadoop - Spark Streaming 和 Spark 应用程序可以在同一个 YARN 集群中运行吗?

大家好,新年快乐;)!我正在使用ApacheSpark、HDFS和Elastichsearch构建一个lambda架构。在下图中,这是我正在尝试做的事情:到目前为止,我已经用java为我的spark流和spark应用程序编写了源代码。我在spark文档中读到spark可以在Mesos或YARNclutser中运行。如图所示,我已经有一个hadoop集群。是否可以在同一个hadoop集群中运行我的sparkstreaming和spark应用程序?如果是,是否有任何特定的配置要做(例如节点数、RAM...)。或者我是否必须添加专门用于Spark流的hadoop集群?我希望我的解释很清楚。亚

hadoop - ApplicationManager 在 YARN 中的作用

我正在看书,上面的图片描述为YARN中的ResourceManager他们说:AdminandClientService负责“客户端交互,例如作业请求提交、启动、重启等”“ApplicationMasterLauncher在客户端提交作业时启动ApplicationMaster的容器。”然后他们用下面的陈述来反驳他们上面所说的话:TheApplicationManagerisresponsibleforacceptingtheclient’sjobsubmissionrequests,negotiatingthecontainerstoexecutetheapplicationsspe

hadoop - yarn - 为什么应用程序尝试两次?

我制作的spark应用程序故意抛出错误。当我在hadoopyarn上运行这个应用程序时,它总是尝试两次。我只想运行一次应用程序,而不是两次。 最佳答案 应用程序尝试次数由此属性yarn.resourcemanager.am.max-attempts控制。默认情况下为2。在yarn-site.xml中修改,yarn.resourcemanager.am.max-attempts1 关于hadoop-yarn-为什么应用程序尝试两次?,我们在StackOverflow上找到一个类似的问题:

java - Spring Boot YARN如何部署到Hadoop

我正在尝试运行SpringBootYARN示例(Windows上为https://spring.io/guides/gs/yarn-basic/)。但是示例使用本地hadoop。在application.yml中,我更改了fsUri和resourceManagerHost以指向我的VM主机192.168....但它不起作用。当我将jars移动到VM并运行时-它有效。但是我想从我的主机运行另一个节点(在我的例子中是VM)。还有一个问题:针对另一个真正的HadoopYARN而不是针对本地运行我的应用程序的正确方法是什么?我搜索、阅读、观看了很多信息,但没有关于部署的明确解释。

hadoop - 我在哪里可以找到 spark.hadoop.yarn.* 属性?

我试图运行spark(1.6.0)应用程序,该应用程序使用com.databricks.spark.csvjar从eclipse在yarn客户端模式下加载csv文件。它在throw未找到CSVRelatio$annonfunc$func异常。这是通过设置解决的spark.hadoop.yarn.application.classpathSparkConf中的属性。我的问题是spark.hadoop.yarn.application.classpathproperty不是在任何spark官方文件中列出。那么我在哪里可以找到所有这些特性?我知道这是愚蠢的问题,但有很多初学者引用官方文件(h

hadoop - 如何从命令行以人类可读的格式查找 yarn 应用统计信息

我有一个应用程序,其ID类似于application_2019xxxxxxxxxxxxx我可以使用命令yarnapplication-statusapplication_2019xxxxxxxxxxxxx找到它的统计信息,它以键值格式输出。这里的问题是一些字段不是人类可读的格式,例如应用程序的开始时间和结束时间采用unix纪元格式。这会导致脚本自动化出现问题。任何人都可以帮助如何以人类可读的格式获取所有值吗?提前致谢:) 最佳答案 有很多方法可以将该数据转换为人类可读的格式,其中一些如下所示:mysql>selectfrom_uni

apache-spark - 如何修复 oozie spark yarn 提交中的 '' java.lang.NoSuchMethodError"?

我已经启动并运行了裸机hadoop3.1.2集群,我还安装了Oozie5.1.0并成功运行了shell示例。但是当我运行Spark示例(FileCopy)时,它在oozie中指示“成功”,而文件并未真正复制,并且YARNstderr包含:Exceptioninthread"main"java.lang.NoSuchMethodError:org.apache.hadoop.yarn.api.protocolrecords.RegisterApplicationMasterResponse.getResourceProfiles()Ljava/util/Map;atorg.apache.