YARN_OPTS

hadoop - 如何使用 Yarn 在 Cloudera 上添加 Spark 工作节点

我们有cloudera5.2，用户希望开始使用Spark的全部潜力(在分布式模式下，它可以利用HDFS的数据局部性)，该服务已经安装并且可以在cloudera管理器状态(在home页面)但是当单击服务然后单击“实例”时，它只显示历史服务器角色，而在其他节点中显示网关服务器角色。根据我对Spark架构的理解，你有一个主节点和工作节点(与HDFS数据节点一起生活)所以在cloudera管理器中我尝试了“添加角色实例”，但只有“网关”角色可用。如何将Sparks工作节点(或执行程序)角色添加到具有HDFS数据节点的主机？还是没有必要(我认为由于yarn，yarn负责创建执行程序和应用程序主机

hadoop - yarn 中的节点状态是什么？

我想使用yarn跟踪我的节点的状态。所以，我做yarnnode-list查看我的节点。然后当我想列出某个状态下的所有节点时，我尝试做yarnnode-list-states.在webUI中我可以点击nodes我可以看到有时我的节点是UNHEALTHY.为什么我不能从命令行做类似的事情并做yarnnode-list-statesUNHEALTHY？或者，是否有人可以给我一个引用，告诉我哪个states我可以使用此命令yarnnode-list-states？我找不到它here 最佳答案运行错误的命令行yarnnode-list-st

hadoop yarn code apache-spark hadoop-yarn

hadoop - 无法查看 yarn 资源管理器的日志

我尝试了各种命令，但在查看yarn日志时仍然存在问题，这是我查看日志所遵循的步骤[root@iop-rm1/]#yarnapplication-list17/04/0313:15:21INFOclient.RMProxy:ConnectingtoResourceManageratiop-rm1.qatc/172.18.0.4:8032Totalnumberofapplications(application-types:[]andstates:[SUBMITTED,ACCEPTED,RUNNING]):1Application-IdApplication-NameApplication

hadoop yarn code strong apache-spark hadoop-yarn analytics-for-apache-hdp

hadoop - 线程 "main"java.lang.NoClassDefFoundError : org/apache/hadoop/yarn/exceptions/YarnRuntimeException 中的异常

我在hadoop-2.7.0上运行了一个mapreduce作业，但是这个mapreduce作业没有完成，我遇到了这个错误:Jobjob_1491881070758_0003failedwithstateFAILEDdueto:Applicationapplication_1491881070758_0003failed2timesduetoAMContainerforappattempt_1491881070758_0003_000002exitedwithexitCode:1Formoredetailedoutput,checkapplicationtrackingpage:http

hadoop NoClassDefFoundError gt lt artifactId mapreduce hadoop-yarn

hadoop - 在 YARN 中为 CLI 提交的作业设置 applicationTags 属性

我想跟踪YARN中的一些相关应用程序。它们是通过命令行提交的，例如yarnjarhadoop-mapreduce-examples.jarpi10100Python有一个真正的easy-to-useYARNclient返回以下内容:finalStatus=SUCCEEDEDid=application_1458083392566_0929state=FINISHEDname=QuasiMonteCarloapplicationType=MAPREDUCEuser=awoolfordapplicationTags=[...etc...]我注意到有一个applicationTags属性。这

applicationTags hadoop code section hadoop-yarn

hadoop - 我可以使用 Kerberos 在 Yarn 上运行 DCE(Docker 容器执行器)吗？

hadoop文档指出DCE不支持具有安全模式(Kerberos)的集群:https://hadoop.apache.org/docs/r2.7.2/hadoop-yarn/hadoop-yarn-site/DockerContainerExecutor.html有人在研究这个吗？有办法绕过这个限制吗？最佳答案好的。当前没有关于DCE的工作(YARN-2466)。努力已经转向支持LinuxContainerExecutor中的Docker容器(YARN-3611)。这将支持Kerberos。目前还没有文档(YARN-5258)，其

容器 Kerberos section https hadoop docker hadoop-yarn

hadoop - `yarn top`命令的头信息

UNIX和MacOS上常用的top命令在其最新版本中扩展到hadoop，有关它的一些信息已提供here.它具有以下header，APPLICATIONID用户类型队列#CONT#RCONTVCORESRVCORESMEMRMEMVCORESECSMEMSECS%PROGRTIMENAME我想知道#RCCONTRVCORES和RMEM是什么意思。最佳答案 R代表保留。所以它们可以解释为:#RCONT-reservedcontainersRVCORES-reservedvirtualcoresRMEM-reservedmemory

hadoop yarn code section reserved hadoop-yarn

hadoop - yarn 中的 AM 极限是多少？

在yarn大数据集群中运行作业的上下文中，我多次听到AM限制一词。这里也提到了:https://issues.apache.org/jira/browse/YARN-6428这是什么意思？最佳答案这是一个保证你不会活锁你的集群的设置。Map-Reduce作业有一个AM，它会生成映射器和缩减器。如果您的队列只有AM任务，那么您将无法运行任何映射器或缩减器，这意味着您的任何AM都不会完成，您也无法做任何有意义的工作。您处于活锁场景中。CapacityScheduler和FairScheduler都有一种方法可以限制AM可以持有的任务

hadoop yarn section 射器 Scheduler hadoop-yarn

apache-spark - YARN 如何决定启动哪种类型的 Application master？

我提到了this链接并获得对YARN工作原理的公平理解。YARN能够运行Multi-Tenancy应用程序，例如MR、Spark等。关键点是特定于应用程序的ApplicationMaster(AM)。当客户端向ResourceManager提交Job时，ResourceManager如何知道它是哪种应用程序(MR、Spark)并因此启动适当的ApplicationMaster？谁能帮助RM如何知道提交给它的作业类型？编辑:这个问题是:RM怎么知道提交了什么样的Job，而不知道YARN和MR或者Spark之间有什么关系。RM收到一个Job，因此它必须启动第一个运行特定应用程序Applic

apache-spark Application YARN hadoop mapreduce hadoop-yarn hadoop2

hadoop - JVM 重用 MapReduce 2.0 YARN

我有大量由小文件创建的输入拆分(大约50,000个)，我想使用Hadoop处理这些拆分。但是，我只有256个容器可用于处理它。作业本身使用大量CPU，但使用相当少的内存。我正在使用Hadoop2.3并查看了MapReduce1.0中的JVM重用功能我也读过关于ubertasks的内容，但它看起来不是一回事-或者我对JVM重用有不同的理解。由于我有很多小文件(并且正在为每个文件生成一个inputSplit)，我想为每个容器创建一个JVM机器，并为每个已分配的JVM运行尽可能多的顺序映射任务。这将减少JVM分配时间的开销。我想对于每个输入拆分都会分配一个新的映射器，从而分配一个新的JVM，

重用 MapReduce section JVM hadoop hadoop-yarn

12 13 141516 17 18