Yarn-site

hadoop - 线程 "main"java.lang.NoClassDefFoundError : org/apache/hadoop/yarn/exceptions/YarnRuntimeException 中的异常

我在hadoop-2.7.0上运行了一个mapreduce作业，但是这个mapreduce作业没有完成，我遇到了这个错误:Jobjob_1491881070758_0003failedwithstateFAILEDdueto:Applicationapplication_1491881070758_0003failed2timesduetoAMContainerforappattempt_1491881070758_0003_000002exitedwithexitCode:1Formoredetailedoutput,checkapplicationtrackingpage:http

hadoop NoClassDefFoundError gt lt artifactId mapreduce hadoop-yarn

hadoop - 在 YARN 中为 CLI 提交的作业设置 applicationTags 属性

我想跟踪YARN中的一些相关应用程序。它们是通过命令行提交的，例如yarnjarhadoop-mapreduce-examples.jarpi10100Python有一个真正的easy-to-useYARNclient返回以下内容:finalStatus=SUCCEEDEDid=application_1458083392566_0929state=FINISHEDname=QuasiMonteCarloapplicationType=MAPREDUCEuser=awoolfordapplicationTags=[...etc...]我注意到有一个applicationTags属性。这

applicationTags hadoop code section hadoop-yarn

hadoop - 我可以使用 Kerberos 在 Yarn 上运行 DCE(Docker 容器执行器)吗？

hadoop文档指出DCE不支持具有安全模式(Kerberos)的集群:https://hadoop.apache.org/docs/r2.7.2/hadoop-yarn/hadoop-yarn-site/DockerContainerExecutor.html有人在研究这个吗？有办法绕过这个限制吗？最佳答案好的。当前没有关于DCE的工作(YARN-2466)。努力已经转向支持LinuxContainerExecutor中的Docker容器(YARN-3611)。这将支持Kerberos。目前还没有文档(YARN-5258)，其

容器 Kerberos section https hadoop docker hadoop-yarn

hadoop - hadoop.tmp.dir 到底应该设置在哪里？ core-site.xml 还是 hdfs-site.xml？

我问的是Hadoop2.x系列。互联网上对此有相互矛盾的建议。喜欢这个case他要求在core-site.xml和这个SOanswer中指定它其中提到hadoop.tmp.dir设置在hdfs-site.xml中。应该放在哪个位置？最佳答案 hadoop.tmp.dir(Abaseforothertemporarydirectories)属性，需要在core-site.xml中设置，就像exportinLinux例如:dfs.namenode.name.dirfile://${hadoop.tmp.dir}/dfs/name您可以

hadoop site code section configuration hdfs configuration-files

hadoop - `yarn top`命令的头信息

UNIX和MacOS上常用的top命令在其最新版本中扩展到hadoop，有关它的一些信息已提供here.它具有以下header，APPLICATIONID用户类型队列#CONT#RCONTVCORESRVCORESMEMRMEMVCORESECSMEMSECS%PROGRTIMENAME我想知道#RCCONTRVCORES和RMEM是什么意思。最佳答案 R代表保留。所以它们可以解释为:#RCONT-reservedcontainersRVCORES-reservedvirtualcoresRMEM-reservedmemory

hadoop yarn code section reserved hadoop-yarn

hadoop - yarn 中的 AM 极限是多少？

在yarn大数据集群中运行作业的上下文中，我多次听到AM限制一词。这里也提到了:https://issues.apache.org/jira/browse/YARN-6428这是什么意思？最佳答案这是一个保证你不会活锁你的集群的设置。Map-Reduce作业有一个AM，它会生成映射器和缩减器。如果您的队列只有AM任务，那么您将无法运行任何映射器或缩减器，这意味着您的任何AM都不会完成，您也无法做任何有意义的工作。您处于活锁场景中。CapacityScheduler和FairScheduler都有一种方法可以限制AM可以持有的任务

hadoop yarn section 射器 Scheduler hadoop-yarn

apache-spark - YARN 如何决定启动哪种类型的 Application master？

我提到了this链接并获得对YARN工作原理的公平理解。YARN能够运行Multi-Tenancy应用程序，例如MR、Spark等。关键点是特定于应用程序的ApplicationMaster(AM)。当客户端向ResourceManager提交Job时，ResourceManager如何知道它是哪种应用程序(MR、Spark)并因此启动适当的ApplicationMaster？谁能帮助RM如何知道提交给它的作业类型？编辑:这个问题是:RM怎么知道提交了什么样的Job，而不知道YARN和MR或者Spark之间有什么关系。RM收到一个Job，因此它必须启动第一个运行特定应用程序Applic

apache-spark Application YARN hadoop mapreduce hadoop-yarn hadoop2

hadoop - JVM 重用 MapReduce 2.0 YARN

我有大量由小文件创建的输入拆分(大约50,000个)，我想使用Hadoop处理这些拆分。但是，我只有256个容器可用于处理它。作业本身使用大量CPU，但使用相当少的内存。我正在使用Hadoop2.3并查看了MapReduce1.0中的JVM重用功能我也读过关于ubertasks的内容，但它看起来不是一回事-或者我对JVM重用有不同的理解。由于我有很多小文件(并且正在为每个文件生成一个inputSplit)，我想为每个容器创建一个JVM机器，并为每个已分配的JVM运行尽可能多的顺序映射任务。这将减少JVM分配时间的开销。我想对于每个输入拆分都会分配一个新的映射器，从而分配一个新的JVM，

重用 MapReduce section JVM hadoop hadoop-yarn

scala - SPARK_EXECUTOR_INSTANCES 在 SPARK SHELL、YARN 客户端模式下不工作

我是spark的新手。正在尝试运行sparkonyarninyarn-clientmode.SPARKVERSION=1.0.2HADOOPVERSION=2.2.0yarn集群有3个事件节点。spark-env.sh中设置的属性SPARK_EXECUTOR_MEMORY=1GSPARK_EXECUTOR_INSTANCES=3SPARK_EXECUTOR_CORES=1SPARK_DRIVER_MEMORY=2GCommandused:/bin/spark-shell--masteryarn-client但是在登录spark-shell之后，它只注册了1个执行器，并为其分配了一些默认

SPARK SPARK_EXECUTOR_INSTANCES code Dspark scala hadoop apache-spark hadoop-yarn

java - 无法找到或加载主类 org.apache.giraph.yarn.GiraphApplicationMaster

我正在尝试让Giraph在YARN集群上运行，(Hadoop2.5.2)但我是否陷入了这个错误:Couldnotfindorloadmainclassorg.apache.giraph.yarn.GiraphApplicationMaster我已经尝试了我在之前关于此主题的消息中可以找到的所有方法，但无济于事。我的命令行是这样的:hadoopjar/home/prhodes/giraph/giraph-examples/target/giraph-examples-1.2.0-SNAPSHOT-for-hadoop-2.5.2-jar-with-dependencies.jarorg.

GiraphApplicationMaster apache giraph giraph-examples examples java hadoop graph bigdata

18 19 202122 23 24