草庐IT

YARN_OPTS

全部标签

hadoop - yarn-daemon.sh 写入 HDP 中的错误日志目录

我在笔记本电脑上安装了HortonworksHDP2.2.4.2-2版。我已经启动了名称节点、二级名称节点和所有数据节点等HDFS服务。我可以通过名称节点Web界面浏览HDFS。问题出在资源管理器上。HDP配套文件为HADOOP_LIBEXEC_DIR设置了错误的值。它已设置为/usr/lib/hadoop/libexec,这是错误的。正确的地址是:/usr/hdp/2.2.4.2-2/hadoop/libexec。在我更改此参数并使用此命令启动资源管理器后(使用yarn用户):/usr/hdp/current/hadoop-yarn-resourcemanager/sbin/yarn

hadoop - yarn stderr 没有 logger appender 也没有 stdout

我正在运行一个简单的mapreduce程序wordcountagianApacheHadoop2.6.0。hadoop正在分布式运行(多个节点)。但是,我无法从yarn作业历史记录中看到任何stderr和stdout。(但我可以看到系统日志)wordcount程序非常简单,仅供演示。importjava.io.IOException;importjava.util.StringTokenizer;importorg.apache.commons.logging.Log;importorg.apache.commons.logging.LogFactory;importorg.apach

hadoop - spark-submit 不使用 YARN

我已经使用YARN设置了一个5节点的hadoop集群,Spark也设置在所有5个节点上。我正在使用spark-1.5.0-cdh5.5.0当我运行时spark-shell--masteryarn--num-executors3这会按预期启动一个shell,并使用yarn从RM获取资源。所以,我猜spark正在按预期使用hadoopconf文件。但是当我做spark-submit时spark-submitword_count.py--masteryarn-cluster--num-executors3这是尝试连接到sparkmaster,据信在yarn上运行时不需要这样做。错误如下:16

hadoop - YARN 上的 Spark 应用程序的物理内存使用量不断增加

我在YARN客户端模式下运行一个Spark应用程序,有六个执行器(每个四个内核和执行器内存=6GB,开销=4GB,Spark版本:1.6.3/2.1.0)。我发现我的执行程序内存一直在增加,直到被节点管理器杀死;它给出了告诉我提升spark.yarn.excutor.memoryOverhead的信息。我知道这个参数主要是控制堆外分配内存的大小。但是我不知道Spark引擎会在什么时候以及如何使用这部分内存。另外增加那部分内存并不总能解决我的问题。有时有效,有时无效。当输入数据很大时,它趋向于无用。仅供引用,我的应用程序的逻辑非常简单。意思是把一天(一天一个目录)产生的小文件合并成一个,

scala - yarn 上的 Spark 提交没有将 jar 分发到 nm-local-dir

1、版本Spark:2.0.0标度:2.11.8java:1.8.0_91hadoop:2.7.22、问题:当我在yarn上提交scala程序到spark时,它抛出一个异常:Causedby:java.lang.IllegalStateException:Librarydirectory'/opt/hadoop/tmp/nm-local-dir/usercache/hadoop/appcache/application_1471514504287_0021/container_1471514504287_0021_01_000002/assembly/target/scala-2.11

hadoop - 带有 Yarn 的 Spark Shell - 错误 : Yarn application has already ended! 它可能已被杀死或无法启动应用程序主机

作为this的后续行动问题,当我尝试在我的单节点机器上使用Spark2.1.1overYarn(Hadoop2.8.0)时出现新错误。如果我使用启动SparkShellspark-shell它开始没有问题。在使用通常的start-dfs.sh和start-yarn.sh启动Hadoop之后,如果我使用spark-shell--masteryarn我收到以下错误:17/06/1012:00:07WARNNativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhe

java - 带有 --jars 的 spark-submit yarn-cluster 不起作用?

我正在尝试通过以下命令向CDHyarn集群提交一个spark作业我尝试了几种组合,但都不行......我现在所有的poijar都位于我的本地/root以及HDFS/user/root/lib中,因此我尝试了以下操作spark-submit--masteryarn-cluster--class"ReadExcelSC"./excel_sc.jar--jars/root/poi-3.12.jars,/root/poi-ooxml-3.12.jar,/root/poi-ooxml-schemas-3.12.jarspark-submit--masteryarn-cluster--class"

hadoop - 当 Yarn 中的资源管理器 (RM) 出现故障时会发生什么?

当Yarn中的资源管理器(RM)出现故障时会发生什么?在运行作业的过程中,如果资源管理器宕机,那么作业会发生什么情况?作业是自动提交还是我们需要再次提交作业?谢谢,文卡特 最佳答案 资源管理器(RM)高可用性在Apache中进行了解释链接如下。ResourceManagerHA通过Active/Standby架构实现。在任何时间点,其中一个RM是Active,如果ActiveRM发生故障,则其他备用节点正在等待接管。被提升为事件状态的RM从State-store加载RM内部状态,并从前一个事件状态停止的地方继续运行。为之前提交给RM

hadoop - yarn 和 Hadoop

我有几个关于向HDFS提交作业和Hadoop中的YARN架构的问题:因此,在Hadoop生态系统中,每个集群都有一个NameNode,它可以包含任意数量的数据节点来存储您的数据。当您向Hadoop提交作业时,NameNode上的作业跟踪器将选择每个作业并将其分配给数据节点上文件所在的任务跟踪器。所以我的问题是YARN的组件如何在HDFS中协同工作:?所以YARN由NodeManager和ResourceManager组成。在这两个组件中:NodeManager是否在每个DataNode上运行,而ResourceManager是否在每个集群的每个NameNode上运行?因此,当任务跟踪器

hadoop - yarn : get containers by applicationId

我想列出为特定MR作业运行容器的节点。我只有application_id。是否可以使用HadoopRESTAPI和/或通过命令行来完成? 最佳答案 这可以使用yarn来完成命令。运行yarnapplicationattempt-list获取应用尝试ID运行yarncontainer-list获取容器ID运行yarncontainer-status获取任何特定容器的主机。如果你想在bash脚本中使用它,或者想要获取具有大量容器的应用程序的每个主机,你可能想要解析出尝试/容器ID和主机,但这至少是一个开始。