草庐IT

yarn-daemon

全部标签

hadoop - 在 yarn 集群上设置 spark 时需要哪些守护进程?

我了解以下是spark集群所需的守护进程硕士worker(奴隶)驱动程序(提交申请时启动)执行器(提交申请时启动)在yarn集群上设置Spark时,我有一些非常基本的问题是否有单独为spark启动的主守护进程或工作守护进程?我了解yarn集群本身的资源管理器和节点管理器将充当Spark作业的主人和worker。来自这篇文章http://blog.cloudera.com/blog/2014/05/apache-spark-resource-management-and-yarn-app-models/,似乎没有单独用于sparkonyarn的主/从守护进程。如果以上问题的答案是否定的。

使用 log4j 的 Hadoop Yarn 任务级日志记录

我一直在尝试在任务级别设置Hadoop日志记录,但到目前为止没有成功。我修改了log4j.properties并将许多参数设置为DEBUG级别:log4j.logger.org.apache.hadoop.mapred.Task=DEBUGlog4j.logger.org.apache.hadoop.mapred.MapTask=DEBUGlog4j.logger.org.apache.hadoop.mapred.ReduceTask=DEBUGlog4j.logger.org.apache.hadoop=DEBUG但是,我无法从正在记录的任务中看到任何LOG.info或LOG.deb

hadoop - 谁与 yarn 中的名称节点通信?

由于MapReduce1中的jobTracker被Yarn中的ApplicationMaster和ResouceManager所取代我想知道Yarn中谁在与名称节点通信以找出数据存储在不同数据节点中的位置?应用大师是这样做的吗? 最佳答案 在YARN中,每个应用程序ApplicationMaster负责从Namenode获取有关输入拆分的信息。稍后,当任务尝试在分配的节点上执行时,YarnChild从HDFS中获取相应的拆分。 关于hadoop-谁与yarn中的名称节点通信?,我们在St

hadoop - 如何从 Java 代码在 hadoop yarn 上运行字数统计作业?

我有如下要求:有一个30节点的hadoopYARN集群和一个用于提交作业的客户端机器。让我们使用wordcountMR示例,因为它是世界著名的。我想从java方法提交并运行wordcountMR作业。那么提交作业所需的代码是什么?有什么特定于客户端机器上的配置吗? 最佳答案 Hadoop应该存在于您的客户端机器上,其配置与您的hadoop集群中的其他机器相同。要从java方法提交MR作业,请引用javaProcessBuilder并传递hadoop命令以启动您的wordcount示例。可以找到wordcount的命令和必要的应用程序

hadoop - 来自集群未知主机名的主机的 Spark YARN 客户端作业?

我有一些私有(private)主机可以从YARN集群中通过IP而不是通过主机名可见。当他们尝试以YARN客户端模式提交任何Spark作业时,会尝试从集群连接驱动程序主机。由于默认情况下spark.driver.host配置为本地主机名,因此失败。那么有什么好的选择来处理这个问题吗?诸如自动将``spark.driver.host`设置为用于连接到集群的客户端IP接口(interface)地址之类的东西?正确的DNS解析不是选项。不可能。 最佳答案 基于此http://spark.apache.org/docs/latest/conf

hadoop - 为什么 YARN 中的压缩会使作业减慢数倍?

当我使用压缩(snappy)在YARN(2.4.0)中运行作业时,对作业完成时间有很大影响。例如,我进行了以下实验。工作:invertedindex集群:10个从属VM(4CPU8GBRAM)。5GBinvertedindex无压缩作业完成时间(snappy):226s,有压缩:1600s50GBinvertedindex无压缩作业完成时间(snappy):2000s,有压缩:14000s我在mapred-site.xml中的配置是这样的:mapreduce.map.output.compresstruemapred.map.output.compress.codecorg.apach

java - namenode 没有提供 hadoop YARN

我在ubuntu上使用hadoopYARN。我已经在/usr/local目录中设置了hadoop目录(以及数据节点和名称节点目录)。每当我运行start-dfs.sh时,namenode都不会出现-屏幕输出中的消息提示缺少bin/hdfs文件,即使该文件存在(具有读/写访问权限)。我已经使用Hadoop环境变量设置了bashrc(复制在下面)。有什么想法可能是错误的吗?#HADOOPVARIABLESSTARTexportJAVA_HOME=/usr/lib/jvm/java-8-oracleexportHADOOP_INSTALL=/usr/local/hadoop/hadoop-2

java - 使用 Java 客户端在 Apache YARN 上运行 MapReduce 应用程序

这个问题在这里已经有了答案:Callingamapreducejobfromasimplejavaprogram(6个答案)关闭8年前。我想使用Java客户端代码在YARN集群上运行MapReduce应用程序。例如,我想使用JavaAPI将驻留在hadoop-examples.jar文件中的WordCount提交到由16台机器组成的YARN集群。我试着关注thistutorial,但我没有得到什么是应用程序主jar。它与hadoop-examples.jar一样吗?或者另一个jar包含ApplicationMaster逻辑?如果您有从a到z的Java客户端代码示例将MapReduce应

hadoop - Spark over Yarn - 不正确的 Application Master 选择

我正在尝试使用以下命令在Yarn上使用Spark触发一些作业(这只是一个示例,实际上我使用的是不同数量的内存和内核):./bin/spark-submit--classorg.mypack.myapp\--masteryarn-cluster\--num-executors3\--driver-memory4g\--executor-memory2g\--executor-cores1\lib/myapp.jar\当我查看WebUI以查看幕后真正发生的事情时,我注意到YARN正在选择一个不是SparkMaster的节点作为ApplicationMaster。这是一个问题,因为真正的Sp

hadoop - 即使节点有可用内存,Yarn 作业也会崩溃,退出代码为 143

我的maptask超时,退出代码为143,我认为这是内存问题。据我了解,根据我的设置,每个容器将接收3gb内存,其中2.5gb将分配给java堆。当我在yarnWebUI上检查内存可用性时,我看到MemUsed从未通过MemAvail但我的工作在600秒后超时。这会不会是因为我的工作使用了过多的Java堆并崩溃了?mapreduce.map.memory.mb3072mapreduce.map.java.opts-Xmx2560M 最佳答案 你的映射器正在执行一些需要超过600秒的任务,节点管理器认为它已经死了,因此将它杀死。请在执