yarn-daemon

hadoop - Yarn、节点管理器和资源管理器

在YARN中，以下守护进程负责容器和资源应用程序的利用率？节点经理工作追踪器任务跟踪器应用大师资源经理我对此感到困惑，容器由节点管理器负责，应用程序的资源利用由资源管理器完成。所以答案是1、5。如有错误请指正。请给出正确的答案选项。最佳答案特定节点上的所有资源利用都由节点管理器负责。资源管理器查看整个集群资源，应用程序管理器管理应用程序的进度。关于hadoop-Yarn、节点管理器和资源管理器，我们在StackOverflow上找到一个类似的问题： ht

hadoop Yarn section li 追踪器 hadoop-yarn

xml - 为什么 YARN 上会有 mapreduce.jobtracker.address 配置？

YARN是Hadoop的二代，不再使用jobtracker守护进程，取而代之的是资源管理器。但是为什么在mapred-site.xmlhadoop2上有一个mapreduce.jobtracker.address属性？最佳答案你是对的。在YARN中，jobtracker不再存在。因此，作为客户端配置的一部分，您不必指定属性mapreduce.jobtracker.address。在YARN中，您应该在配置文件中将属性mapreduce.framework.name指定给yarn。您无需设置mapreduce.jotracker.

jobtracker mapreduce section code xml hadoop jobs hadoop-yarn

java - YARN 上 Spark 提交和 Flink 的 HDFS 路径

我使用clouderalivevm，我有一个hadoop和spral独立集群。现在我想用sparksubmit和flinkrun脚本提交我的工作。这也有效。但我的应用程序可以在hdfs中找到输入和输出文件的路径。我设置的路径如下:hdfs://127.0.0.1:50010/user/cloudera/outputs我从这个端口得到的信息:如何在java中设置hdfs的路径？？最好的问候，保罗最佳答案您不必设置DataNode主机的路径。在“概述”页面上，您将看到NameNode的连接信息，这也是您必须连接到的地方。

Spark Flink section 中设 stackoverflow java hadoop apache-spark hdfs apache-flink

hadoop - yarn 在运行 hive 作业时使用了 100% 的资源

我正在运行一个hivetez作业。工作是将数据从一个文本文件格式的表加载到另一个orc格式的表中。我在用INSERTINTOTABLEORDERREQUEST_ORCPARTITION(DATE)SELECTCOLUMN1,COLUMN2,COLUMN3,DATEFROMORDERREQUEST_TXT;当我通过ambariweb控制台监控作业时，我看到YARN内存使用率为100%。能否请您建议如何保持健康的yarn内存。所有三个数据节点的平均负载；1.top-17:37:24up50days,3:47,4users,loadaverage:15.73,16.43,13.522.top

hadoop 100%yarn code section memory hive hadoop-yarn ambari

hadoop - 尽管设置了 spark.yarn.conf，但仍上传了 Spark 程序集文件

我有时通过相对较慢的连接使用spark-submit将作业提交到在Yarn上运行的Spark集群。为了避免为每个作业上传156MB的spark-assembly文件，我将配置选项spark.yarn.jar设置为HDFS上的文件。但是，这并没有避免上传，而是从HDFSSpark目录中取出程序集文件并将其复制到应用程序目录中:$:~/spark-1.4.0-bin-hadoop2.6$bin/spark-submit--classMyClass--masteryarn-cluster--confspark.yarn.jar=hdfs://node-00b/user/spark/share

尽管 hadoop spark yarn section apache-spark hdfs hadoop-yarn

hadoop - 为什么使用 yarn-client 启动 spark-shell 失败并显示 "java.lang.ClassNotFoundException: org.apache.hadoop.fs.FSDataInputStream"？

我正尝试在家里设置一个集群以满足我的个人需求(学习)。首先我做了Hadoop+Yarn。MR2正在工作。其次-我正在尝试添加Spark但收到有关缺少类的错误。[root@masterconf]#spark-shell--masteryarn-clientExceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/hadoop/fs/FSDataInputStream...Causedby:java.lang.ClassNotFoundException:org.apache.hadoop.fs.FSDataInput

hadoop ClassNotFoundException code spark apache-spark hadoop-yarn

hadoop - 在不安全的 YARN 集群中运行 Spark 时访问安全的 Hive

我们有两个cloudera5.7.1集群，一个使用Kerberos保护，一个不保护。是否可以在访问存储在安全集群中的Hive表时使用不安全的YARN集群运行Spark？(Spark版本为1.6)如果是这样，您能否解释一下如何配置它？更新:我想稍微解释一下我的问题背后的最终目标。我们的主要安全集群被大量使用，我们的工作无法在合理的时间内获得足够的资源来完成。为了克服这个问题，我们希望使用我们拥有的另一个不安全集群的资源，无需在集群之间复制数据。我们知道这不是最佳解决方案，因为数据局部性级别可能不是最佳解决方案，但这是我们目前可以提出的最佳解决方案。如果您有任何其他解决方案，请告诉我，因为

中运 hadoop code strong section apache-spark hadoop-yarn

java - Spring Boot YARN 不运行在 Hadoop 2.8.0 客户端无法访问 DataNode

我正在尝试运行SpringBootYARN示例(Windows上为https://spring.io/guides/gs/yarn-basic/)。在application.yml中，我更改了fsUri和resourceManagerHost以指向我的VM主机192.168...。但是当我尝试运行应用程序时，Exceprion出现了:DFSClient:ExceptionincreateBlockOutputStreamjava.net.ConnectException:Connectiontimedout:nofurtherinformationatsun.nio.ch.Socket

DataNode Spring gt lt property java hadoop spring-boot hadoop-yarn

hadoop - yarn [hadoop 2.2] location mapper or reducer log输出到哪里？

我想查看logmapper或者reducer输出？在containerfoler下的syslog中找不到？那么log输出到哪里呢？publicclassSkipStat{privatestaticLoglog=LogFactory.getLog(SkipStat.class);privatestaticBlockWorkerRepositoryblockWorkerRepository;static{blockWorkerRepository=newBlockWorkerRepositoryImpl();}privatestaticclassSkipInfoMapperextendsM

hadoop location yarn section hadoop-yarn

Hadoop:如何在不干扰所有正在进行的作业的情况下重启 YARN？

当我调用./stop-yarn.sh然后调用./start-yarn.sh时，所有正在进行的作业将打印如下内容:14/10/2216:23:28INFOipc.Client:Retryingconnecttoserver:644v3.mzhen.cn/192.168.7.210:18040.Alreadytried0time(s);retrypolicyisRetryUpToMaximumCountWithFixedSleep(maxRetries=10,sleepTime=1SECONDS)14/10/2216:23:29INFOipc.Client:Retryingconnectt

何在 Hadoop RetryUpToMaximumCountWithFixedSle ResourceManager maxRetries hadoop-yarn

72 73 747576 77 78