yarn-daemon

hadoop - 在集群上找到 yarn 日志

这个问题在这里已经有了答案:WheredoesHadoopstorethelogsofYARNapplications?(2个答案)关闭6年前。我用yarnlogs-applicationId"id"要在命令行上显示日志，但我需要在集群上找到文件。我想知道日志保存在集群上的什么位置？

hadoop - Spark YARN 配置问题 : Container keep failing

我正在尝试将数据框保存为文本文件，但即使是小数据也需要很多时间。我相信我的配置有问题。有人可以告诉我我在这里做错了什么吗？spark.default.parallelism640spark.hadoop.fs.s3.cse.plaintextLength.enabledfalsespark.hadoop.fs.s3n.filestatuscache.enabletruespark.hadoop.mapreduce.input.fileinputformat.split.maxsize33554432spark.executor.iddriverspark.executor.instan

Container failing iwC spark apache hadoop apache-spark hadoop-yarn amazon-emr

hadoop - 我可以强制 YARN 使用 Application Master 容器的主节点吗？

在我的Hadoop/Spark运行期间，我的大主节点硬件几乎什么都不做，因为YARN在每个任务上为其AM使用随机从节点。我更喜欢旧的Hadoop1；当出现问题时，通过这种方式可以避免大量的日志追踪和ssh痛苦。这可能吗？最佳答案 Spark和YARN节点标签是可能的。标记你的节点使用spark.yarn.am.nodeLabelExpression属性好读:https://developer.ibm.com/hadoop/2017/03/10/yarn-node-labels/ 关于h

Application 容器 section https yarn-node-labels hadoop apache-spark hadoop-yarn elastic-map-reduce

hadoop - yarn 动态重新分配剩余的计算能力

我想知道如何为yarn配置动态队列:假设有2个队列A(高性能，集群的70%)B(正常，其余=集群的30%)我注意到B项目只会坚持分配给它们的资源，即使其他70%是空的。我如何重新分配这些资源(如果没有A作业)以更快地完成B作业？最佳答案容量调度程序文档https://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/CapacityScheduler.html对队列间的弹性和资源抢占提出了一些观点。Elasticity-Freeresourcescanbeal

hadoop yarn capacity section resources hadoop-yarn

hadoop - YARN 容器启动失败

我无法在配置单元上运行查询。查询在启动mapreduce操作后立即失败(MAP0%REDUCE0%)。在nodemanager日志中发现如下错误。2017-03-1611:53:03,581ERROR[ContainerLauncher#0]org.apache.hadoop.mapreduce.v2.app.launcher.ContainerLauncherImpl:Containerlaunchfailedforcontainer_1489041811986_0005_01_000002:java.lang.IllegalArgumentException:Doesnotcont

容器 hadoop java ContainerLauncherImpl ContainerManagementProtocolProxy exception hive hadoop-yarn

java - Spark 作业与 yarn-client 一起正常工作，但与 yarn-cluster 完全不工作

我在用yarn提交spark作业jar时遇到问题。当我使用--masteryarn-client提交它时，它运行良好并给我预期的结果命令如下；./spark-submit--classmain.MainClass--masteryarn-client--driver-memory4g--executor-memory4g--num-executors4--executor-cores2job.jar其他选项但是当提交到集群模式时同样不起作用；命令如下;./spark-submit--classmain.MainClass--masteryarn--deploy-modecluster-

yarn yarn-cluster 03 INFO gt java hadoop apache-spark spark-submit

hadoop - 如何使用 ResourceManager HA wrt Hortowork 的 HDP 将 MR 作业提交到 YARN 集群？

我正在尝试了解如何将MR作业提交到基于YARN的Hadoop集群。案例1:对于只有一个ResourceManager(即NOHA)的情况，我们可以像这样提交作业(我实际使用过，我认为是正确的)。hadoopjarword-count.jarcom.example.driver.MainDriver-fshdfs://master.hadoop.cluster:54310-jtmaster.hadoop.cluster:8032/first/dir/IP_from_hdfs.txt/result/dir可以看出，RM在端口8032上运行，NN在54310上运行，我指定了主机名，因为只有一

ResourceManager 交到 code section hadoop hdfs hadoop-yarn hadoop2 high-availability

hadoop -/etc/hadoop/conf下的配置文件和/etc/hadoop/conf.cloudera.HDFS和/etc/hadoop/conf.cloudera.YARN下的配置文件有什么区别

我有cloudera5.7，我也有ClouderaManager。在目录/etc/hadoop下，我看到了三个子目录。/etc/hadoop/conf/etc/hadoop/conf.cloudera.HDFS//etc/hadoop/conf.cloudera.YARN/../conf/中的hadoop-env.sh不同于../conf.cloudera.HDFS/..../conf/中的core-site.xml也不同于../conf.cloudera.HDFS/..。../conf/下的hadoop-env.sh在YARN上有设置，而../conf.cloudera.HDFS下没

hadoop conf cloudera cloudera-manager

hadoop - Spark 不会在 yarn-cluster 模式下运行 final `saveAsNewAPIHadoopFile` 方法

我编写了一个Spark应用程序，它读取一些CSV文件(~5-10GB)，转换数据并将数据转换为HFiles。数据从HDFS读取并保存到HDFS。当我在yarn-client中运行应用程序时，一切似乎都工作正常模式。但是当我尝试以yarn-cluster运行它时应用程序，进程似乎没有运行最终saveAsNewAPIHadoopFile对我已转换并准备好保存的RDD采取行动!这是我的SparkUI的快照，您可以在其中看到所有其他作业都已处理:以及相应的阶段:这是我应用程序的最后一步，其中saveAsNewAPIHadoopFile方法被调用:JavaPairRDDcells=...try{

saveAsNewAPIHadoopFile yarn-cluster code section the hadoop apache-spark hdfs rdd

linux - 将 xargs 值作为参数传递给后续 YARN 命令

需要帮助将参数从xargs传递到后续的Hadoop命令。我从这个命令得到如下结果。yarnapplication-list-appStatesRUNNING|grep|awk'{print$1}'上述命令的结果如下。17/09/1912:24:36INFOclient.ConfiguredRMFailoverProxyProvider:Failingovertorm21TotalApplication-Idapplication_1505017974932_14847application_1505017974932_14815application_1505017974932_148

传递 linux application code section hadoop grep hadoop-yarn xargs

68 69 707172 73 74