草庐IT

yarn-daemon

全部标签

hadoop - 在集群上找到 yarn 日志

这个问题在这里已经有了答案:WheredoesHadoopstorethelogsofYARNapplications?(2个答案)关闭6年前。我用yarnlogs-applicationId"id"要在命令行上显示日志,但我需要在集群上找到文件。我想知道日志保存在集群上的什么位置?

hadoop - Spark YARN 配置问题 : Container keep failing

我正在尝试将数据框保存为文本文件,但即使是小数据也需要很多时间。我相信我的配置有问题。有人可以告诉我我在这里做错了什么吗?spark.default.parallelism640spark.hadoop.fs.s3.cse.plaintextLength.enabledfalsespark.hadoop.fs.s3n.filestatuscache.enabletruespark.hadoop.mapreduce.input.fileinputformat.split.maxsize33554432spark.executor.iddriverspark.executor.instan

hadoop - 我可以强制 YARN 使用 Application Master 容器的主节点吗?

在我的Hadoop/Spark运行期间,我的大主节点硬件几乎什么都不做,因为YARN在每个任务上为其AM使用随机从节点。我更喜欢旧的Hadoop1;当出现问题时,通过这种方式可以避免大量的日志追踪和ssh痛苦。这可能吗? 最佳答案 Spark和YARN节点标签是可能的。标记你的节点使用spark.yarn.am.nodeLabelExpression属性好读:https://developer.ibm.com/hadoop/2017/03/10/yarn-node-labels/ 关于h

hadoop - yarn 动态重新分配剩余的计算能力

我想知道如何为yarn配置动态队列:假设有2个队列A(高性能,集群的70%)B(正常,其余=集群的30%)我注意到B项目只会坚持分配给它们的资源,即使其他70%是空的。我如何重新分配这些资源(如果没有A作业)以更快地完成B作业? 最佳答案 容量调度程序文档https://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/CapacityScheduler.html对队列间的弹性和资源抢占提出了一些观点。Elasticity-Freeresourcescanbeal

hadoop - YARN 容器启动失败

我无法在配置单元上运行查询。查询在启动mapreduce操作后立即失败(MAP0%REDUCE0%)。在nodemanager日志中发现如下错误。2017-03-1611:53:03,581ERROR[ContainerLauncher#0]org.apache.hadoop.mapreduce.v2.app.launcher.ContainerLauncherImpl:Containerlaunchfailedforcontainer_1489041811986_0005_01_000002:java.lang.IllegalArgumentException:Doesnotcont

java - Spark 作业与 yarn-client 一起正常工作,但与 yarn-cluster 完全不工作

我在用yarn提交spark作业jar时遇到问题。当我使用--masteryarn-client提交它时,它运行良好并给我预期的结果命令如下;./spark-submit--classmain.MainClass--masteryarn-client--driver-memory4g--executor-memory4g--num-executors4--executor-cores2job.jar其他选项但是当提交到集群模式时同样不起作用;命令如下;./spark-submit--classmain.MainClass--masteryarn--deploy-modecluster-

hadoop - 如何使用 ResourceManager HA wrt Hortowork 的 HDP 将 MR 作业提交到 YARN 集群?

我正在尝试了解如何将MR作业提交到基于YARN的Hadoop集群。案例1:对于只有一个ResourceManager(即NOHA)的情况,我们可以像这样提交作业(我实际使用过,我认为是正确的)。hadoopjarword-count.jarcom.example.driver.MainDriver-fshdfs://master.hadoop.cluster:54310-jtmaster.hadoop.cluster:8032/first/dir/IP_from_hdfs.txt/result/dir可以看出,RM在端口8032上运行,NN在54310上运行,我指定了主机名,因为只有一

hadoop -/etc/hadoop/conf下的配置文件和/etc/hadoop/conf.cloudera.HDFS和/etc/hadoop/conf.cloudera.YARN下的配置文件有什么区别

我有cloudera5.7,我也有ClouderaManager。在目录/etc/hadoop下,我看到了三个子目录。/etc/hadoop/conf/etc/hadoop/conf.cloudera.HDFS//etc/hadoop/conf.cloudera.YARN/../conf/中的hadoop-env.sh不同于../conf.cloudera.HDFS/..../conf/中的core-site.xml也不同于../conf.cloudera.HDFS/..。../conf/下的hadoop-env.sh在YARN上有设置,而../conf.cloudera.HDFS下没

hadoop - Spark 不会在 yarn-cluster 模式下运行 final `saveAsNewAPIHadoopFile` 方法

我编写了一个Spark应用程序,它读取一些CSV文件(~5-10GB),转换数据并将数据转换为HFiles。数据从HDFS读取并保存到HDFS。当我在yarn-client中运行应用程序时,一切似乎都工作正常模式。但是当我尝试以yarn-cluster运行它时应用程序,进程似乎没有运行最终saveAsNewAPIHadoopFile对我已转换并准备好保存的RDD采取行动!这是我的SparkUI的快照,您可以在其中看到所有其他作业都已处理:以及相应的阶段:这是我应用程序的最后一步,其中saveAsNewAPIHadoopFile方法被调用:JavaPairRDDcells=...try{

linux - 将 xargs 值作为参数传递给后续 YARN 命令

需要帮助将参数从xargs传递到后续的Hadoop命令。我从这个命令得到如下结果。yarnapplication-list-appStatesRUNNING|grep|awk'{print$1}'上述命令的结果如下。17/09/1912:24:36INFOclient.ConfiguredRMFailoverProxyProvider:Failingovertorm21TotalApplication-Idapplication_1505017974932_14847application_1505017974932_14815application_1505017974932_148