yarn-daemon

java - 为什么只有少数节点在 apache spark on yarn 中工作？

我有7个数据节点和1个名称节点。我们的每个节点都有32Gb的内存和20个内核。所以我将容器内存设置为30Gb，将容器虚拟CPU内核设置为18。然而，只有三个数据节点工作，其余数据节点不工作。下面的代码是我的设置。/opt/spark/bin/spark-submit\--masteryarn\--deploy-modecluster\--driver-memory4g\--driver-cores18\--executor-memory8g\--executor-cores18\--num-executors7\Java代码SQLContextsqlc=newSQLContext(sp

中工 apache section spark code java hadoop apache-spark hadoop-yarn

hadoop - 在 YARN 应用程序中获取 Hadoop 集群节点列表

我正在编写YARN应用程序，它必须在每个集群节点上运行一些java代码。我从WritingYARNapplications开始，然后，在示例中遇到太多空格后，使用了thisgithubproject作为我申请的基础。正如我在深入研究exapmle的ApplicationMaster用法后发现的那样，我可以使用特定的org.apache.hadoop.yarn.client.api.ContainerRequest的构造函数，在特定主机上获取应用程序容器，但我需要集群节点列表来请求每台机器上的容器。通过这个问题搜索后，我发现解析yarn-site.xml不是获取集群机器URL的正确方法，

hadoop section strong hadoop-yarn

hadoop - Yarn api 通过 elapsedTime 获取应用程序

是否有一种简单的方法来查询yarn应用程序api以获取运行超过x时间的应用程序？下面的url给出了一个应用程序列表，但看起来不符合elapsedTime参数http://:/ws/v1/cluster/apps?states=RUNNING&elapsedTime=200000 最佳答案 elapsedTime不是受支持的查询参数。您可以使用jq来过滤符合条件的应用。curlhttp://:/ws/v1/cluster/apps?states=RUNNING|jq'.apps.app[]|select(.elapsedTime>20

elapsedTime hadoop code section hadoop-yarn

hadoop - RM UI 中的 YARN "Memory Used"是 spark-shell 请求的两倍

spark-shell开始使用:spark-shell--masteryarn--executor-memory4G--num-executors100我期望yarn为spark-shell分配大约400GB的内存，但是当我转到RMUI时，它显示“已使用的内存”增加了大约804GB。我正在运行HDP2.5，在yarn-site.xml中将yarn.scheduler.minimum-allocation-mb设置为4096。对这是怎么发生的感到困惑。原来是spark内存开销和yarn内存分配机制的问题，查看:http://www.wdong.org/spark-on-yarn-wher

spark-shell amp section yarn spark hadoop apache-spark hadoop-yarn

maven - 客户端 yarn 作业的 Scala 错误

我知道对此有一些疑问，但没有足够的信息来解决我的问题。我尝试在我的Eclipse项目中以yarn-client模式运行作业。我有一个包含2个节点的hadoop集群(其中一个节点当前已关闭)。我尝试在集群模式下运行它(使用spark-submit)并且它工作正常。我尝试通过以下方式从eclipse项目在本地运行它:我正在尝试制作这样的Spark上下文:SparkConfconf=newSparkConf().setAppName("AnomalyDetection-BuildModel").setMaster("local[*]");这是有效的。但是当我尝试使用“yarn-client”

maven Scala lt gt version hadoop apache-spark hadoop-yarn

hadoop - 0 在 CentOS 7 上以伪分布式模式运行 Hadoop 和 Yarn 时的事件节点

症状:sbin/start-dfs.sh和sbin/start-yarn.sh执行没有错误，但是localhost:8088显示0个事件节点。mapreduce作业无法连接到位于/0.0.0.0:8032的ResourceManager无密码(公钥)ssh已启用并正常工作。core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml均已正确配置。操作系统是在OracleVirtualBox上运行的CentOS7。最佳答案解决方案:我遵循的教程中没有说明:CentOS需

hadoop CentOS strong li section centos7

hadoop - yarn - spark 并行作业

我制作了只有1个工作节点的yarn-cluster，当我提交我的spark应用程序作业时它似乎工作正常。当我提交多个作业时，作业在hadoop队列中并一个接一个地处理提交的申请。我想并行处理我的申请，而不是逐一处理。这有什么配置吗？或者无法在yarn上做到这一点？最佳答案默认情况下，Yarn会一个一个地提交作业。要提交多个作业，您可以更改执行程序核心的数量:spark-submitclass/jar--executor-memory2g--num-executors15--executor-cores3--masteryarn-

hadoop spark section yarn stackoverflow hadoop-yarn

hadoop - log4j.properties 过滤掉 Spark 和 YARN 日志

大家好，大家有一个关于ApacheSpark中的log4j的问题。在Sparklog4j中，如果我们使用“log4j.rootCategory=WARN”，这意味着它将过滤掉所有警告日志，但现在如果我只想过滤掉“Spark”和“YARN”日志，配置应该如何？log4j.rootCategory=WARN,consolelog4j.appender.console=org.apache.log4j.ConsoleAppenderlog4j.appender.console.target=System.outlog4j.appender.console.layout=org.apache.

properties hadoop log4j log4 logger apache-spark hadoop-yarn log4j2

hadoop - YARN 容量策略下的默认队列

在YARN容量策略下使用以下队列配置，在作业启动时未指定队列时如何选择默认队列？yarn.scheduler.capacity.root.queuesprod,devyarn.scheduler.capacity.root.dev.queueseng,science我知道在公平政策下，你可以选择一个默认队列，但我在容量一中找不到类似的东西。这是公平政策的一个例子。最佳答案可以引用https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.6.4/bk_yarn-resource-ma

hadoop YARN section lt gt hadoop-yarn

hadoop - 无法在 yarn 模式下启动 Spark Shell

无法在yarn模式下启动SparkShell。当我运行此./spark-shell--masteryarn--deploy-modeclient它永远卡在这里打印相同的消息。18/03/1420:11:38INFOClient:clienttoken:N/Adiagnostics:N/AApplicationMasterhost:N/AApplicationMasterRPCport:-1queue:defaultstarttime:1521058297214finalstatus:UNDEFINEDtrackingURL:http://ip-172-31-0-54:8088/prox

hadoop Spark gt lt property apache-spark

64 65 666768 69 70