草庐IT

YARN_OPTS

全部标签

hadoop - 0 在 CentOS 7 上以伪分布式模式运行 Hadoop 和 Yarn 时的事件节点

症状:sbin/start-dfs.sh和sbin/start-yarn.sh执行没有错误,但是localhost:8088显示0个事件节点。ma​​preduce作业无法连接到位于/0.0.0.0:8032的ResourceManager无密码(公钥)ssh已启用并正常工作。core-site.xml、hdfs-site.xml、ma​​pred-site.xml和yarn-site.xml均已正确配置。操作系统是在OracleVirtualBox上运行的CentOS7。 最佳答案 解决方案:我遵循的教程中没有说明:CentOS需

hadoop - yarn - spark 并行作业

我制作了只有1个工作节点的yarn-cluster,当我提交我的spark应用程序作业时它似乎工作正常。当我提交多个作业时,作业在hadoop队列中并一个接一个地处理提交的申请。我想并行处理我的申请,而不是逐一处理。这有什么配置吗?或者无法在yarn上做到这一点? 最佳答案 默认情况下,Yarn会一个一个地提交作业。要提交多个作业,您可以更改执行程序核心的数量:spark-submitclass/jar--executor-memory2g--num-executors15--executor-cores3--masteryarn-

hadoop - log4j.properties 过滤掉 Spark 和 YARN 日志

大家好,大家有一个关于ApacheSpark中的log4j的问题。在Sparklog4j中,如果我们使用“log4j.rootCategory=WARN”,这意味着它将过滤掉所有警告日志,但现在如果我只想过滤掉“Spark”和“YARN”日志,配置应该如何?log4j.rootCategory=WARN,consolelog4j.appender.console=org.apache.log4j.ConsoleAppenderlog4j.appender.console.target=System.outlog4j.appender.console.layout=org.apache.

hadoop - YARN 容量策略下的默认队列

在YARN容量策略下使用以下队列配置,在作业启动时未指定队列时如何选择默认队列?yarn.scheduler.capacity.root.queuesprod,devyarn.scheduler.capacity.root.dev.queueseng,science我知道在公平政策下,你可以选择一个默认队列,但我在容量一中找不到类似的东西。这是公平政策的一个例子。 最佳答案 可以引用https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.6.4/bk_yarn-resource-ma

hadoop - 无法在 yarn 模式下启动 Spark Shell

无法在yarn模式下启动SparkShell。当我运行此./spark-shell--masteryarn--deploy-modeclient它永远卡在这里打印相同的消息。18/03/1420:11:38INFOClient:clienttoken:N/Adiagnostics:N/AApplicationMasterhost:N/AApplicationMasterRPCport:-1queue:defaultstarttime:1521058297214finalstatus:UNDEFINEDtrackingURL:http://ip-172-31-0-54:8088/prox

hadoop - 如何更改在 yarn 上运行的 spark 作业的 java.io.tmpdir

如何为在YARN上运行的Hadoop3集群更改java.io.tmpdir文件夹?默认情况下,它会得到类似于/tmp/***的内容,但我的/tmp文件系统对于YARN作业将写入的所有内容来说都太小了。有办法改变吗?我也在core-site.xml中设置了hadoop.tmp.dir,不过貌似,并没有真正用到。 最佳答案 也许它是Whatshouldbehadoop.tmp.dir?的副本.此外,遍历/etc/hadoop/conf中的所有.conf并搜索tmp,看看是否有任何内容是硬编码的。还要指定:您是否看到(任何)文件在您指定的

apache-spark - 在 yarn 下的 spark 作业中连接 Kerberos + 启用 SSL 的 solr

我有启用了Kerberos和SSL的SOLR6集群。当我使用带有CloudSolrClient的测试客户端连接到它时,它工作正常。但是在spark作业驱动程序中运行相同的代码时,我得到以下校验和失败错误。我检查了所有提到的与校验和相关的问题,例如反向dns查找和添加javaunlimitedjar,所有yarn节点中的一切看起来都是正确的。我还可以验证它们是否正确,因为我的普通Java客户端能够从所有服务器进行查询。Causedby:org.apache.solr.client.solrj.impl.HttpSolrClient$RemoteSolrException:Errorfro

apache-spark - 无法通过 YARN 访问 Spark UI

我正在构建一个docker镜像,以针对使用YARN的生产Hadoop集群在本地运行zeppelin或spark-shell。编辑:环境是macOS我可以很好地执行作业或spark-shell,但是当我尝试访问YARN上的TrackingURL时,作业正在运行,它会挂起YARN-UI整整10分钟。YARN仍在工作,如果我通过ssh连接,我可以执行yarn命令。如果我不访问SparkUI(直接或通过YARN),什么也不会发生。作业已执行且YARN-UI未挂起。更多信息:本地,在Docker上:Spark2.1.2、Hadoop2.6.0-cdh5.4.3生产环境:Spark2.1.0、Ha

hadoop - 运行 yarn jar 命令时更改 tmp 目录

我正在使用yarnjar命令运行MR作业,它会在/tmp文件夹中创建一个临时jar,它会填满整个磁盘空间。我想将这个jar的路径重定向到我有更多磁盘空间的其他文件夹。关于这个link,我开始知道我们可以通过为hadoop版本1.x设置属性ma​​pred.local.dir来更改路径。我正在使用以下命令来运行jaryarnjarmyjar.jarMyClassmyyml.ymlarg1-Dmapred.local.dir="/grid/1/uie/facts"上面的参数mapred.local.dir没有改变路径,它仍然在tmp文件夹中创建jar。 最佳答案

hadoop - NoSuchMethodException org.apache.hadoop.yarn.api.records.URL.fromURI

我正在尝试从hbase表中读取数据,对其进行一些处理并使用以下代码将其存储在另一个表中packageanalysis;importjava.io.IOException;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.apache.hadoop.hbase.client.Put;importorg.apache.hadoop.hbase.io.ImmutableByte