草庐IT

yarn-site

全部标签

xml - 配置单元-site.xml : The element type "configuration" must be terminated by the matching end-tag "</configuration>"

为了练习/学习,我正在尝试在Ubuntu系统上安装Hive。我正在遵循一组预先编写的说明。它说通过转到$HIVE_HOME并运行bin/hive来测试Hive安装。当我这样做时,我得到了相当大的文本转储,但我认为最重要的一点如下:**[FatalError]hive-site.xml:2787:3:Theelementtype"configuration"mustbeterminatedbythematchingend-tag"".17/05/0610:46:12FATALconf.Configuration:errorparsingconffile:/usr/local/hive/c

hadoop - RM UI 中的 YARN "Memory Used"是 spark-shell 请求的两倍

spark-shell开始使用:spark-shell--masteryarn--executor-memory4G--num-executors100我期望yarn为spark-shell分配大约400GB的内存,但是当我转到RMUI时,它显示“已使用的内存”增加了大约804GB。我正在运行HDP2.5,在yarn-site.xml中将yarn.scheduler.minimum-allocation-mb设置为4096。对这是怎么发生的感到困惑。原来是spark内存开销和yarn内存分配机制的问题,查看:http://www.wdong.org/spark-on-yarn-wher

maven - 客户端 yarn 作业的 Scala 错误

我知道对此有一些疑问,但没有足够的信息来解决我的问题。我尝试在我的Eclipse项目中以yarn-client模式运行作业。我有一个包含2个节点的hadoop集群(其中一个节点当前已关闭)。我尝试在集群模式下运行它(使用spark-submit)并且它工作正常。我尝试通过以下方式从eclipse项目在本地运行它:我正在尝试制作这样的Spark上下文:SparkConfconf=newSparkConf().setAppName("AnomalyDetection-BuildModel").setMaster("local[*]");这是有效的。但是当我尝试使用“yarn-client”

hadoop - 0 在 CentOS 7 上以伪分布式模式运行 Hadoop 和 Yarn 时的事件节点

症状:sbin/start-dfs.sh和sbin/start-yarn.sh执行没有错误,但是localhost:8088显示0个事件节点。ma​​preduce作业无法连接到位于/0.0.0.0:8032的ResourceManager无密码(公钥)ssh已启用并正常工作。core-site.xml、hdfs-site.xml、ma​​pred-site.xml和yarn-site.xml均已正确配置。操作系统是在OracleVirtualBox上运行的CentOS7。 最佳答案 解决方案:我遵循的教程中没有说明:CentOS需

hadoop - yarn - spark 并行作业

我制作了只有1个工作节点的yarn-cluster,当我提交我的spark应用程序作业时它似乎工作正常。当我提交多个作业时,作业在hadoop队列中并一个接一个地处理提交的申请。我想并行处理我的申请,而不是逐一处理。这有什么配置吗?或者无法在yarn上做到这一点? 最佳答案 默认情况下,Yarn会一个一个地提交作业。要提交多个作业,您可以更改执行程序核心的数量:spark-submitclass/jar--executor-memory2g--num-executors15--executor-cores3--masteryarn-

hadoop - log4j.properties 过滤掉 Spark 和 YARN 日志

大家好,大家有一个关于ApacheSpark中的log4j的问题。在Sparklog4j中,如果我们使用“log4j.rootCategory=WARN”,这意味着它将过滤掉所有警告日志,但现在如果我只想过滤掉“Spark”和“YARN”日志,配置应该如何?log4j.rootCategory=WARN,consolelog4j.appender.console=org.apache.log4j.ConsoleAppenderlog4j.appender.console.target=System.outlog4j.appender.console.layout=org.apache.

hadoop - YARN 容量策略下的默认队列

在YARN容量策略下使用以下队列配置,在作业启动时未指定队列时如何选择默认队列?yarn.scheduler.capacity.root.queuesprod,devyarn.scheduler.capacity.root.dev.queueseng,science我知道在公平政策下,你可以选择一个默认队列,但我在容量一中找不到类似的东西。这是公平政策的一个例子。 最佳答案 可以引用https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.6.4/bk_yarn-resource-ma

hadoop - 无法在 yarn 模式下启动 Spark Shell

无法在yarn模式下启动SparkShell。当我运行此./spark-shell--masteryarn--deploy-modeclient它永远卡在这里打印相同的消息。18/03/1420:11:38INFOClient:clienttoken:N/Adiagnostics:N/AApplicationMasterhost:N/AApplicationMasterRPCport:-1queue:defaultstarttime:1521058297214finalstatus:UNDEFINEDtrackingURL:http://ip-172-31-0-54:8088/prox

hadoop - 如何更改在 yarn 上运行的 spark 作业的 java.io.tmpdir

如何为在YARN上运行的Hadoop3集群更改java.io.tmpdir文件夹?默认情况下,它会得到类似于/tmp/***的内容,但我的/tmp文件系统对于YARN作业将写入的所有内容来说都太小了。有办法改变吗?我也在core-site.xml中设置了hadoop.tmp.dir,不过貌似,并没有真正用到。 最佳答案 也许它是Whatshouldbehadoop.tmp.dir?的副本.此外,遍历/etc/hadoop/conf中的所有.conf并搜索tmp,看看是否有任何内容是硬编码的。还要指定:您是否看到(任何)文件在您指定的

apache-spark - 在 yarn 下的 spark 作业中连接 Kerberos + 启用 SSL 的 solr

我有启用了Kerberos和SSL的SOLR6集群。当我使用带有CloudSolrClient的测试客户端连接到它时,它工作正常。但是在spark作业驱动程序中运行相同的代码时,我得到以下校验和失败错误。我检查了所有提到的与校验和相关的问题,例如反向dns查找和添加javaunlimitedjar,所有yarn节点中的一切看起来都是正确的。我还可以验证它们是否正确,因为我的普通Java客户端能够从所有服务器进行查询。Causedby:org.apache.solr.client.solrj.impl.HttpSolrClient$RemoteSolrException:Errorfro