草庐IT

yarn-site

全部标签

hadoop - YARN 阈值错误

我正在使用新的HDP2.6。和安巴里。我在上面安装了Yarn、MapReduce、Spark2、Hadoop等。我正在尝试使用--masteryarn进入sparkshell,但我经常遇到这种错误:$bin/spark-shell--masteryarn--deploy-modeclientWarning:Ignoringnon-sparkconfigproperty:spark-executor.memory=4gSettingdefaultloglevelto"WARN".Toadjustlogginglevelusesc.setLogLevel(newLevel).ForSpar

hadoop - yarn 中的 "Application priority"

我正在使用Hadoop2.9.0。是否可以在YARN中提交具有不同优先级的作业?根据一些JIRA票据,应用程序优先级似乎已经实现。我尝试使用YarnClient,并在提交作业之前为ApplicationSubmissionContext设置优先级。我还尝试使用CLI和updateApplicationPriority。但是,应用程序优先级似乎没有任何变化,它始终保持为0。我是否误解了YARN的ApplicationPriority概念?我看到了一些关于设置队列优先级的文档,但对于我的用例,我需要一个队列中的所有作业。将不胜感激任何对我的理解的澄清,或对我可能做错了什么的建议。谢谢。

hadoop - 如何解决 YARN 日志中的 Log aggregation has not completed or is not enabled 错误

我正在使用EMR5.4并将spark作业提交给Yarn当我尝试使用yarnlogs-applicationIdapplication_1528461193301_0001检索日志时,出现以下错误:18/06/0812:38:01INFOclient.RMProxy:ConnectingtoResourceManageratip-10-0-182-144.eu-west-1.compute.internal/10.0.182.144:8032s3://xxx/apps/root/logs/application_1528461193301_0001doesnotexist.Logaggr

hadoop - 如果没有在hdfs-site.xml中定义,namenode和datanode安装在哪里?

我的hdfs-site.xml只有以下内容:dfs.replication1问题。NameNode和DataNode安装在哪里?我在装有Windows10的MSFTSurface笔记本电脑上使用Hadoop3.0.3版本。 最佳答案 在hdfs-default.xmldfs.datanode.data.dir默认值为file://${hadoop.tmp.dir}/dfs/data和dfs.namenode.name。目录file://${hadoop.tmp.dir}/dfs/name并且在core-default.xmlhado

java - 在 yarn "org.apache.hadoop.ipc.Client - Retrying connect to server: tasktracker3/10.201.2.169:50000"上运行时在 apache Pig 中出现错误

我正在运行ApachePig0.11.2和Hadoop2.2.0。我在Pig中运行的大多数简单作业都运行良好。但是,每当我尝试在大型数据集上使用GROUPBY或LIMIT运算符时,我都会收到以下连接错误:2013-12-1811:21:28,400[main]INFOorg.apache.hadoop.ipc.Client-Retryingconnecttoserver:tasktracker2/10.201.2.145:54957.Alreadytried0time(s);retrypolicyisRetryUpToMaximumCountWithFixedSleep(maxRetr

hadoop - 编辑 yarn-site.xml 时需要重新加载 yarn 吗?

我已经在我的集群上编辑了yarn-site.xml。具体来说,我编辑了yarn.scheduler.minimum-allocation-mb设置。我是否需要以某种方式重新加载配置,或者重新启动资源管理器或其他东西才能生效,或者这些配置文件是否会自动监视和重新加载? 最佳答案 是的,你有。您还可以使用Ambari验证这一点。yarn-site.xml文件中的一项编辑会触发某些服务重新启动。YARN就是其中之一 关于hadoop-编辑yarn-site.xml时需要重新加载yarn吗?,我

hadoop - 为什么 oozie 向 yarn 提交 shell Action ?

我最近在学习oozie。我对shell的Action有点好奇。我正在执行包含类似shell命令的shell操作hadoopjar在运行此操作时,有两个yarn作业在运行,它们是一个用于hadoop作业一个用于shell操作我不明白为什么shellAction需要yarn来执行。我也试过电子邮件操作。它在没有yarn资源的情况下执行。 最佳答案 要回答这个问题,区别在于独立运行shell脚本(.sh文件或从CLI)作为oozie工作流程的一部分运行shell操作。(oozieshell操作中的shell脚本)第一种情况很明显。在第二种

hadoop - 如何在 Spark on YARN 中为 Spark UI 创建安全过滤器

环境:AWSEMR,yarn集群。描述:我正在尝试使用java过滤器来保护对sparkui的访问,这是通过使用属性spark.ui.filters;问题是,当spark在yarn模式下运行时,该属性总是被hadoop使用过滤器org.apache.hadoop.yarn.server.webproxy.amfilter.AmIpFilter覆盖:spark.ui.filters:org.apache.hadoop.yarn.server.webproxy.amfilter.AmIpFilter这两个参数是haddoop自动传递的spark.org.apache.hadoop.yarn.

hadoop - 从远程客户端在 Yarn 集群上提交 Spark 作业

我想使用spark-submit命令在远程YARN集群上提交Spark作业。我的客户端是一台Windows机器,集群由一个主机和4个从机组成。我将Hadoop配置文件从我的集群复制到远程机器,即core-site.xml和yarn-site.xml并在spark中设置HADOOP_CONF_DIR变量-env.sh指向它们。但是,当我使用以下命令提交作业时:spark-submit--jarshdfs:///user/kmansour/elevation/geotrellis-1.2.1-assembly.jar\--classtutorial.CalculateFlowDirecti

hadoop - YARN 和 NameNode 什么时候交互

提交作业时,YARN和NameNode什么时候交互?提交作业后,它会发送给谁?有人可以解释端到端流程-hadoop生态系统如何运作吗?谢谢! 最佳答案 Namenode:存储数据节点中存储的所有数据的元数据,监控数据节点的健康状况。基本上,它是一种主从架构。YARN:代表YetAnotherResourceNegotiator。yarn主要有两种成分。1.>调度2.>应用程序管理器Yarn还包含master,即ResourceManager和Slave,即NodeManager。出于调度目的,有3个调度器:1.>先进先出2.>容量3