yarn-daemon

python - 提交 PySpark 应用以在集群模式下在 YARN 上产生 Spark

我正在尝试测试为我工作的团队构建的大数据平台。它在YARN上运行spark。是否可以创建PySpark应用程序并在YARN集群上提交它们？我能够成功提交示例SparkPijar文件，它在YARNstdout日志中返回输出。这是我要测试的PySpark代码；frompysparkimportSparkConffrompysparkimportSparkContextHDFS_MASTER='hadoop-master'conf=SparkConf()conf.setMaster('yarn')conf.setAppName('spark-test')sc=SparkContext(con

用以 PySpark scala spark java python hadoop apache-spark hadoop-yarn

hadoop - 运行 YARN 应用程序时获取 "User [dr.who] is not authorized to view the logs for application <AppID>"

我在HDP2.5集群中使用ApacheTwill运行自定义Yarn应用程序，但是当我转到我的容器网页时，我无法看到我自己的容器日志(syslog、stderr和stdout):当我导航到此页面时，登录名也从我的kerberos更改为“dr.who”。但是我可以看到map-reduce作业的日志。Hadoop版本为2.7.3，集群启用了yarnacl。最佳答案我在使用hadoopui时遇到了这个问题。我在this中找到doc，hadoop.http.staticuser.user默认设置为dr.who，您需要将其包含在相关设置文件

amp application section hadoop noreferrer mapreduce hadoop-yarn hadoop2 apache-twill

hadoop - YARN 阈值错误

我正在使用新的HDP2.6。和安巴里。我在上面安装了Yarn、MapReduce、Spark2、Hadoop等。我正在尝试使用--masteryarn进入sparkshell，但我经常遇到这种错误:$bin/spark-shell--masteryarn--deploy-modeclientWarning:Ignoringnon-sparkconfigproperty:spark-executor.memory=4gSettingdefaultloglevelto"WARN".Toadjustlogginglevelusesc.setLogLevel(newLevel).ForSpar

hadoop YARN scala spark apache apache-spark hadoop-yarn hadoop2

hadoop - yarn 中的 "Application priority"

我正在使用Hadoop2.9.0。是否可以在YARN中提交具有不同优先级的作业？根据一些JIRA票据，应用程序优先级似乎已经实现。我尝试使用YarnClient，并在提交作业之前为ApplicationSubmissionContext设置优先级。我还尝试使用CLI和updateApplicationPriority。但是，应用程序优先级似乎没有任何变化，它始终保持为0。我是否误解了YARN的ApplicationPriority概念？我看到了一些关于设置队列优先级的文档，但对于我的用例，我需要一个队列中的所有作业。将不胜感激任何对我的理解的澄清，或对我可能做错了什么的建议。谢谢。

Application amp gt lt hadoop hadoop-yarn

hadoop - 如何解决 YARN 日志中的 Log aggregation has not completed or is not enabled 错误

我正在使用EMR5.4并将spark作业提交给Yarn当我尝试使用yarnlogs-applicationIdapplication_1528461193301_0001检索日志时，出现以下错误:18/06/0812:38:01INFOclient.RMProxy:ConnectingtoResourceManageratip-10-0-182-144.eu-west-1.compute.internal/10.0.182.144:8032s3://xxx/apps/root/logs/application_1528461193301_0001doesnotexist.Logaggr

aggregation completed section gt lt hadoop hdfs hadoop-yarn hadoop2 amazon-emr

java - 在 yarn "org.apache.hadoop.ipc.Client - Retrying connect to server: tasktracker3/10.201.2.169:50000"上运行时在 apache Pig 中出现错误

我正在运行ApachePig0.11.2和Hadoop2.2.0。我在Pig中运行的大多数简单作业都运行良好。但是，每当我尝试在大型数据集上使用GROUPBY或LIMIT运算符时，我都会收到以下连接错误:2013-12-1811:21:28,400[main]INFOorg.apache.hadoop.ipc.Client-Retryingconnecttoserver:tasktracker2/10.201.2.145:54957.Alreadytried0time(s);retrypolicyisRetryUpToMaximumCountWithFixedSleep(maxRetr

apache tasktracker3 RetryUpToMaximumCountWithFixedSle hadoop java apache-pig hadoop-yarn

hadoop - 编辑 yarn-site.xml 时需要重新加载 yarn 吗？

我已经在我的集群上编辑了yarn-site.xml。具体来说，我编辑了yarn.scheduler.minimum-allocation-mb设置。我是否需要以某种方式重新加载配置，或者重新启动资源管理器或其他东西才能生效，或者这些配置文件是否会自动监视和重新加载？最佳答案是的，你有。您还可以使用Ambari验证这一点。yarn-site.xml文件中的一项编辑会触发某些服务重新启动。YARN就是其中之一关于hadoop-编辑yarn-site.xml时需要重新加载yarn吗？，我

yarn yarn-site section hadoop hadoop-yarn

hadoop - 为什么 oozie 向 yarn 提交 shell Action ？

我最近在学习oozie。我对shell的Action有点好奇。我正在执行包含类似shell命令的shell操作hadoopjar在运行此操作时，有两个yarn作业在运行，它们是一个用于hadoop作业一个用于shell操作我不明白为什么shellAction需要yarn来执行。我也试过电子邮件操作。它在没有yarn资源的情况下执行。最佳答案要回答这个问题，区别在于独立运行shell脚本(.sh文件或从CLI)作为oozie工作流程的一部分运行shell操作。(oozieshell操作中的shell脚本)第一种情况很明显。在第二种

hadoop Action shell section oozie scheduler hadoop-yarn hadoop2

hadoop - 如何在 Spark on YARN 中为 Spark UI 创建安全过滤器

环境:AWSEMR，yarn集群。描述:我正在尝试使用java过滤器来保护对sparkui的访问，这是通过使用属性spark.ui.filters;问题是，当spark在yarn模式下运行时，该属性总是被hadoop使用过滤器org.apache.hadoop.yarn.server.webproxy.amfilter.AmIpFilter覆盖:spark.ui.filters:org.apache.hadoop.yarn.server.webproxy.amfilter.AmIpFilter这两个参数是haddoop自动传递的spark.org.apache.hadoop.yarn.

Spark 何在 hadoop section apache apache-spark apache-zeppelin

hadoop - 从远程客户端在 Yarn 集群上提交 Spark 作业

我想使用spark-submit命令在远程YARN集群上提交Spark作业。我的客户端是一台Windows机器，集群由一个主机和4个从机组成。我将Hadoop配置文件从我的集群复制到远程机器，即core-site.xml和yarn-site.xml并在spark中设置HADOOP_CONF_DIR变量-env.sh指向它们。但是，当我使用以下命令提交作业时:spark-submit--jarshdfs:///user/kmansour/elevation/geotrellis-1.2.1-assembly.jar\--classtutorial.CalculateFlowDirecti

hadoop Spark ApplicationMaster yarn apache-spark cluster-computing hadoop-yarn

77 78 798081 82 83