我是Spark、Hadoop和Yarn的初学者。我用以下命令安装Spark:https://spark.apache.org/docs/2.3.0/和Hadoop/yarn:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html.我的目标是在yarncluster上运行spark应用程序,但我遇到了问题。我们怎么知道我们的设置何时工作?我会告诉你我的例子。完成设置后,我尝试运行测试jar:examples/jars/spark-examples*.jar。当我在
我正在使用以下配置在YARN上提交spark应用程序conf.set("spark.executor.cores","3")conf.set("spark.executor.memory","14g")conf.set("spark.executor.instances","4")conf.set("spark.driver.cores","5")conf.set("spark.driver.memory","1g")但是,在YARN资源管理器UI上,它显示vCoresused=5,我预计vCores曾经是17((4x3)+5=17)即12执行人和5驱动程序。但它总是显示等于execu
有一个Java和CLI接口(interface)可以查询YarnRM的节点到节点标签(和反向)映射。有没有办法通过REST-API来做到这一点?最初的RM-API搜索显示只有基于节点标签的作业提交是一个选项。遗憾的是,这实际上在MapR-Hadoop(截至6/6/19的6.1)中被破坏了,所以我的代码必须通过实现正确的调度本身来解决这个问题。这可以使用YarnClientJavaAPI(几乎没有-这里还有更多损坏的API)。但由于我想同时针对不同的资源管理器安排作业,在防火墙后面,REST-API是实现此目的最引人注目的选择,而YarnClientAPI的RPC后端不容易传输。我目前最
我正在使用Beeline并喜欢为TEZ作业设置一个特定的名称,就像我使用mapreduce.job.name对于MapReduce作业。我试过hive.query.name,但它对yarnapplication-list没有任何影响.有人说我们只能在TEZUI中查看名称,但我只能访问YARN。请帮助我。我在Beeline中有一个加载脚本,现在正在运行TEZ作为执行引擎,当我尝试使用yarnapplication-list查看YARN中的事件应用程序时命令,我得到类似HIVE-的信息作为工作名称。我想将其更改为更具可读性。如果执行引擎是SETmapreduce.job.name=myJo
我在yarn中使用hadoop2.9.2进行内部队列抢占。我的队列间抢占工作正常,我设置了以下两个参数:https://docs.hortonworks.com/HDPDocuments/HDP3/HDP-3.1.0/data-operating-system/content/properties_for_configuring_intra-queue_preemption.html但队列内抢占仍然不起作用。任何线索都会有所帮助。 最佳答案 根据您的意见,您应该使用较低的数字来表示较高的优先级,因为第1个优先级总是比第20个优先级更
我在VirtualBox中下载并启动了HDP2.0,然后尝试使用YarnClient从Java进行连接YarnClientclient=YarnClient.createYarnClient();client.init(newConfiguration());client.start();client.createApplication();但是遇到了以下错误:1311[IPCClient(1943692956)connectionto/192.168.0.31:8050fromlordorient]DEBUGorg.apache.hadoop.ipc.Client.runnull–I
http://hadoop.apache.org/docs/r2.1.0-beta/hadoop-yarn/hadoop-yarn-site/WritingYarnApplications.html我试图通过上面的链接使示例运行良好。但是我无法编译下面的代码Resourcecapability=Records.newRecord(Resource.class);capability.setMemory(512);amContainer.setResource(capability);//Setthecontainerlaunchcontentintothe//ApplicationSu
我正在从Hadoop1.0迁移到支持YARN的集群。在1.0中运行临时作业时,我们过去常常根据作业跟踪器中报告的可用性指定reducer的数量,以加快处理速度。现在,在YARN的“所有应用程序”Web链接中,我们看不到任何此类有关可用性的列/信息。是否有任何配置文件或在网络链接中我们可以获得此信息? 最佳答案 Yarn中没有更多的插槽。相反,一切都取决于使用/需求的内存量。您可以配置yarn.nodemanager.resource.memory-mb和yarn.nodemanager.resource.cpu-vcores来控制任
我正在尝试在https://github.com/hortonworks/simple-yarn-app运行simple-yarn-app在托管模式下。我已经把jar从本地复制到hdfs了$hadoopfs-copyFromLocalsimple-yarn-app-1.0-SNAPSHOT.jar/simple-yarn-app-1.0-SNAPSHOT.jar当我尝试运行它时hadoopjarsimple-yarn-app-1.0-SNAPSHOT.jarcom.hortonworks.simpleyarnapp.Client/bin/date2/simple-yarn-app-1.
我们最近用CDH5(2.3.0-cdh5.1.3)部署了YARN,集群正在运行文件,作业也在运行。但是如果作业完成(成功/失败),我们无法从资源管理器UI访问日志,我们会收到以下错误Failedredirectforcontainer_1412716537481_0322_01_000001Failedwhiletryingtoconstructtheredirecturltothelogserver.LogServerurlmaynotbeconfiguredContainerdoesnotexist.还有一些运行作业的异常:Causedby:org.apache.hadoop.ip