我的问题是关于YARN的配置。如何确定集群中需要多少个容器?换句话说,我需要考虑什么才能为每个容器设置正确的内存/CPU数量?大小调整有一些最佳实践吗?谢谢。 最佳答案 无法从hortonworks发表评论,但大小应该与cloudera相同中央处理器1个vcore专用于操作系统1个vcore到hdfs数据节点1个vcore用于节点管理器供应商代理的1个vcore(这纯粹是为了cloudera,假设有一个ambari等效项)所有其他我会分配给yarn容器。我会将vcore多人游戏分配给4内存为你的操作系统预留一些,这取决于你的操作系统
我一直在尝试使用YARN资源队列,通过在任何给定时间控制作业数量(我只有MR作业,没有其他YARN应用程序)来控制争用。我的情况是——我有一项服务可以接受来自用户的请求并运行一些报告(作为MR作业)。这些工作有时会很耗时,在高峰期,这些工作会争夺资源,过多的共享意味着没有一个工作能取得像样的进展。我正在尝试尽量减少在任何给定时间可以在队列上运行的报告数量。我可以通过将队列的最大运行应用程序设置为所需值来完成部分工作。现在,我可以将MR应用程序/作业提交到集群,并且在任何给定时间只运行(假设为“n”)作业。现在,问题是,没有办法抢占同一个队列中的任务(或者我不知道)。我希望我能够以这样的
我在hadoop集群上使用yarn运行ApacheSpark应用程序。程序完成后,有没有办法检查该程序的CPU使用情况。基本上,我想要以1或2秒为间隔的分析日志。 最佳答案 您可以使用ResourceManager的restAPIhttps://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/ResourceManagerRest.html#Cluster_Applications_API基本上,您需要实现一个REST客户端,每1或2秒查询一次ResourMana
我有一个由2台机器组成的集群,我正在尝试使用YARN集群管理器提交一个spark作业。基于hadoop2.6.2构建的vanillaSpark1.6.2普通Hadoop2.7.2我可以使用独立的集群管理器成功运行map-reduce作业和spark作业。但是当我用YARN运行它时,我得到了一个错误。对如何让它发挥作用有什么建议吗?如何启用更详细的日志记录?错误信息绝对不清楚为什么在hadoop/logs/userlogs/applicationXXX下没有创建日志文件?反问:IMO:hadoop日志记录和诊断不是很好。这是为什么?Hadoop似乎是一个成熟的产品。下面是输出:mike@
我正在寻找一种方法来找出杀死YARN应用程序的用户。有办法吗? 最佳答案 与最新版本的Hadoop2.9及更高版本一样。将显示与终止应用程序的用户相关的更多详细信息。检查以下jira以获取更多信息https://issues.apache.org/jira/browse/YARN-5053 关于hadoop-如何找出谁杀死了yarn应用程序,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questi
我们目前正在我们的集群中运行大量的Oozie作业。其中许多工作都使用模板并具有子工作流程。这些作业并不总是包含大量繁重的作业,它们大多包含一个小的shell脚本。Hue作业浏览器显示大量Oozie步骤。我们现在有时会觉得我们的集群因这些作业而重载。这让我想知道,是否每一个Oozie作业都指定了一个yarn容器?如果是这样,这意味着对于2分钟的工作,我们有效使用的资源是所需资源的2-10倍。 最佳答案 自己看吧...在Hue仪表板中,单击任何已执行的工作流,选择“操作”选项卡,查看“外部ID”列=>每个job_000000_0000指
我使用ApacheAmbari在4节点上安装了ApacheHadoop。我用ApacheFlink写了一个简单的作业。我想将此作业提交到我的YARN集群。但是Flink需要在本地机器上YARN配置文件(core-site.xml、yarn-site.xml等)。所以如果我没有误解的话,有两种手动方式在ResourceManager节点上启动flink作业(以查找配置文件)从ResourceManager下载配置文件到本地。我觉得,这两种方式都不是很好。如何将作业提交到远程YARN集群。有合适的方法吗? 最佳答案 在Hadoop/YA
我是Yarn的新手。我在我的电脑上安装了单节点HadoopYarn,一切都是默认的。我打开ResourceManager的网页,它说我的集群是8GBRAM和8vcores。但实际上,我的电脑有3GB的内存和2个内核(我在/proc/meminfo和/proc/cpuinfo中看到了信息)。我想知道为什么Yarn会显示过多的ram和vcore?大家可以给我解释一下吗?提前致谢! 最佳答案 Yarn通过以下两个参数从yarn-site.xmlconf文件获取有关可用内存和内核的信息:Maxavailablememoryoneachdat
我在ApacheZeppelin中创建并运行了一个%pyspark程序,该程序在带有yarn-client的Spark集群上运行。该程序正在从HDFS读取Dataframe中的文件,并执行一个简单的groupby命令并成功打印输出。我使用的是Zeppellin版本0.6.2和Spark2.0.0。我可以看到作业在YARN中运行(参见application_1480590511892_0007):但是当我同时检查SparkUI时,这个工作什么也没有:问题1:这份工作不应该出现在这两个窗口中吗?此外,上面SparkUI图像中已完成的应用程序是带有%python解释器的Zeppelin作业,
解决原来,我们需要将validation.jar放在hadoop/share/hadoop/common/lib/中(从https://mvnrepository.com/artifact/javax.validation/validation-api*下载)。将其与文档所说的结合起来:在Druid的索引任务json中将“mapreduce.job.classloader”设置为“true”。您将使其正常工作:)-使用Hadoop2.7.3的Druid0.9.2*)不知道为什么,我可以看到Druid将其类路径中的所有jar都上传到了Hadoop(并且那里是validation.jar)