在阅读有关YARN的好处时video,他们说,由于调度程序优化了集群利用率,因此提高了集群利用率。调度程序基于某些标准进行优化i)容量保证ii)公平iii)SLA所以我很困惑,什么是SLA以及它如何工作优化调度 最佳答案 YARN的容量调度器旨在允许跨多个组织共享大型集群。集群利用率考虑了组织的容量保证、公平性和SLA以进行优化。它提供了一组严格的限制,以确保单个应用程序或用户不会消耗集群中不成比例的资源量。SLA基本上是特定组织的工作应在此之前完成的时间表。 关于hadoop-yarn
我使用bdutil在Hadoop(2.6)集群上部署了带有yarn-client的Spark(1.3.1),默认情况下,实例是使用临时外部ips创建的,到目前为止spark工作正常。考虑到一些安全问题,并假设集群只能在内部访问,我从实例中删除了外部ips;在那之后,spark-shell甚至不会运行,并且似乎无法与Yarn/Hadoop通信,并且会无限期地卡住。只有在我重新添加外部ips之后,spark-shell才开始正常工作。我的问题是,运行sparkoveryarn是否需要节点的外部ips,为什么?如果是,是否会有关于安全等方面的担忧?谢谢! 最佳答案
我有一个基于MapReduce1的大型Java项目,我想将它迁移到YARN。这里有人知道如何操作的好指南吗?谢谢。 最佳答案 我负责生产Hadoop集群的升级以及应用程序。我们遵循的流程是:我们根据支持YARN的所需hadoop分布构建了一个小型集群。我们在新集群中测试了整个代码,如Map/Reduce程序、Pig程序hive脚本、sqoop脚本等,并对代码进行了必要的更改。通常没有太多的代码端更改。只需要验证支持的功能、方法等。验证了旧输出的输出,如果您的输出与旧输出匹配,那么您的代码就可以运行了。如果不匹配,那么您需要修复代码。
我想弄清楚为什么我的MR作业失败了。我的疑问之一是yarnresourcemanager日志中的警告:2015-08-1412:00:45,610INFOSecurityLogger.org.apache.hadoop.ipc.Server:Authsuccessfulfortesting(auth:SIMPLE)2015-08-1412:00:45,624WARNorg.apache.hadoop.security.ShellBasedUnixGroupsMapping:gotexceptiontryingtogetgroupsforusertesting:id:testing:No
大多数示例使用以下命令以本地模式提及运行Hive。SETmapred.job.tracker=local但是对于YARN,当在YARN集群上运行时,我们如何在本地模式下执行Hive作业。 最佳答案 这应该适用于Yarn(我用beeline测试过):设置mapreduce.framework.name=local; 关于apache-使用HadoopYARN在本地模式下运行Hive查询,我们在StackOverflow上找到一个类似的问题: https://st
我正在尝试将我的mac配置为hadoop名称节点。输入此命令后:bin/hdfsnamenode-format我收到这个错误:[FatalError]yarn-site.xml:3:4:Commentmuststartwith"但是yarn-site.xml文件有那个注释。这是该文件的内容:yarn.nodemanager.aux-servicesmapreduce_shuffle任何建议将不胜感激。 最佳答案 这里有个小错误:这应该是(注意第二个“-”。您需要将“—”替换为“-”):所以更正后的文档是(我使用XMLValidato
我正在运行一个包含sqoop命令的oozie工作流。通过终端提交时,sqoop命令运行良好。但是oozie工作流给出了以下异常:Exceptioninthread"main"java.lang.RuntimeException:org.apache.hadoop.security.AccessControlException:Permissiondenied:user=yarn,access=WRITE,inode="/user/yarn":hdfs:hdfs:drwxr-xr-x请指出可能存在的问题。工作流中的Sqoop命令:import--connect"jdbc:sqlserve
关于能够使用Spark运行机器学习作业。Yarn调度器和SparkStandalone调度器哪个更好? 最佳答案 运行实际的spark作业时没有区别。如果您的集群中运行着不同的spark应用程序和/或其他组件(当然支持Yarn/Mesos),Yarn/Mesos可以帮助您安排资源。Spark独立集群无法管理资源。也就是说,如果您启动一个Spark应用程序并且它使用了所有资源,那么第二个应用程序将找不到任何剩余资源。这意味着您必须自己执行此操作(例如相应地调整Spark配置) 关于hado
我正在设置一个hadoop单节点环境,用于在只有4GB物理内存的硬件上进行测试,并使用hadoop2.6.0。我只使用了针对此类环境建议的基本配置。但我现在担心我可能应该调整内存资源管理以便能够运行一些mapreduce示例。我知道有几个设置需要查看,包括Java堆以及映射和缩减任务的内存。对于像我这样的小规模测试环境,我应该/可以将最小、最大容器大小设置多低,以使适度的mapreduce任务正常运行?我特别指的是:yarn.scheduler.minimum-allocation-mbyarn.scheduler.maximum-allocation-mb启动-dfs和启动-yarn
我正在尝试通过cli启动OozieShell操作作业:ooziejob-configjobprops/jos.prioperties-runJob开始,它给了我一个唯一的Id,我可以在OozieUI中看到Job。但是,Yarn控制台显示没有提交的作业,并且在oozie中检查日志时我收到以下消息:Errorstartingaction[folder-structure].ErrorType[TRANSIENT],ErrorCode[JA009]Message[JA009:Permissiondenied:user=vikas.r,access=WRITE,inode="/":hdfs:h