yarn-daemon_草庐IT

hadoop - 在 YARN 集群的特定节点上运行我自己的 application master

首先，我使用的是Hadoop-2.6.0。我想在YARN集群中的特定节点上启动我自己的appmaster，以便在预定的IP地址和端口上打开服务器。为此，我编写了一个驱动程序，在其中创建了一个ResourceRequest对象并调用了setResourceName方法来设置主机名，并将其附加到ApplicationSubmissionContext对象通过调用setAMContainerResourceRequest方法。我尝试了几次，但无法在特定节点上启动AppMaster。搜索代码后，我发现RMAppAttemptImpl使我在ResourceRequest中设置的内容无效，如下所示

hadoop - 使用大内存映射文件时 yarn 容器内存不足

我正在使用hadoop2.4。reducer使用几个大内存映射文件(总共约8G)。reducer本身使用的内存非常少。据我所知，内存映射文件(FileChannel.map(readonly))也使用很少的内存(由OS而不是JVM管理)。我遇到了这个错误:Container[pid=26783,containerID=container_1389136889967_0009_01_000002]isrunningbeyondphysicalmemorylimits.Currentusage:4.2GBof4GBphysicalmemoryused;5.2GBof8.4GBvirtual

大内容器 code mapreduce section hadoop hadoop-yarn memory-mapped-files

hadoop - 使用 Apache Spark 的 YARN 压缩编解码器

我在YARN上运行ApacheSpark(1.3.0)。YARN_CONF_DIR指向YARN配置。core-site.xml从该目录加载。它包括io.compression.codecs的设置，此列表包括com.hadoop.compression.lzo.LzoCodec，它不包含在预构建的Spark中。这会在启动时导致ClassNotFoundException。作为解决方法，我们可以使用修改后的core-site.xml运行，或者我们可以使用--jars包含所需的Jar文件。这些解决方法都不是很可靠。我不是YARN集群的管理员。集群管理员可以在我不知情的情况下对core-sit

hadoop Apache code section YARN apache-spark

java - 以编程方式向 yarn 提交 spark 应用程序

我觉得能够以编程方式向yarn提交spark应用程序正在成为一个非常普遍的需求。但是在apachespark文档中没有关于它的引用。是否有可能，如果有，是否有直接的方法来实现它。请指教。最佳答案正确的做法是将您的驱动程序应用程序变成一个RPC服务器。这样，您只启动一个SparkContext。您传入的RPC请求全部重新使用您现有的SparkContext。我相信文档顺便提到了这个策略，但除此之外这确实超出了Spark文档的范围。我最近使用http4s做了这个，一个可嵌入的功能性HTTP服务器。这是微不足道的。但是选择您选择的RP

spark java section stackoverflow SparkContext scala hadoop apache-spark hadoop-yarn

java - YARN 上可用的物理内核数和 VCores 之间的关系？

我是yarn的新手，我正在用Java编写一个YARN应用程序。根据要求，我只能在一台机器上使用N个物理内核。YARN允许设置我想分配给我的应用程序的VCore数和内存。是否可以确定给定N个物理核心的VCore数量？例如。如果我有32个物理内核，而我只想使用8个物理内核，那么我的应用程序的VCore数应该是多少？最佳答案使用8Inalmostallcases,anode’svirtualcorecapacityshouldbesetasthenumberofphysicalcoresonthemachine.http://blog

VCores java section strong managing-multiple-resources-in-ha hadoop hadoop-yarn hadoop2 cloudera-cdh

hadoop - MapReduce 作业作为用户在/user/yarn/.staging 目录上获得权限错误运行

我有一个运行Hive操作的Oozie工作流。配置单元操作非常简单，它只是从一个表中读取副本到另一个表。该作业具有以下属性:user.name=yarnmapreduce.job.user.name=cloudfeeds作业失败并出现以下错误:15/07/1618:45:25INFOmapreduce.Job:Jobjob_1435680786374_0060failedwithstateFAILEDdueto:Applicationapplication_1435680786374_0060failed2timesduetoAMContainerforappattempt_143568

MapReduce staging hadoop apache java hive hadoop-yarn oozie

hadoop - 无法访问 YARN 作业历史记录

我正在使用从源代码构建的最新hadoop版本3.0.0。我已启动并运行我的时间线服务，并且已配置hadoop以将其用于作业历史记录。但是，当我在resoucemanagerUI中单击历史记录时，出现以下错误:-HTTPERROR404Problemaccessing/jobhistory/job/job_1444395439959_0001.Reason:NOT_FOUND有人可以指出我在这里遗漏了什么吗？以下是我的yarn-site.xml:-ThehostnameoftheTimelineservicewebapplication.yarn.timeline-service.hos

hadoop YARN gt lt property hadoop-yarn

hadoop - 如何更改 yarn 中的tmp目录

我已经编写了一个MR作业，并使用以下配置设置在本地模式下运行它mapred.local.dir=>fs.default.name=file:///mapred.job.tracker=local在Hadoop1.x上现在我正在使用Hadoop2.x和我正在使用相同配置设置运行的相同作业，但我收到错误:DiskOutofSpace是不是如果我从Hadoop1.x切换到2.x(使用Hadoop-2.6jar)，更改Tmp目录的相同配置设置不起作用？？在Hadoop2.6上配置MR1(mapredAPI)的“tmp”目录的新设置是什么。请多多指教。问候干杯:))

hadoop yarn strong section mapreduce hadoop-yarn

hadoop - yarn 时间轴服务器日志聚合

配置hadoop2.7.1以保留yarn作业更长时间已启用日志聚合和作业历史记录/时间线服务器，当资源管理器中的作业完成时，它会显示在作业历史记录服务器中(如果您提供正确的url)，但是作业历史记录服务器仅列出M/R工作，而不是yarn应用问题是作业在时间线服务器中不可见，实际上时间线服务器中没有作业显示当前的yarn-site.xml配置:yarn.timeline-service.hostnamehost1yarn.timeline-service.address${yarn.timeline-service.hostname}:10200yarn.timeline-service

hadoop yarn property gt lt hadoop-yarn timeline

hadoop - Spark + yarn : How to retain logs of lost-executors

使用配置有Yarn的Spark(在client模式下，虽然与问题关系不大)，我发现我的一些Executors失败。Executor是一个Yarn-Container，它的日志文件位于:/var/log/hadoop-yarn/containers/containerID。容器生成的一些(关键)事件/日志渗透到驱动程序，但不是全部。据观察，当一个Executor失败时，它的logfile会在它死后立即被清除。有什么方法可以防止这些日志因调试目的而被删除吗？最佳答案既然，你的yarn上有Spark，我希望这有助于收集所有日志yarn

lost-executors executors code section yarn hadoop logging apache-spark hadoop-yarn