YARN-Cgroups_草庐IT

hadoop - Apache Hadoop Windows 10 - Datanode、Resource Manager 和 Yarn 在启动时立即关闭

我已经按照教程为Windows设置了ApacheHadoop，可以找到here.我现在遇到Datanode、ResourceManager和Yarncmd窗口的问题，显示打开后所有3秒都关闭，只有Namenode继续运行。这是我到目前为止尝试过的过程:以管理员身份运行CMD使用命令start-all.cmd(这会打开Namenode、Datanode、Yarn和Resourcemanagercmd窗口)Datanode、Yarn和Resourcemanager几乎都在启动后立即给出关闭消息SHUTDOWN_MSG:正在thood-alienware/...关闭ResourceManag

apache-spark - Pyspark 在 yarn 集群模式下将文件写入本地

我正在尝试运行我的pyspark代码。我的目标目录是本地目录。我提交spark-submit命令的用户是super用户，拥有从hdfs读取文件并将文件写入本地的所有权限。作业正在运行，没有任何错误，但没有创建输出目录或文件。我在我的spark代码中将HADOOP_USER_NAME设置为super用户以避免权限问题。谁能帮忙最佳答案如果您在YARN集群模式下运行，那么YARNApplicationMaster实际上是在一个节点上运行，因此将在节点本地写出。如果你找到它是哪个节点，那么你应该在那里找到你的输出目录和文件。

apache-spark Pyspark section stackoverflow spark hadoop hadoop-yarn

hadoop - yarn hadoop 2.4.0 : info message: ipc. 客户端重试连接到服务器

我已经搜索了两天的解决方案。但没有任何效果。首先，我是整个hadoop/yarn/hdfs主题的新手，想配置一个小型集群。每次运行mapreduce-examples.jar中的示例时，上面的消息都不会出现有时teragen有效，有时无效。在某些情况下整个工作失败，在其他情况下工作成功完成。有时作业会失败，而不会打印上面的消息。14/06/0815:42:46INFOipc.Client:Retryingconnecttoserver:FQDN-HOSTNAME/XXX.XX.XX.XXX:53022.Alreadytried2time(s);retrypolicyisRetryUpT

hadoop message gt lt property mapreduce ipc hadoop-yarn

hadoop - 如何在 Hadoop 2 + YARN 中计算并发#mappers 和#reducers？

我搜索了一段时间，发现使用hadoop2+yarn的MapReduce集群每个节点具有以下数量的并发映射和减少:并发映射#=yarn.nodemanager.resource.memory-mb/mapreduce.map.memory.mb并发减少#=yarn.nodemanager.resource.memory-mb/mapreduce.reduce.memory.mb但是，我设置了一个包含10台机器的集群，配置如下:'yarn_site'=>{'yarn.nodemanager.resource.cpu-vcores'=>'32','yarn.nodemanager.resou

中计何在 39 section nodemanager hadoop hadoop-yarn hadoop2

hadoop - 在 YARN 集群的特定节点上运行我自己的 application master

首先，我使用的是Hadoop-2.6.0。我想在YARN集群中的特定节点上启动我自己的appmaster，以便在预定的IP地址和端口上打开服务器。为此，我编写了一个驱动程序，在其中创建了一个ResourceRequest对象并调用了setResourceName方法来设置主机名，并将其附加到ApplicationSubmissionContext对象通过调用setAMContainerResourceRequest方法。我尝试了几次，但无法在特定节点上启动AppMaster。搜索代码后，我发现RMAppAttemptImpl使我在ResourceRequest中设置的内容无效，如下所示

application hadoop strong ResourceRequest containers hadoop-yarn

hadoop - 使用大内存映射文件时 yarn 容器内存不足

我正在使用hadoop2.4。reducer使用几个大内存映射文件(总共约8G)。reducer本身使用的内存非常少。据我所知，内存映射文件(FileChannel.map(readonly))也使用很少的内存(由OS而不是JVM管理)。我遇到了这个错误:Container[pid=26783,containerID=container_1389136889967_0009_01_000002]isrunningbeyondphysicalmemorylimits.Currentusage:4.2GBof4GBphysicalmemoryused;5.2GBof8.4GBvirtual

大内容器 code mapreduce section hadoop hadoop-yarn memory-mapped-files

hadoop - 使用 Apache Spark 的 YARN 压缩编解码器

我在YARN上运行ApacheSpark(1.3.0)。YARN_CONF_DIR指向YARN配置。core-site.xml从该目录加载。它包括io.compression.codecs的设置，此列表包括com.hadoop.compression.lzo.LzoCodec，它不包含在预构建的Spark中。这会在启动时导致ClassNotFoundException。作为解决方法，我们可以使用修改后的core-site.xml运行，或者我们可以使用--jars包含所需的Jar文件。这些解决方法都不是很可靠。我不是YARN集群的管理员。集群管理员可以在我不知情的情况下对core-sit

hadoop Apache code section YARN apache-spark

java - 以编程方式向 yarn 提交 spark 应用程序

我觉得能够以编程方式向yarn提交spark应用程序正在成为一个非常普遍的需求。但是在apachespark文档中没有关于它的引用。是否有可能，如果有，是否有直接的方法来实现它。请指教。最佳答案正确的做法是将您的驱动程序应用程序变成一个RPC服务器。这样，您只启动一个SparkContext。您传入的RPC请求全部重新使用您现有的SparkContext。我相信文档顺便提到了这个策略，但除此之外这确实超出了Spark文档的范围。我最近使用http4s做了这个，一个可嵌入的功能性HTTP服务器。这是微不足道的。但是选择您选择的RP

spark java section stackoverflow SparkContext scala hadoop apache-spark hadoop-yarn

java - YARN 上可用的物理内核数和 VCores 之间的关系？

我是yarn的新手，我正在用Java编写一个YARN应用程序。根据要求，我只能在一台机器上使用N个物理内核。YARN允许设置我想分配给我的应用程序的VCore数和内存。是否可以确定给定N个物理核心的VCore数量？例如。如果我有32个物理内核，而我只想使用8个物理内核，那么我的应用程序的VCore数应该是多少？最佳答案使用8Inalmostallcases,anode’svirtualcorecapacityshouldbesetasthenumberofphysicalcoresonthemachine.http://blog

VCores java section strong managing-multiple-resources-in-ha hadoop hadoop-yarn hadoop2 cloudera-cdh

hadoop - MapReduce 作业作为用户在/user/yarn/.staging 目录上获得权限错误运行

我有一个运行Hive操作的Oozie工作流。配置单元操作非常简单，它只是从一个表中读取副本到另一个表。该作业具有以下属性:user.name=yarnmapreduce.job.user.name=cloudfeeds作业失败并出现以下错误:15/07/1618:45:25INFOmapreduce.Job:Jobjob_1435680786374_0060failedwithstateFAILEDdueto:Applicationapplication_1435680786374_0060failed2timesduetoAMContainerforappattempt_143568

MapReduce staging hadoop apache java hive hadoop-yarn oozie