草庐IT

YARN-Cgroups

全部标签

hadoop - Apache Hadoop Windows 10 - Datanode、Resource Manager 和 Yarn 在启动时立即关闭

我已经按照教程为Windows设置了ApacheHadoop,可以找到here.我现在遇到Datanode、ResourceManager和Yarncmd窗口的问题,显示打开后所有3秒都关闭,只有Namenode继续运行。这是我到目前为止尝试过的过程:以管理员身份运行CMD使用命令start-all.cmd(这会打开Namenode、Datanode、Yarn和Resourcemanagercmd窗口)Datanode、Yarn和Resourcemanager几乎都在启动后立即给出关闭消息SHUTDOWN_MSG:正在thood-alienware/...关闭ResourceManag

apache-spark - Pyspark 在 yarn 集群模式下将文件写入本地

我正在尝试运行我的pyspark代码。我的目标目录是本地目录。我提交spark-submit命令的用户是super用户,拥有从hdfs读取文件并将文件写入本地的所有权限。作业正在运行,没有任何错误,但没有创建输出目录或文件。我在我的spark代码中将HADOOP_USER_NAME设置为super用户以避免权限问题。谁能帮忙 最佳答案 如果您在YARN集群模式下运行,那么YARNApplicationMaster实际上是在一个节点上运行,因此将在节点本地写出。如果你找到它是哪个节点,那么你应该在那里找到你的输出目录和文件。

hadoop - yarn hadoop 2.4.0 : info message: ipc. 客户端重试连接到服务器

我已经搜索了两天的解决方案。但没有任何效果。首先,我是整个hadoop/yarn/hdfs主题的新手,想配置一个小型集群。每次运行mapreduce-examples.jar中的示例时,上面的消息都不会出现有时teragen有效,有时无效。在某些情况下整个工作失败,在其他情况下工作成功完成。有时作业会失败,而不会打印上面的消息。14/06/0815:42:46INFOipc.Client:Retryingconnecttoserver:FQDN-HOSTNAME/XXX.XX.XX.XXX:53022.Alreadytried2time(s);retrypolicyisRetryUpT

hadoop - 如何在 Hadoop 2 + YARN 中计算并发#mappers 和#reducers?

我搜索了一段时间,发现使用hadoop2+yarn的MapReduce集群每个节点具有以下数量的并发映射和减少:并发映射#=yarn.nodemanager.resource.memory-mb/mapreduce.map.memory.mb并发减少#=yarn.nodemanager.resource.memory-mb/mapreduce.reduce.memory.mb但是,我设置了一个包含10台机器的集群,配置如下:'yarn_site'=>{'yarn.nodemanager.resource.cpu-vcores'=>'32','yarn.nodemanager.resou

hadoop - 在 YARN 集群的特定节点上运行我自己的 application master

首先,我使用的是Hadoop-2.6.0。我想在YARN集群中的特定节点上启动我自己的appmaster,以便在预定的IP地址和端口上打开服务器。为此,我编写了一个驱动程序,在其中创建了一个ResourceRequest对象并调用了setResourceName方法来设置主机名,并将其附加到ApplicationSubmissionContext对象通过调用setAMContainerResourceRequest方法。我尝试了几次,但无法在特定节点上启动AppMaster。搜索代码后,我发现RMAppAttemptImpl使我在ResourceRequest中设置的内容无效,如下所示

hadoop - 使用大内存映射文件时 yarn 容器内存不足

我正在使用hadoop2.4。reducer使用几个大内存映射文件(总共约8G)。reducer本身使用的内存非常少。据我所知,内存映射文件(FileChannel.map(readonly))也使用很少的内存(由OS而不是JVM管理)。我遇到了这个错误:Container[pid=26783,containerID=container_1389136889967_0009_01_000002]isrunningbeyondphysicalmemorylimits.Currentusage:4.2GBof4GBphysicalmemoryused;5.2GBof8.4GBvirtual

hadoop - 使用 Apache Spark 的 YARN 压缩编解码器

我在YARN上运行ApacheSpark(1.3.0)。YARN_CONF_DIR指向YARN配置。core-site.xml从该目录加载。它包括io.compression.codecs的设置,此列表包括com.hadoop.compression.lzo.LzoCodec,它不包含在预构建的Spark中。这会在启动时导致ClassNotFoundException。作为解决方法,我们可以使用修改后的core-site.xml运行,或者我们可以使用--jars包含所需的Jar文件。这些解决方法都不是很可靠。我不是YARN集群的管理员。集群管理员可以在我不知情的情况下对core-sit

java - 以编程方式向 yarn 提交 spark 应用程序

我觉得能够以编程方式向yarn提交spark应用程序正在成为一个非常普遍的需求。但是在apachespark文档中没有关于它的引用。是否有可能,如果有,是否有直接的方法来实现它。请指教。 最佳答案 正确的做法是将您的驱动程序应用程序变成一个RPC服务器。这样,您只启动一个SparkContext。您传入的RPC请求全部重新使用您现有的SparkContext。我相信文档顺便提到了这个策略,但除此之外这确实超出了Spark文档的范围。我最近使用http4s做了这个,一个可嵌入的功能性HTTP服务器。这是微不足道的。但是选择您选择的RP

java - YARN 上可用的物理内核数和 VCores 之间的关系?

我是yarn的新手,我正在用Java编写一个YARN应用程序。根据要求,我只能在一台机器上使用N个物理内核。YARN允许设置我想分配给我的应用程序的VCore数和内存。是否可以确定给定N个物理核心的VCore数量?例如。如果我有32个物理内核,而我只想使用8个物理内核,那么我的应用程序的VCore数应该是多少? 最佳答案 使用8Inalmostallcases,anode’svirtualcorecapacityshouldbesetasthenumberofphysicalcoresonthemachine.http://blog

hadoop - MapReduce 作业作为用户在/user/yarn/.staging 目录上获得权限错误运行

我有一个运行Hive操作的Oozie工作流。配置单元操作非常简单,它只是从一个表中读取副本到另一个表。该作业具有以下属性:user.name=yarnmapreduce.job.user.name=cloudfeeds作业失败并出现以下错误:15/07/1618:45:25INFOmapreduce.Job:Jobjob_1435680786374_0060failedwithstateFAILEDdueto:Applicationapplication_1435680786374_0060failed2timesduetoAMContainerforappattempt_143568