YARN-Cgroups_草庐IT

java - namenode 没有提供 hadoop YARN

我在ubuntu上使用hadoopYARN。我已经在/usr/local目录中设置了hadoop目录(以及数据节点和名称节点目录)。每当我运行start-dfs.sh时，namenode都不会出现-屏幕输出中的消息提示缺少bin/hdfs文件，即使该文件存在(具有读/写访问权限)。我已经使用Hadoop环境变量设置了bashrc(复制在下面)。有什么想法可能是错误的吗？#HADOOPVARIABLESSTARTexportJAVA_HOME=/usr/lib/jvm/java-8-oracleexportHADOOP_INSTALL=/usr/local/hadoop/hadoop-2

java - 使用 Java 客户端在 Apache YARN 上运行 MapReduce 应用程序

这个问题在这里已经有了答案:Callingamapreducejobfromasimplejavaprogram(6个答案)关闭8年前。我想使用Java客户端代码在YARN集群上运行MapReduce应用程序。例如，我想使用JavaAPI将驻留在hadoop-examples.jar文件中的WordCount提交到由16台机器组成的YARN集群。我试着关注thistutorial，但我没有得到什么是应用程序主jar。它与hadoop-examples.jar一样吗？或者另一个jar包含ApplicationMaster逻辑？如果您有从a到z的Java客户端代码示例将MapReduce应

MapReduce Apache section hadoop notice java hadoop-yarn hadoop2

hadoop - Spark over Yarn - 不正确的 Application Master 选择

我正在尝试使用以下命令在Yarn上使用Spark触发一些作业(这只是一个示例，实际上我使用的是不同数量的内存和内核):./bin/spark-submit--classorg.mypack.myapp\--masteryarn-cluster\--num-executors3\--driver-memory4g\--executor-memory2g\--executor-cores1\lib/myapp.jar\当我查看WebUI以查看幕后真正发生的事情时，我注意到YARN正在选择一个不是SparkMaster的节点作为ApplicationMaster。这是一个问题，因为真正的Sp

不正 Application Spark Master section hadoop apache-spark hadoop-yarn

hadoop - 即使节点有可用内存，Yarn 作业也会崩溃，退出代码为 143

我的maptask超时，退出代码为143，我认为这是内存问题。据我了解，根据我的设置，每个容器将接收3gb内存，其中2.5gb将分配给java堆。当我在yarnWebUI上检查内存可用性时，我看到MemUsed从未通过MemAvail但我的工作在600秒后超时。这会不会是因为我的工作使用了过多的Java堆并崩溃了？mapreduce.map.memory.mb3072mapreduce.map.java.opts-Xmx2560M 最佳答案你的映射器正在执行一些需要超过600秒的任务，节点管理器认为它已经死了，因此将它杀死。请在执

即使 hadoop section strong value memory-management mapreduce hadoop-yarn

java - Hadoop2- YARN - ApplicationMaster UI - 连接被拒绝问题

我在从RMWebUI(hadoop2.6.0)访问ApplicationMasterUI时遇到以下问题。没有运行独立的WebProxy服务器。Proxy作为ResourceManager的一部分运行。"HTTPERROR500Problemaccessing/proxy/application_1431357703844_0004/.Reason:Connectionrefused"资源管理器日志中的日志条目:2015-05-1119:25:01,837INFOwebproxy.WebAppProxyServlet(WebAppProxyServlet.java:doGet(330))

ApplicationMaster Hadoop2 slave1 slave http java hadoop hadoop-yarn

hadoop - 使用自定义 log4j 覆盖 Yarn 中的容器日志

我正在尝试使用自定义log4j.properties覆盖YARN容器日志格式，但我无法这样做。我试图覆盖hadoop-yarn-server-nodemanager.jar中的container-log4j.properties然后替换jar，但没有效果。我还尝试将我自己的container-log4j.properties文件放在/etc/hadoop/conf位置，以使其在类路径中覆盖。我正在使用HDP(Hortonworks)2.2发行版。基本上，我试图将socketappender放在container-log4j.properties中，以便分析Logstash中的容器日志。

自定容器 log4j log log4 hadoop mapreduce logstash hadoop-yarn

python - 无法通过远程在 YARN Hadoop 集群上启动 python 脚本

几周以来，我尝试通过远程访问或连接到YARN集群的pysparkshell来提交python脚本。我是HADOOP世界的新手。我想要的是在外部HADOOP集群上的本地shell中提交spark脚本。我的情况:外部hadoopYARN集群。可以访问重要端口。我有Windows764位/Python2.7.964位/Spark1.4.1。HADOOP集群运行没有任何问题。我的问题:在HADOOP集群上通过远程访问提交python脚本不起作用。如果我尝试spark-submit--masteryarn-cluster--num-executors2--driver-memory512m--e

python Hadoop section blockquote hadoop-yarn

hadoop - 在 YARN 中，容器大小是如何确定的？

在YARN应用中，ApplicationMaster如何决定容器的大小？我知道有一些参数控制最小内存分配、vcores比率等。但是应用程序主管如何理解它需要如此多的内存和如此多的CPU来完成特定作业-MapReduce/Spark？最佳答案首先让我用一两行解释YARN的工作原理，然后我们回答问题。因此，假设我们有100GB的YARN集群总内存和1GBminimum-allocation-mb，那么我们有100个最大容器。如果我们将最小分配设置为4GB，那么我们有25个最大容器。每个应用程序将获得它要求的内存，向上舍入到下一个容器

容器 hadoop allocation section hadoop-yarn

scala - YARN 模式下的 Spark 作业失败

我有一个用Scala编写的Spark程序，它从HDFS读取CSV文件，计算一个新列并将其保存为Parquet文件。我在YARN集群中运行该程序。但每次我尝试启动它时，执行程序都会在某个时候因此错误而失败。您能帮我找出可能导致此错误的原因吗？从执行器上登录16/10/2715:58:10WARNstorage.BlockManager:Puttingblockrdd_12_225failedduetoanexception16/10/2715:58:10WARNstorage.BlockManager:Blockrdd_12_225couldnotberemovedasitwasnotf

scala Spark apache hadoop apache-spark hdfs hadoop-yarn

hadoop - Spark 应用程序可以在独立模式下运行，但不能在 yarn 集群中运行

恩，大家好，一个困扰我很久的问题。我可以通过这个命令以独立模式运行我的spark应用spark-submit--masterspark://fuxiuyin-virtual-machine:7077test_app.py但是此应用程序无法通过此命令在yarn集群中运行spark-submit--masteryarntest_app.py我认为我的yarn簇很健康。jps的输出是$jps8289Worker14882NameNode15475ResourceManager8134Master15751NodeManager15063DataNode17212Jps15295Seconda

中运 hadoop 16 INFO spark apache-spark hadoop-yarn