草庐IT

Hadoop/Yarn (v0.23.3) 伪分布式模式设置::无作业节点

coder 2024-01-09 原文

我刚刚在伪分布式模式下设置了 Hadoop/Yarn 2.x(特别是 v0.23.3)。

我遵循了一些博客和网站的说明,它们或多或少提供了 设置它的相同处方。我也关注了 O'reilly 的第 3 版 Hadoop 书(具有讽刺意味的是,它是最没有帮助的)。

问题:

After running "start-dfs.sh" and then "start-yarn.sh", while all of the daemons
do start (as indicated by jps(1)), the Resource Manager web portal
(Here: http://localhost:8088/cluster/nodes) indicates 0 (zero) job-nodes in the
cluster. So while submitting the example/test Hadoop job indeed does get
scheduled, it pends forever because, I assume, the configuration doesn't see a
node to run it on.

Below are the steps I performed, including resultant configuration files.
Hopefully the community help me out... (And thank you in advance).

配置:

在我和 hadoop 的 UNIX 帐户配置文件中都设置了以下环境变量:~/.profile:

export HADOOP_HOME=/home/myself/APPS.d/APACHE_HADOOP.d/latest
  # Note: /home/myself/APPS.d/APACHE_HADOOP.d/latest -> hadoop-0.23.3

export HADOOP_COMMON_HOME=${HADOOP_HOME}
export HADOOP_INSTALL=${HADOOP_HOME}
export HADOOP_CLASSPATH=${HADOOP_HOME}/lib
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop/conf
export HADOOP_MAPRED_HOME=${HADOOP_HOME}
export YARN_HOME=${HADOOP_HOME}
export YARN_CONF_DIR=${HADOOP_HOME}/etc/hadoop/conf
export JAVA_HOME=/usr/lib/jvm/jre

hadoop$ java -version

java version "1.7.0_06-icedtea<br>
OpenJDK Runtime Environment (fedora-2.3.1.fc17.2-x86_64)<br>
OpenJDK 64-Bit Server VM (build 23.2-b09, mixed mode)<br>

# Although the above shows OpenJDK, the same problem happens with Sun's JRE/JDK.

NAMENODE 和 DATANODE 目录,也在 etc/hadoop/conf/hdfs-site.xml 中指定:

/home/myself/APPS.d/APACHE_HADOOP.d/latest/YARN_DATA.d/HDFS.d/DATANODE.d/
/home/myself/APPS.d/APACHE_HADOOP.d/latest/YARN_DATA.d/HDFS.d/NAMENODE.d/

接下来,各种 XML 配置文件(这里还是 YARN/MRv2/v0.23.3):

hadoop$ pwd; ls -l
/home/myself/APPS.d/APACHE_HADOOP.d/latest/etc/hadoop/conf
lrwxrwxrwx 1 hadoop hadoop   16 Sep 20 13:14 core-site.xml -> ../core-site.xml
lrwxrwxrwx 1 hadoop hadoop   16 Sep 20 13:14 hdfs-site.xml -> ../hdfs-site.xml
lrwxrwxrwx 1 hadoop hadoop   18 Sep 20 13:14 httpfs-site.xml -> ../httpfs-site.xml
lrwxrwxrwx 1 hadoop hadoop   18 Sep 20 13:14 mapred-site.xml -> ../mapred-site.xml
-rw-rw-r-- 1 hadoop hadoop   10 Sep 20 15:36 slaves
lrwxrwxrwx 1 hadoop hadoop   16 Sep 20 13:14 yarn-site.xml -> ../yarn-site.xml

核心站点.xml

<?xml version="1.0"?>
<!-- core-site.xml -->
<configuration>
  <property>
    <name>fs.default.name</name>
    <value>hdfs://localhost/</value>
  </property>
</configuration>

mapred-site.xml

<?xml version="1.0"?>
<!-- mapred-site.xml -->
<configuration>

  <!-- Same problem whether this (legacy) stanza is included or not.  -->
  <property>
    <name>mapred.job.tracker</name>
    <value>localhost:8021</value>
  </property>

  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

hdfs-site.xml

<!-- hdfs-site.xml -->
<configuration>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>file:/home/myself/APPS.d/APACHE_HADOOP.d/YARN_DATA.d/HDFS.d/NAMENODE.d</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>file:/home/myself/APPS.d/APACHE_HADOOP.d/YARN_DATA.d/HDFS.d/DATANODE.d</value>
  </property>
</configuration>

yarn-site.xml

<?xml version="1.0"?>
<!-- yarn-site.xml -->
<configuration>
  <property>
    <name>yarn.resourcemanager.address</name>
    <value>localhost:8032</value>
  </property>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce.shuffle</value>
  </property>
  <property>
    <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
  </property>
  <property>
    <name>yarn.nodemanager.resource.memory-mb</name>
    <value>4096</value>
  </property>
  <property>
    <name>yarn.nodemanager.local-dirs</name>
    <value>/home/myself/APPS.d/APACHE_HADOOP.d/YARN_DATA.d/TEMP.d</value>
  </property>
</configuration>

etc/hadoop/conf/saves

localhost
   # Community/friends, is this entry correct/needed for my psuedo-dist mode?

杂项总结说明:

(1) As you may have gleaned from above, all files/directories are owned
    by the 'hadoop' UNIX user. There is a hadoop:hadoop, UNIX User and
    Group, respectively.

(2) The following command was run after the NAMENODE & DATANODE directories
    (listed above) were created (and whose paths were entered into
    hdfs-site.xml):

    hadoop$ hadoop namenode -format

(3) Next, I ran "start-dfs.sh", then "start-yarn.sh".
    Here is jps(1) output:

hadoop@e6510$ jps
    21979 DataNode
    22253 ResourceManager
    22384 NodeManager
    22156 SecondaryNameNode
    21829 NameNode
    22742 Jps

谢谢!

最佳答案

在这个问题上付出了很多努力但没有成功(相信我,我尝试了所有方法)之后,我制定了 hadoop 使用不同的解决方案。而在上面我下载了一个 gzip/tar ball 来自其中一个下载镜像的 hadoop 发行版(同样是 v0.23.3),这个 一次我使用 Caldera CDH 分发的 RPM 包,我通过 他们的百胜 repo 协议(protocol)。希望这对某人有所帮助,这里是详细步骤。

第一步:

对于 Hadoop 0.20.x(MapReduce 版本 1):

  # rpm -Uvh http://archive.cloudera.com/redhat/6/x86_64/cdh/cdh3-repository-1.0-1.noarch.rpm
  # rpm --import http://archive.cloudera.com/redhat/6/x86_64/cdh/RPM-GPG-KEY-cloudera
  # yum install hadoop-0.20-conf-pseudo

-或-

对于 Hadoop 0.23.x(MapReduce 版本 2):

  # rpm -Uvh http://archive.cloudera.com/cdh4/one-click-install/redhat/6/x86_64/cloudera-cdh-4-0.noarch.rpm
  # rpm --import http://archive.cloudera.com/cdh4/redhat/6/x86_64/cdh/RPM-GPG-KEY-cloudera
  # yum install hadoop-conf-pseudo

在上述两种情况下,安装那个“psuedo”包(代表“pseudo-distributed Hadoop”模式),将单独方便地触发安装您需要的所有其他必要包(通过依赖关系解析)。

第二步:

安装 Sun/Oracle 的 Java JRE(如果您尚未安装)。你可以 通过他们提供的 RPM 或 gzip/tar ball portable 安装它 版本。只要您设置并导出“JAVA_HOME”就没关系 适当的环境,并确保 ${JAVA_HOME}/bin/java 在您的路径中。

  # echo $JAVA_HOME; which java
  /home/myself/APPS.d/JAVA-JRE.d/jdk1.7.0_07
  /home/myself/APPS.d/JAVA-JRE.d/jdk1.7.0_07/bin/java

注意:我实际上创建了一个名为“latest”的符号链接(symbolic link)并将其指向/重新指向 JAVA 每当我更新 JAVA 时,版本特定目录。我在上面明确表示 读者的理解。

第 3 步:将 hdfs 格式化为“hdfs”Unix 用户(在上面的“yum install”期间创建)。

  # sudo su hdfs -c "hadoop namenode -format"

第四步:

手动启动 hadoop 守护进程。

  for file in `ls /etc/init.d/hadoop*`
  do
  {
     ${file} start
  }
  done

第五步:

检查是否一切正常。以下是 MapReduce v1 (在这个表面层面上,MapReduce v2 并没有太大的不同)。

  root# jps
   23104 DataNode
   23469 TaskTracker
   23361 SecondaryNameNode
   23187 JobTracker
   23267 NameNode
   24754 Jps

   # Do the next commands as yourself (not as "root").
   myself$ hadoop fs -mkdir /foo
   myself$ hadoop fs -rmr /foo
   myself$ hadoop jar /usr/lib/hadoop-0.20/hadoop-0.20.2-cdh3u5-examples.jar pi 2 100000

希望对您有所帮助!

关于Hadoop/Yarn (v0.23.3) 伪分布式模式设置::无作业节点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12522412/

有关Hadoop/Yarn (v0.23.3) 伪分布式模式设置::无作业节点的更多相关文章

  1. ruby-on-rails - Rails - 子类化模型的设计模式是什么? - 2

    我有一个模型:classItem项目有一个属性“商店”基于存储的值,我希望Item对象对特定方法具有不同的行为。Rails中是否有针对此的通用设计模式?如果方法中没有大的if-else语句,这是如何干净利落地完成的? 最佳答案 通常通过Single-TableInheritance. 关于ruby-on-rails-Rails-子类化模型的设计模式是什么?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.co

  2. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  3. ruby - 如何在续集中重新加载表模式? - 2

    鉴于我有以下迁移:Sequel.migrationdoupdoalter_table:usersdoadd_column:is_admin,:default=>falseend#SequelrunsaDESCRIBEtablestatement,whenthemodelisloaded.#Atthispoint,itdoesnotknowthatusershaveais_adminflag.#Soitfails.@user=User.find(:email=>"admin@fancy-startup.example")@user.is_admin=true@user.save!ende

  4. ruby - 是否有用于序列化和反序列化各种格式的对象层次结构的模式? - 2

    给定一个复杂的对象层次结构,幸运的是它不包含循环引用,我如何实现支持各种格式的序列化?我不是来讨论实际实现的。相反,我正在寻找可能会派上用场的设计模式提示。更准确地说:我正在使用Ruby,我想解析XML和JSON数据以构建复杂的对象层次结构。此外,应该可以将该层次结构序列化为JSON、XML和可能的HTML。我可以为此使用Builder模式吗?在任何提到的情况下,我都有某种结构化数据-无论是在内存中还是文本中-我想用它来构建其他东西。我认为将序列化逻辑与实际业务逻辑分开会很好,这样我以后就可以轻松支持多种XML格式。 最佳答案 我最

  5. ruby - 分布式事务和队列,ruby,erlang,scala - 2

    我有一个涉及多台机器、消息队列和事务的问题。因此,例如用户点击网页,点击将消息发送到另一台机器,该机器将付款添加到用户的帐户。每秒可能有数千次点击。事务的所有方面都应该是容错的。我以前从未遇到过这样的事情,但一些阅读表明这是一个众所周知的问题。所以我的问题。我假设安全的方法是使用两阶段提交,但协议(protocol)是阻塞的,所以我不会获得所需的性能,我是否正确?我通常写Ruby,但似乎Redis之类的数据库和Rescue、RabbitMQ等消息队列系统对我的帮助不大——即使我实现某种两阶段提交,如果Redis崩溃,数据也会丢失,因为它本质上只是内存。所有这些让我开始关注erlang和

  6. hadoop安装之保姆级教程(二)之YARN的配置 - 2

    1.1.1 YARN的介绍 为克服Hadoop1.0中HDFS和MapReduce存在的各种问题⽽提出的,针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜,提出了全新的资源管理框架YARN. ApacheYARN(YetanotherResourceNegotiator的缩写)是Hadoop集群的资源管理系统,负责为计算程序提供服务器计算资源,相当于⼀个分布式的操作系统平台,⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。 YARN被引⼊Hadoop2,最初是为了改善MapReduce的实现,但是因为具有⾜够的通⽤性,同样可以⽀持其他的分布式计算模

  7. ruby-on-rails - environment.rb 中设置的常量在开发模式中消失 - 2

    了解Rails缓存如何工作的人可以真正帮助我。这是嵌套在Rails::Initializer.runblock中的代码:config.after_initializedoSomeClass.const_set'SOME_CONST','SOME_VAL'end现在,如果我运行script/server并发出请求,一切都很好。然而,在我的Rails应用程序的第二个请求中,一切都因单元化常量错误而变得糟糕。在生产模式下,我可以成功发出第二个请求,这意味着常量仍然存在。我已通过将以上内容更改为以下内容来解决问题:config.after_initializedorequire'some_cl

  8. ruby-on-rails - 在所有延迟的作业之前 Hook - 2

    是否可以在所有delayed_job任务之前运行一个方法?基本上,我们试图确保每个运行delayed_job的服务器都有我们代码的最新实例,所以我们想运行一个方法来在每个作业运行之前检查它。(我们已经有了“check”方法并在别处使用它。问题只是关于如何从delayed_job中调用它。) 最佳答案 现在有一种官方方法可以通过插件来做到这一点。这篇博文通过示例清楚地描述了如何执行此操作http://www.salsify.com/blog/delayed-jobs-callbacks-and-hooks-in-rails(本文中描述

  9. Ruby:标准递归模式 - 2

    我经常迷上ruby​​的一件事是递归模式。例如,假设我有一个数组,它可能包含无限深度的数组作为元素。所以,例如:my_array=[1,[2,3,[4,5,[6,7]]]]我想创建一个方法,可以将数组展平为[1,2,3,4,5,6,7]。我知道.flatten可以完成这项工作,但这个问题是作为我经常遇到的递归问题的一个例子-因此我试图找到一个更可重用的解决方案。简而言之-我猜这种事情有一个标准模式,但我想不出任何特别优雅的东西。任何想法表示赞赏 最佳答案 递归是一种方法,它不依赖于语言。您在编写算法时要考虑两种情况:再次调用函数的情

  10. ruby - 在 Ruby 中查找多个正则表达式匹配的模式和位置 - 2

    这应该是一个简单的问题,但我找不到任何相关信息。给定一个Ruby中的正则表达式,对于每个匹配项,我需要检索匹配的模式$1、$2,但我还需要匹配位置。我知道=~运算符为我提供了第一个匹配项的位置,而string.scan(/regex/)为我提供了所有匹配模式。如果可能,我需要在同一步骤中获得两个结果。 最佳答案 MatchDatastring.scan(regex)do$1#Patternatfirstposition$2#Patternatsecondposition$~.offset(1)#Startingandendingpo

随机推荐