草庐IT

namenodes

全部标签

hadoop - Namenode重启后如何重构全 block 信息?

我试图理解Namenode,我引用了在线资料并引用了Hadoop:权威指南一书。我知道Namenode有这样的概念:“编辑日志”、“fsimage”,我可以在我的Namenode中看到以下文件。======================================================================-rw-rw-r--1vevaan24vevaan241048576Nov2322:53edits_0000000000000000001-0000000000000000001-rw-r--r--1rootroot1048576Nov2323:42edit

hadoop - HDFS文件系统需要格式化datanode还是只需要格式化namenode

在搭建伪集群或全集群时,是否需要格式化datanode来安装HDFS文件系统,还是只需要格式化namenode。我问这个是因为,我在很多博客上读到过,HDFS在硬盘上按顺序存储数据,它是一个抽象层,将数据存储在大块上,而不是默认block大小存储提供的主机文件系统。如果我们不格式化datanode,HDFS的强大功能就来折腾了。 最佳答案 格式化和挂载硬盘驱动器与格式化HDFS没有直接关系。从概念上讲,“格式化”的想法是相同的。但这两个任务是完全独立的,没有直接关系。hadoopformat命令不会格式化或挂载硬盘。硬盘驱动器应该已

java - 在 Hadoop 中启动 namenode 时出错

当我尝试格式化名称节点甚至启动它时,出现以下错误。应该怎么办??$bin/hadoopnamenode-formatExceptioninthread"main"java.lang.NoClassDefFoundError:Causedby:java.lang.ClassNotFoundException:atjava.net.URLClassLoader$1.run(URLClassLoader.java:200)atjava.security.AccessController.doPrivileged(NativeMethod)atjava.net.URLClassLoader.f

linux - Hadoop:每个namenode和datanode只存在一瞬间

使用CentOs5.4三台虚拟机(使用vmwareworkstation):ma​​ster,slave1,slave2。ma​​ster用于namenode,slave1slave2用于datanode。Hadoop版本是hadoop-0.20.1.tar.gz,我已经配置好所有相关文件,并用root用户关闭防火墙使用命令:/sbin/serviceiptables停止。然后尝试在ma​​ster(namenode)虚拟机中格式化namenode并启动hadoop,命令如下,没有报错。bin/hadoopnamenode-formatbin/start-all.sh然后我现在在ma​

Hadoop - HDFS Namenode 元数据 - FSImage

我知道在主节点中我们有名称节点,它在两个文件中维护一个元数据。一个是FSImage,另一个是Editlogs。所以这个FSImage最初是在hadoop系统启动时加载的,这个FSImage包含了集群的目录结构和存储的数据。然后,对于发生的每个事务,都会更新编辑日志文件。我的问题如下:这些只是包含所有信息(FSImage和EditLogs)的文件还是还有更多?这是否意味着FSImage文件只会被写入一次?如果是,那为什么它总是被复制到二级名称节点?这不是增加了一个待完成的任务吗?假设我在hdfs中添加或删除了一个新文件;那么这个FSImage不会被更新吗? 最

hadoop - 我应该在集群的所有数据节点上运行 `hdfs namenode -format` 吗?

我正在设置Hadoop集群。据我了解,至少有两名worker的集群的最低设置是4台机器:名称节点资源经理数据节点1数据节点2我对hdfsnamenode-format命令感到困惑,看起来它只用于格式化名称节点,但它的描述(当运行一个空的hdfs命令时)声明“格式化DFS文件系统”。这是否意味着我也应该在所有数据节点上作为安装的一部分运行该命令,还是应该只在名称节点上运行? 最佳答案 您只需格式化一次。它告诉NameNode做一个格式化,这主要是一个元数据操作。您不一定需要在NameNode实际驻留的节点上执行此操作。应该可以从任何地

hadoop - DataNode 无法与 NameNode 通信

设置一个包含3个节点的Hadoop集群。其中一个同时具有NameNode和DataNode角色,而另外两个只是DataNode。我启动了所有节点和服务,但总的来说,它显示只有一个DataNode的状态是事件的。其他节点的状态甚至没有显示。我的问题是开始和上线有什么区别?为什么其他节点根本没有状态?我猜问题是数据节点无法与名称节点通信。所以Azwaw指出,我检查了/etc/hosts文件。是这样的:127.0.0.1nnode.domainnnodelocalhost4localhost4.localdomain4::1localhostlocalhost.localdomainloca

apache - 密码保护端口 50070 上的 Hadoop NameNode Web UI

Hadoop的NameNode在端口50070(http://localhost:50070)上有一个WebUI,它始终可以通过浏览器访问。我想通过.htaccess或httpd.conf通过基本身份验证密码保护整个目录。然而,到目前为止,我所有的努力都是徒劳的。这是我尝试过的示例:DocumentRoot/usr/hdp/2.2.0.0-2041/hadoop-hdfs/webapps/hdfsAuthUserFilepath_to_passwords_fileAuthName"PasswordProtected"AuthTypeBasicRequireuserusername或Op

hadoop - yarn : Do we need nodemanager on namenode?

我们是否需要在名称节点节点上启动节点管理器,即我不会将其设为数据节点?我将在一台机器上启动namenode和resourcemanager。由于我不会在这台机器上启动datanode,我想我也不需要启动nodemanager?感谢 最佳答案 这取决于你。您可以选择在未安装Datanode服务的节点上保留Nodemanager,在这种情况下,如果由该Nodemanager执行,数据将通过网络传输以执行任务。但是如果你想减少主节点的负载,那么你应该避免在它上面安装如此繁重的进程(Datanode和NodeManager)。在许多情况下,

scala - 是否可以在 Namenode 上执行任务?

我将Spark与HDFS和yarn结合使用,所以基本上spark在hadoop上运行。我使用yarn-client模式在集群上运行任务。默认情况下,任务在集群的数据节点上执行。但是,我也希望namenode执行一些任务,因为它一直处于空闲状态。那么,是否也可以让名称节点执行一些任务?如果是,怎么办? 最佳答案 更具体地说,Spark任务不在数据节点上运行。当在Hadoop上运行Spark时,任务在Nodemanagers上执行,Nodemanagers是Hadoop/Yarn集群上每个从属节点上运行的hadoop/yarn集群中的执