草庐IT

datanode-namenode

全部标签

hadoop - Datanode之一磁盘卷故障

我的hadoop集群数据节点中的一个磁盘已变为只读。我不确定是什么导致了这个问题。从数据节点中删除该卷会导致数据丢失吗??如果我将面临数据丢失,该如何处理? 最佳答案 如果您的hadoop集群的复制因子大于1(默认情况下,多节点集群为3),则您的数据必须已复制到多个数据节点上。您可以在hdfs-site.xml中检查您的复制因子值(dfs.replication)。所以现在如果你从你的集群中删除这个只读数据节点并且你有一个大于1的复制因子,那么你将不会面临任何数据丢失。因为你的集群在其他datanode上会有对应的replica。为

hadoop - 如何确定 NameNode 在 Hadoop 集群上维护的元数据的大小?

我已经在hadoop集群上放置了100个文件。我想确定与这些文件对应的NameNode维护的元数据的大小。 最佳答案 我相信你说的metadata是datanode中存储的数据block的信息。所有这些细节都将保存在名称节点内存RAM中。Namenode消耗大约150字节用于block元数据存储和150字节用于文件元数据存储。因此,让我们假设您的集群block大小为128Mb,并且您的100个文件中的每个文件的大小都在100Mb左右。然后每个文件在namenode中消耗300字节的内存。名称节点将消耗300*100=30000字节的

java - Hadoop Jar 运行但没有输出。 Driver、mapper 和 reduce 在 namenode 中编译成功

我是Hadoop编程的新手,我已经通过在三节点集群上设置Hadoop2.7.1开始学习。我试过在Hadoop中运行开箱即用的helloworldjar,它运行良好并成功,但我在本地机器上编写了自己的驱动程序代码并将其捆绑到一个jar中并以这种方式执行但它失败了,没有错误消息。这是我的代码,这就是我所做的。WordCountMapper.javapackagemot.com.bin.test;importjava.io.IOException;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.LongWri

hadoop namenode 和 datanote 未启动

最后编辑我通过将许多不同的答案混合在一起来修复它。首先,我更改了以下权利:/usr/local/hadoop_store/hdfs/namenode/usr/local/hadoop_store/hdfs/datanode到777。然后我运行stop-all.sh并重新启动hadoop。这个问题应该关闭吗?我知道这以前用过,但提问者似乎使用的是更旧的版本。另外,没有一个答案对我有帮助。我在Ubuntu15.10上安装了hadoop2.7.0并完全按照以下教程操作:https://www.digitalocean.com/community/tutorials/how-to-instal

hadoop - 我们可以在 hdfs 文件系统中指定 DATANODE 的大小吗

在使用以下命令格式化DATANODE时:hdfsdfsdatanode-format是否可以指定HDFS的大小?我了解水平可扩展性会受到影响。 最佳答案 HDFS与附加到它的数据节点一样大...因此,通过添加更多硬件,您可以指定大小。它不像一个可以分区的磁盘(至少,不是一般意义上的为特定任务分配特定大小的磁盘)。 关于hadoop-我们可以在hdfs文件系统中指定DATANODE的大小吗,我们在StackOverflow上找到一个类似的问题: https://

hadoop - 如何为 Apache Hadoop NameNode 启用 GC 日志记录,同时防止日志文件覆盖和限制磁盘空间使用

我们最近决定在多个集群(具体版本各不相同)上为HadoopNameNode启用GC日志记录,以帮助调查与NameNode相关的内存和垃圾收集问题。我们希望集群中的所有NameNode(事件和备用或主要和次要)都这样做。我们还想避免两个我们知道可能会发生的问题:当NameNode因任何原因重启时覆盖日志文件日志使用过多的磁盘空间,导致磁盘被填满当为进程启动JavaGC日志记录时,它似乎会替换任何具有相同名称的文件的内容。这意味着除非您小心,否则您将丢失GC日志记录,也许在您更有可能需要它的时候。如果您让集群运行足够长的时间,日志文件将填满磁盘,除非进行管理。即使GC日志记录目前不是很多,

hadoop - 无法在 hadoop 中格式化 Namenode

当通过执行命令“bin/hadoopnamenode-format”格式化namenode时,我得到这个错误:hduser@ubuntu:~/hadoop/bin$./hadoopnamenode-format弃用:不推荐使用此脚本执行hdfs命令。而是使用hdfs命令。错误:无法找到或加载主类org.apache.hadoop.hdfs.server.namenode.NameNode 最佳答案 尝试删除所有hadoop临时数据rm-Rf/app/hadoop/tmp/*然后再尝试格式化

hadoop - 启动 hdfs namenode -format 时出错

我在启动时在远程服务器上安装hadoophdfs名称节点格式出现错误java.net.UnknownHostException:Web:Web:unknownerror我已经配置了所有需要的文件16/10/1414:28:38INFOnamenode.NameNode:STARTUP_MSG:/************************************************************STARTUP_MSG:StartingNameNodeSTARTUP_MSG:host=java.net.UnknownHostException:Web:Web:unkno

hadoop - 如何在 Hadoop 中的 Datanodes/Slavenodes 之间分发数据?

我在Hadoop中有一个由两台机器组成的多节点集群。第一台机器(配置的主机和从机)运行名称节点和数据节点,第二台机器(配置的从机)运行数据节点。我想在它们之间几乎平均地上传和分发数据?我有两种情况:首先:假设我有一个大小为500MB的文件file1,我使用以下方法上传到第一台机器:hadoopfs-putfile1hdfspath是分到两个数据节点还是只存储在第一台机器?何时分发:是在第一台机器超过block大小之后分发还是有其他标准。是否会为每个datanode平分250mb?第二:假设我有250个文件,每个文件大小为2mb,我将包含它们的文件夹dir1上传到第一台机器,使用:had

hadoop - 在Hadoop中,Namenode如何获取rack的详细信息以及属于某个rack的datanode?

假设在Hadoop集群中我们有2个机架rck1和rck2。每个机架有5个节点。Namenode如何知道节点1属于机架1,节点3属于机架2。 最佳答案 您必须配置系统以指定机架信息的确定方式。例如,thisClouderalink告诉您如何在ClouderaManager中为主机配置机架。或者,thisApachelink解释了如何通过配置文件在java类的外部脚本中指定此信息。拓扑通常采用/myrack/myhost形式,但您可以使用更深的层次结构。他们在python中有以下示例,它假设每个机架有一个/24子网,因此提取IP地址的前