我在40台机器的集群中使用Hadoophadoop-2.0.0-mr1-cdh4.1.2。每台机器有12个磁盘供hadoop使用。一台机器上的一些磁盘不平衡,我决定按照这篇文章中提到的手动重新平衡:rebalanceindividualdatanodeinhadoop我停止了该服务器上的DataNode,移动了block文件对,在一些磁盘之间移动了整个子目录。我一停止DataNode,NameNode就通过在UI中显示以下消息来提示缺少block:警告:缺少2002个block。请检查日志或运行fsck以确定丢失的block。然后,我尝试重启DataNode。它拒绝成功启动,并不断记录
我试图通过阅读hadoop-2.4.1documentation来了解HDFS中如何管理数据写入.根据以下架构:每当客户端向HDFS写入内容时,他与名称节点没有联系,而是负责分块和复制。我假设在这种情况下,客户端是一台运行HDFS外壳(或等效外壳)的机器。但是,我不明白这是如何管理的。事实上,根据相同的文档:TheDataNodesalsoperformblockcreation,deletion,andreplicationuponinstructionfromtheNameNode.上面给出的模式是否正确?如果是这样,namenode是否仅在收到Blockreport时才被告知新文
有没有办法在HDFS中获取目录锁?这是我正在尝试做的事情:我有一个名为../latest/...的目录每天我都需要向这个目录中添加新数据,但是在我将新数据复制到这里之前,我想获得锁,这样当我向其中复制新数据时没有人在使用它。有没有办法在HDFS中执行此操作? 最佳答案 不,没有办法通过HDFS做到这一点。一般来说,当我遇到这个问题时,我会尝试将数据复制到一个随机的临时位置,然后在复制完成后移动文件。这很好,因为mv是即时的,而复制需要更长的时间。这样,如果你检查是否有其他人在写然后mv,时间段和“锁定”将保持更短的时间生成一个随机数
我尝试使用我正在使用Hadoop2.3.0发行版和hadoop-client2.3.0的java程序将文件写入本地HDFS设置hadoop-hdfs2.3.0库。在HDFS日志中显示以下错误:2014-04-0718:40:44,479ERRORorg.apache.hadoop.hdfs.server.datanode.DataNode:prabhathp:50010:DataXceivererrorprocessingunknownoperationsrc:/127.0.0.1:38572dest:/127.0.0.1:50010java.io.IOException:Versio
关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。关闭6年前。Improvethisquestion我正在做一个关于如何将数据从共享网络驱动器导入HDFS的POC。数据将位于共享驱动器上的不同文件夹中,每个文件夹将对应于HDFS上的不同目录。我查看了一些执行此操作的流行工具,但其中大多数用于移动小块数据而不是整个文件。这些是我找到的工具,还有其他的吗?ApacheFlume:如果只有少数生产服务器在生产数据并且数据不需要实时写出,那么将数据移动到通过WebHDFS或
我正在尝试将我的HBase连接到HDFS。我有我的hdfsnamenode(bin/hdfsnamenode)和datnode(/bin/hdfsdatanode)正在运行。我还可以启动我的Hbase(sudo./bin/start-hbase.sh)和本地区域服务器(sudo./bin/local-regionservers.shstart12)。但是当我尝试从Hbaseshell执行命令时,出现以下错误:cis655stu@cis655stu-VirtualBox:/teaching/14f-cis655/proj-dtracing/hbase/hbase-0.99.0-SNAPS
我有一个Pig脚本(使用稍微修改过的MultiStorage)来转换一些数据。脚本运行后,我在HDFS上有以下格式的数据:/tmp/data/identifier1/indentifier1-0,0001/tmp/data/identifier1/indentifier1-0,0002/tmp/data/identifier2/indentifier2-0,0001/tmp/data/identifier3/indentifier3-0,0001我正在尝试使用S3DistCp将这些文件复制到S3。我正在使用--groupBy.*(identifier[0-9]).*选项根据标识符合并文
我正在研究区block链技术,我发现它将文件保存在多个不同的服务器上。现在根据Hadoop文档,它还在多个服务器上存储文件并在1个主节点上保留1个主副本。它还具有动物园管理员,负责维护主节点和所有辅助节点之间的数据。现在我的问题是,是否还有用于维护主副本的区block链动物园管理员,或者我的理解方式有误? 最佳答案 这些是完全不同的动物。大多数区block链全节点完全独立运行,并花时间验证交易。事实上,比特币协议(protocol)或以太坊中的每个完整节点都有整个链的完整副本——也就是说,自区block零以来发生的每笔交易。它们在共
我是集群计算的新手,我正在尝试在Spark中设置一个最小的2节点集群。我仍然有点困惑的是:我是否必须首先设置完整的Hadoop安装,或者Spark是否在其中附带了一个包含的Hadoop版本?我发现的关于Spark的资料并没有真正说明这一点。我知道Spark是Hadoop的扩展而不是替代它,但我不清楚它是否需要独立运行的Hadoop系统。我需要一个HDFS,因此仅使用Hadoop的文件系统部分就足够了吗?有人可以向我指出这可能是显而易见的事情吗? 最佳答案 ApacheSpark独立于Hadoop。Spark允许您使用不同的数据源(包
当Hadoop作业正在运行或正在进行时,如果我向HDFS或Hbase写入一些内容,那么数据对集群中的所有节点可见1.)立即?2.)如果不是立即那么多长时间后?3.)或者时间真的无法确定? 最佳答案 HDFS具有强一致性,因此一旦成功完成写入,新数据应该立即在所有节点上可见。显然,实际的写作需要一些时间-请参阅replicationpipelining有关这方面的一些详细信息。这与最终一致的系统形成对比,最终一致的系统在所有节点看到数据的一致View之前可能需要不确定的时间(尽管通常只有几毫秒)。Cassandra等系统具有可调一致性