hdfs_clusters

hadoop - 手动重新平衡 hadoop hdfs 磁盘后，DataNode 不会重启

我在40台机器的集群中使用Hadoophadoop-2.0.0-mr1-cdh4.1.2。每台机器有12个磁盘供hadoop使用。一台机器上的一些磁盘不平衡，我决定按照这篇文章中提到的手动重新平衡:rebalanceindividualdatanodeinhadoop我停止了该服务器上的DataNode，移动了block文件对，在一些磁盘之间移动了整个子目录。我一停止DataNode，NameNode就通过在UI中显示以下消息来提示缺少block:警告:缺少2002个block。请检查日志或运行fsck以确定丢失的block。然后，我尝试重启DataNode。它拒绝成功启动，并不断记录

hadoop - 数据如何写入HDFS？

我试图通过阅读hadoop-2.4.1documentation来了解HDFS中如何管理数据写入.根据以下架构:每当客户端向HDFS写入内容时，他与名称节点没有联系，而是负责分块和复制。我假设在这种情况下，客户端是一台运行HDFS外壳(或等效外壳)的机器。但是，我不明白这是如何管理的。事实上，根据相同的文档:TheDataNodesalsoperformblockcreation,deletion,andreplicationuponinstructionfromtheNameNode.上面给出的模式是否正确？如果是这样，namenode是否仅在收到Blockreport时才被告知新文

hadoop HDFS strong section blockquote

hadoop - 锁定 HDFS 中的目录

有没有办法在HDFS中获取目录锁？这是我正在尝试做的事情:我有一个名为../latest/...的目录每天我都需要向这个目录中添加新数据，但是在我将新数据复制到这里之前，我想获得锁，这样当我向其中复制新数据时没有人在使用它。有没有办法在HDFS中执行此操作？最佳答案不，没有办法通过HDFS做到这一点。一般来说，当我遇到这个问题时，我会尝试将数据复制到一个随机的临时位置，然后在复制完成后移动文件。这很好，因为mv是即时的，而复制需要更长的时间。这样，如果你检查是否有其他人在写然后mv，时间段和“锁定”将保持更短的时间生成一个随机数

hadoop HDFS section code li

java - 无法写入本地 HDFS 数据节点

我尝试使用我正在使用Hadoop2.3.0发行版和hadoop-client2.3.0的java程序将文件写入本地HDFS设置hadoop-hdfs2.3.0库。在HDFS日志中显示以下错误:2014-04-0718:40:44,479ERRORorg.apache.hadoop.hdfs.server.datanode.DataNode:prabhathp:50010:DataXceivererrorprocessingunknownoperationsrc:/127.0.0.1:38572dest:/127.0.0.1:50010java.io.IOException:Versio

java HDFS code section hadoop

用于将文件从本地文件系统移动到 HDFS 的 Hadoop 工具

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭6年前。Improvethisquestion我正在做一个关于如何将数据从共享网络驱动器导入HDFS的POC。数据将位于共享驱动器上的不同文件夹中，每个文件夹将对应于HDFS上的不同目录。我查看了一些执行此操作的流行工具，但其中大多数用于移动小块数据而不是整个文件。这些是我找到的工具，还有其他的吗？ApacheFlume:如果只有少数生产服务器在生产数据并且数据不需要实时写出，那么将数据移动到通过WebHDFS或

Hadoop HDFS section strong apache-apex

hadoop - 将 HBase 连接到 HDFS 时 Hbase Shell 中的连接被拒绝

我正在尝试将我的HBase连接到HDFS。我有我的hdfsnamenode(bin/hdfsnamenode)和datnode(/bin/hdfsdatanode)正在运行。我还可以启动我的Hbase(sudo./bin/start-hbase.sh)和本地区域服务器(sudo./bin/local-regionservers.shstart12)。但是当我尝试从Hbaseshell执行命令时，出现以下错误:cis655stu@cis655stu-VirtualBox:/teaching/14f-cis655/proj-dtracing/hbase/hbase-0.99.0-SNAPS

hadoop HBase gt lt property hdfs hadoop2 cloudera-cdh

hadoop - 使用 S3DistCp 从 HDFS 传输到 S3 时删除目录级别

我有一个Pig脚本(使用稍微修改过的MultiStorage)来转换一些数据。脚本运行后，我在HDFS上有以下格式的数据:/tmp/data/identifier1/indentifier1-0,0001/tmp/data/identifier1/indentifier1-0,0002/tmp/data/identifier2/indentifier2-0,0001/tmp/data/identifier3/indentifier3-0,0001我正在尝试使用S3DistCp将这些文件复制到S3。我正在使用--groupBy.*(identifier[0-9]).*选项根据标识符合并文

S3DistCp 级别 identifier code section hadoop amazon-s3 apache-pig hdfs emr

hadoop - 区 block 链与 HDFS 有何不同，比特币挖掘与 Map reduce 或 spark 有何不同？

我正在研究区block链技术，我发现它将文件保存在多个不同的服务器上。现在根据Hadoop文档，它还在多个服务器上存储文件并在1个主节点上保留1个主副本。它还具有动物园管理员，负责维护主节点和所有辅助节点之间的数据。现在我的问题是，是否还有用于维护主副本的区block链动物园管理员，或者我的理解方式有误？最佳答案这些是完全不同的动物。大多数区block链全节点完全独立运行，并花时间验证交易。事实上，比特币协议(protocol)或以太坊中的每个完整节点都有整个链的完整副本——也就是说，自区block零以来发生的每笔交易。它们在共

何不挖掘 section block 动物 hadoop blockchain

Hadoop 的 HDFS 与 Spark

我是集群计算的新手，我正在尝试在Spark中设置一个最小的2节点集群。我仍然有点困惑的是:我是否必须首先设置完整的Hadoop安装，或者Spark是否在其中附带了一个包含的Hadoop版本？我发现的关于Spark的资料并没有真正说明这一点。我知道Spark是Hadoop的扩展而不是替代它，但我不清楚它是否需要独立运行的Hadoop系统。我需要一个HDFS，因此仅使用Hadoop的文件系统部分就足够了吗？有人可以向我指出这可能是显而易见的事情吗？最佳答案 ApacheSpark独立于Hadoop。Spark允许您使用不同的数据源(包

Hadoop Spark section apache-spark

java - 写入 HDFS 或 Hbase 的内容是否立即对 Hadoop 集群中的所有其他节点可见？

当Hadoop作业正在运行或正在进行时，如果我向HDFS或Hbase写入一些内容，那么数据对集群中的所有节点可见1.)立即？2.)如果不是立即那么多长时间后？3.)或者时间真的无法确定？最佳答案 HDFS具有强一致性，因此一旦成功完成写入，新数据应该立即在所有节点上可见。显然，实际的写作需要一些时间-请参阅replicationpipelining有关这方面的一些详细信息。这与最终一致的系统形成对比，最终一致的系统在所有节点看到数据的一致View之前可能需要不确定的时间(尽管通常只有几毫秒)。Cassandra等系统具有可调一致性

Hadoop Hbase section 有节长时 java hive

224 225 226227228 229 230