副本Replication

java - 输入 block 的哪个副本在映射器中处理？

我为用Java编写的MapReduce作业创建了一个简单的I/O监控系统。因此，在工作的map阶段，我想记录有关已处理数据位置的信息。Map阶段的MapReduce作业处理由HDFS中的多个文件block组成的输入拆分。该block有多个(通常是3个)副本。在读取Mapper时是否可以知道这些block的哪些副本被使用了？换句话说，我能否获得Mapper从中读取的本地文件系统中特定文件的完整路径？最佳答案在HDFS中，block被复制，名称节点没有任何关于哪个是副本的信息。它使用一个block来根据特定机器中的网络延迟和负载执行

射器 block section 的 java hadoop mapreduce hdfs

apache-spark - 分发文件副本给执行者

我有一堆数据(在S3上)正在复制到本地HDFS(在亚马逊EMR上)。现在我正在使用org.apache.hadoop.fs.FileUtil.copy执行此操作，但尚不清楚这是否会将文件副本分发给执行程序。SparkHistory服务器中肯定没有显示任何内容。HadoopDistCp看起来很像(注意我在S3上，所以它实际上应该是s3-dist-cp构建在dist-cp)除了它是一个命令行工具。我正在寻找一种从Scala脚本(又名Java)调用它的方法。有什么想法/线索吗？最佳答案 cloudcp是使用Spark做复制的例子；文

分发 apache-spark section code spark hadoop hdfs amazon-emr distcp

hadoop - Hadoop copyFromLocal 是否创建 2 个副本？ - 1 个在 hdfs 内部，其他在 datanode 内部？

我在安装在windows10上的vmware中的Ubuntu上安装了伪分布式独立hadoop版本。我从网上下载了一个文件，复制到ubuntu本地目录/lab/data我在ubuntu中创建了名为namenodep和datan1的namenode和datanode文件夹(不是hadoop文件夹)。我还在hdfs中创建了一个文件夹作为/input。当我将文件从ubuntu本地复制到hdfs时，为什么该文件存在于以下两个目录中？$hadoopfs-copyFromLocal/lab/data/Civil_List_2014.csv/input$hadoopfs-ls/input/input/

copyFromLocal datanode section 中创 3621390486220058643 hadoop

hadoop - Hadoop distcp 是否复制副本

如果我使用distcp在2个集群中复制数据，它是复制所有副本还是只复制1个数据副本并将其复制到新集群？例如，我尝试从复制因子(RF)为3的集群中复制3gb数据。distcp会复制完整的3gb数据吗，或者它是否知道因为RF为3，它只需要移动1gb(一份)数据。最后，在目标集群上，它查看RF并相应地复制数据。最佳答案原始数据大小很重要。如果原始数据为1GB，则复制因子=3时最多需要3x1GB。将数据从一个集群复制到另一个集群时，原始数据很重要。只有1GB的原始数据会被复制到目标集群。HDFS在内部处理block的复制。它会注意到集群

hadoop section 新集复制

hadoop - HDFS 文件位置/副本放置提示

有什么方法可以告诉HDFS在某些文件创建期间我想从哪里获取文件副本？好的，我知道这可能只是提示，在任何情况下都不能保证。谢谢。为什么我需要这个？我有MapReduce作业(实际上是它们的链)，并且由于我可以控制输入拆分位置，所以我希望以前的作业缩减器能够说明下一个作业映射器的“最可能”位置。这是解决我的问题的替代方法之一。有什么想法吗？最佳答案应该可以用this.它允许您编写Java代码来指定HDFS应如何分配文件block的副本。HTH 关于hadoop-HDFS文件位置/副本放置

hadoop HDFS section stackoverflow mapreduce

hadoop - hdfs将如何选择要删除的副本？

假设:我有一个hadoop集群，其中每个数据幻灯片都设置为有3个副本。有一天，一个datanode被拔掉(假设里面存储的数据没问题)，然后hdfs会为这个节点存储的数据生成新的副本，这样dataslide仍然有3个副本。但是如果第二天再插上datanode，有些dataslide有4个副本，那么hdfs就得删除4个副本中的1个。我的问题是hdfs如何选择要删除的那个？随机？或者只删除最新的(这意味着数据节点将被清除)？最佳答案 Question:ButifDatanodeisrepairedandstartstoworkagain

择要 hadoop section strong hdfs

hadoop - 从本地目录到 HDFS 的副本是否运行 mapreduce 作业？

当我们发出hdfsput或copyfromlocal命令时，它会调用mapreduce作业吗？如果是，运行了多少映射器？如果没有，转移是如何完成的？我阅读了Hadoop权威指南中的文件读取剖析，但想获得更多关于此的见解。最佳答案当我们使用put和copyFromLocal命令时，将本地文件复制到HDFS是使用mapreduce作业完成的。它实际上是由hadoop客户端二进制本身使用客户端库和队列使用Streaming完成的。在将内容复制到HDFS时，hadoop/hdfs二进制命令使用DistributedFileSystem类

mapreduce hadoop code section strong

hadoop - Hadoop是否创建输入文件的多个副本，每个节点一个副本

如果我希望将文件从本地目录复制到HDFS，是否需要在每个Hadoop节点上物理复制文件？或者，如果我使用hadoopdfs命令，Hadoop会在每个节点上内部创建该文件的副本吗？我假设每个节点都需要一份文件副本是否正确？最佳答案当您复制文件(任何数据)时，Hadoop(HDFS)会将其存储在任何Datanode上，元数据信息将存储在Namenode。文件(数据)的复制将由Hadoop负责，您无需多次复制。您可以使用以下命令将文件从本地复制到HDFShdfsdfs-puthdfsdfs-copyFromLocal复制因子配置存储在

hadoop code section hdfs

hadoop - dfs.replication提供复制因子，file.replication提供什么

我的理解是dfs.replication提供了HDFS维护的复制数量，在core-default.xml中，我看到“file.replication”以及“s3.replication”、“ftp.replication”和“s3native.replication"，能否请您提供有关这些变量重要性的任何输入最佳答案 Hadoop支持不同的文件系统实现，所有这些属性定义了用于其相应文件系统的复制因子。------------------------------------------------------------------

replication hadoop section code hdfs hadoop2

hadoop - 具有多个数据中心的 Cassandra 中的副本放置逻辑

当写入以一致性EACH_QUORUM和复制4与2个数据中心DC1和DC2副本放置3在DC1和1在DC2中执行时，哪个类选择第二个和第三个副本应该驻留的节点？告密者是GossipingPropertyFileSnitch和NetworkTopologyStrategy。客户端使用FileSystem.create创建一个新文件并对其执行写入操作。第一个副本将根据token和行键哈希转到节点。第二个和第三个副本在DC1和DC2中去了哪里？最佳答案一致性级别与放置策略没有任何关系。很简单，在向客户端报告成功或失败之前，应该向协调器报告

数据中心 Cassandra section NetworkTopologyStrategy hadoop cassandra-2.0