草庐IT

副本Replication

全部标签

java - 输入 block 的哪个副本在映射器中处理?

我为用Java编写的MapReduce作业创建了一个简单的I/O监控系统。因此,在工作的map阶段,我想记录有关已处理数据位置的信息。Map阶段的MapReduce作业处理由HDFS中的多个文件block组成的输入拆分。该block有多个(通常是3个)副本。在读取Mapper时是否可以知道这些block的哪些副本被使用了?换句话说,我能否获得Mapper从中读取的本地文件系统中特定文件的完整路径? 最佳答案 在HDFS中,block被复制,名称节点没有任何关于哪个是副本的信息。它使用一个block来根据特定机器中的网络延迟和负载执行

apache-spark - 分发文件副本给执行者

我有一堆数据(在S3上)正在复制到本地HDFS(在亚马逊EMR上)。现在我正在使用org.apache.hadoop.fs.FileUtil.copy执行此操作,但尚不清楚这是否会将文件副本分发​​给执行程序。SparkHistory服务器中肯定没有显示任何内容。HadoopDistCp看起来很像(注意我在S3上,所以它实际上应该是s3-dist-cp构建在dist-cp)除了它是一个命令行工具。我正在寻找一种从Scala脚本(又名Java)调用它的方法。有什么想法/线索吗? 最佳答案 cloudcp是使用Spark做复制的例子;文

hadoop - Hadoop copyFromLocal 是否创建 2 个副本? - 1 个在 hdfs 内部,其他在 datanode 内部?

我在安装在windows10上的vmware中的Ubuntu上安装了伪分布式独立hadoop版本。我从网上下载了一个文件,复制到ubuntu本地目录/lab/data我在ubuntu中创建了名为namenodep和datan1的namenode和datanode文件夹(不是hadoop文件夹)。我还在hdfs中创建了一个文件夹作为/input。当我将文件从ubuntu本地复制到hdfs时,为什么该文件存在于以下两个目录中?$hadoopfs-copyFromLocal/lab/data/Civil_List_2014.csv/input$hadoopfs-ls/input/input/

hadoop - Hadoop distcp 是否复制副本

如果我使用distcp在2个集群中复制数据,它是复制所有副本还是只复制1个数据副本并将其复制到新集群?例如,我尝试从复制因子(RF)为3的集群中复制3gb数据。distcp会复制完整的3gb数据吗,或者它是否知道因为RF为3,它只需要移动1gb(一份)数据。最后,在目标集群上,它查看RF并相应地复制数据。 最佳答案 原始数据大小很重要。如果原始数据为1GB,则复制因子=3时最多需要3x1GB。将数据从一个集群复制到另一个集群时,原始数据很重要。只有1GB的原始数据会被复制到目标集群。HDFS在内部处理block的复制。它会注意到集群

hadoop - HDFS 文件位置/副本放置提示

有什么方法可以告诉HDFS在某些文件创建期间我想从哪里获取文件副本?好的,我知道这可能只是提示,在任何情况下都不能保证。谢谢。为什么我需要这个?我有MapReduce作业(实际上是它们的链),并且由于我可以控制输入拆分位置,所以我希望以前的作业缩减器能够说明下一个作业映射器的“最可能”位置。这是解决我的问题的替代方法之一。有什么想法吗? 最佳答案 应该可以用this.它允许您编写Java代码来指定HDFS应如何分配文件block的副本。HTH 关于hadoop-HDFS文件位置/副本放置

hadoop - hdfs将如何选择要删除的副本?

假设:我有一个hadoop集群,其中每个数据幻灯片都设置为有3个副本。有一天,一个datanode被拔掉(假设里面存储的数据没问题),然后hdfs会为这个节点存储的数据生成新的副本,这样dataslide仍然有3个副本。但是如果第二天再插上datanode,有些dataslide有4个副本,那么hdfs就得删除4个副本中的1个。我的问题是hdfs如何选择要删除的那个?随机?或者只删除最新的(这意味着数据节点将被清除)? 最佳答案 Question:ButifDatanodeisrepairedandstartstoworkagain

hadoop - 从本地目录到 HDFS 的副本是否运行 mapreduce 作业?

当我们发出hdfsput或copyfromlocal命令时,它会调用mapreduce作业吗?如果是,运行了多少映射器?如果没有,转移是如何完成的?我阅读了Hadoop权威指南中的文件读取剖析,但想获得更多关于此的见解。 最佳答案 当我们使用put和copyFromLocal命令时,将本地文件复制到HDFS是使用mapreduce作业完成的。它实际上是由hadoop客户端二进制本身使用客户端库和队列使用Streaming完成的。在将内容复制到HDFS时,hadoop/hdfs二进制命令使用DistributedFileSystem类

hadoop - Hadoop是否创建输入文件的多个副本,每个节点一个副本

如果我希望将文件从本地目录复制到HDFS,是否需要在每个Hadoop节点上物理复制文件?或者,如果我使用hadoopdfs命令,Hadoop会在每个节点上内部创建该文件的副本吗?我假设每个节点都需要一份文件副本是否正确? 最佳答案 当您复制文件(任何数据)时,Hadoop(HDFS)会将其存储在任何Datanode上,元数据信息将存储在Namenode。文件(数据)的复制将由Hadoop负责,您无需多次复制。您可以使用以下命令将文件从本地复制到HDFShdfsdfs-puthdfsdfs-copyFromLocal复制因子配置存储在

hadoop - dfs.replication提供复制因子,file.replication提供什么

我的理解是dfs.replication提供了HDFS维护的复制数量,在core-default.xml中,我看到“file.replication”以及“s3.replication”、“ftp.replication”和“s3native.replication",能否请您提供有关这些变量重要性的任何输入 最佳答案 Hadoop支持不同的文件系统实现,所有这些属性定义了用于其相应文件系统的复制因子。------------------------------------------------------------------

hadoop - 具有多个数据中心的 Cassandra 中的副本放置逻辑

当写入以一致性EACH_QUORUM和复制4与2个数据中心DC1和DC2副本放置3在DC1和1在DC2中执行时,哪个类选择第二个和第三个副本应该驻留的节点?告密者是GossipingPropertyFileSnitch和NetworkTopologyStrategy。客户端使用FileSystem.create创建一个新文件并对其执行写入操作。第一个副本将根据token和行键哈希转到节点。第二个和第三个副本在DC1和DC2中去了哪里? 最佳答案 一致性级别与放置策略没有任何关系。很简单,在向客户端报告成功或失败之前,应该向协调器报告