hdfs

hadoop - 上传文件到HDFS会自动分布式存储文件吗？

我刚开始学习Hadoop，我对数据如何以分布式方式存储有点困惑。我有MPI背景。使用MPI，我们通常有一个主处理器将数据发送到其他各种处理器。这是由程序员明确完成的。有了Hadoop，您就有了一个Hadoop分布式文件系统(HDFS)。那么当你把一些文件从本地服务器放到HDFS时，HDFS会自动分布式存储这个文件而不需要程序员做任何事情吗？HDFS这个名字似乎暗示了这一点，但我只是想验证一下。最佳答案是的，确实如此。文件上传完毕，NameNode根据复制因子(通常为3)协调复制到存储它的DataNodes。此外，NameNode

ant - 尝试使用 Fuse 挂载 HDFS。无法编译 libhdfs

我正在尝试编译libhdfs(一个允许外部应用程序与hdfs交互的native共享库)。这是我使用Fuse挂载Hadoop的hdfs必须采取的几个步骤之一。编译似乎进行了一段时间，但以“BUILDFAILED”和以下问题摘要结束-commons-logging#commons-logging；1.0.4:在commons-logging#commons-logging中找不到配置；1.0.4:“master”。org.apache.hadoop#Hadoop;working@btsotbal800commons-logging需要它log4j#log4j;1.2.15:在log4j#l

libhdfs Fuse HADOOP_HOME commons-logging HADOOP ant mount hdfs

logging - Chukwa 和 Scribe 哪个更好？

我正在使用Hadoop，但为了记录我需要一些东西。但是我不知道在Scribe和Chukwa之间登录系统哪个更好。你们能告诉我吗？如果有任何易于与Hadoop混合的替代方案，请告诉我。最佳答案我有一个替代方案:ApacheFlume由Cloudera构建，主要用于将数据输入/输出HDFS。https://cwiki.apache.org/confluence/display/FLUME/Index每个系统都有利有弊，它们在大规模运行时都存在一定的可靠性问题，但我可以说Flume是用java构建的，因此可以使用主要的HDFS库。我们

logging Chukwa section strong https hadoop mapreduce hdfs

hadoop - hadoop put命令中的目标已经存在错误

我正在尝试Hadoop1.0。我在将一个文件从本地系统复制到HDFS时收到Targetdoesnotexists。我的hadoop命令及其输出如下:shekhar@ubuntu:/host/Shekhar/Softwares/hadoop-1.0.0/bin$hadoopdfs-put/host/Users/Shekhar/Desktop/Downloads/201112/20111201.txt.Warning:$HADOOP_HOMEisdeprecated.put:Targetalreadyexists观察输出后，我们可以看到单词'Target'和'already'之间有两个空格

hadoop put shekhar code hdfs

hadoop - Hadoop 中的粘滞位

我正在使用ApacheHadoop(hadoop-0.20.203.0)，无法为hdfs中的/tmp目录设置粘滞位。我的意图是将其权限设置为1777。$hadoopdfs-chmod1777/tmpchmod:chmod:mode'1777'doesnotmatchtheexpectedpattern. 最佳答案试试这个:sudo-uhdfshadoopfs-chmod1777/tmp用hadoop(0.20.2-cdh3u2)为我工作关于hadoop-Hadoop中的粘滞位，我们在

粘滞 hadoop section file-permissions hdfs sticky

hadoop - mapred.min.split.size

我正在尝试在MapReduce中试验这个参数，但我有一些问题。这是否符合HDFS中的大小(无论是否压缩)？还是解压后的？我猜是前者，但只是想确认一下。最佳答案仅当您的输入格式支持拆分输入文件时才会使用此参数。常见的压缩编解码器(如gzip)不支持拆分文件，因此将被忽略。如果输入格式确实支持拆分，那么这与压缩后的大小有关。关于hadoop-mapred.min.split.size，我们在StackOverflow上找到一个类似的问题： https://s

hadoop mapred section stackoverflow questions mapreduce hdfs

hadoop - Input Split 大小是常量还是取决于逻辑记录？

Hadoop权威指南说:WhenyouhaveMinimumsplitsize1,MaximumsplitsizeLong.MAX_VALUE,Blocksize64MBthentheSplitsizeis64MB.TextInputFormat的逻辑记录是行。由于每行长度不同，我们如何才能将大小拆分为恰好64MB？最佳答案 HDFSblock是字节序列。他们不知道线条或任何其他结构。所以你可能有一个只有一个block(当然大小为64MB)的分割，在一行的中间结束(即不包括整个最后一行)。当您使用TextInputFormat读取

取决于取决 section size TextInputFormat hadoop mapreduce hdfs

hadoop - 当节点数少于复制因子时，HDFS 如何复制？

例如，如果Hadoop集群由2个DataNode组成，并且HDFS复制因子设置为默认值3，那么文件复制的默认行为是什么？从我读到的内容来看，HDFS似乎是基于机架感知的，但是对于这种情况，有人知道它是如何确定的吗？最佳答案它会认为这些block是复制不足的，它会一直提示这一点，它会永久地尝试使它们达到预期的复制因子。HDFS系统有一个参数(复制因子-默认为3)告诉名称节点每个block应该如何复制(在默认情况下，每个block应该在整个集群中复制3次，根据给定的副本放置策略)。在系统设法将每个block复制到复制因子指定的次数之

少于点数 section block 久地 hadoop hdfs

java - Hadoop Map/Reduce Mapper 'map' 方法和日志

我最近被要求研究加速mapreduce项目。我正在尝试查看在实现以下类的“map”方法中生成的log4j日志信息:org.apache.hadoop.mapred.Mapper在这个类中有以下方法:@Overridepublicvoidconfigure(..){..}publicstaticvoiddoCompileAndAdd(..){..}publicvoidmap(..){..}记录信息可用于配置方法和doCompileAndAdd方法(从配置方法调用)；但是，没有显示“map”方法的日志信息。我也试过在map方法中简单地使用System.out.println(..)但没有成

amp Hadoop section code map java log4j mapreduce hdfs

hadoop 从 hdfs 复制到 S3

我已经在AmazonEMR上成功完成了mahout矢量化工作(使用MahoutonElasticMapReduce作为引用)。现在我想将结果从HDFS复制到S3(以便在未来的集群中使用它)。ForthatI'veusedhadoopdistcp:den@aws:~$elastic-mapreduce--jars3://elasticmapreduce/samples/distcp/distcp.jar\>--arghdfs://my.bucket/prj1/seqfiles\>--args3n://ACCESS_KEY:SECRET_KEY@my.bucket/prj1/seqfile

hadoop hdfs java apache amazon-s3 amazon-web-services amazon-emr emr

55 56 575859 60 61