草庐IT

fuse-dfs

全部标签

hadoop - 'hdfs dfs -ls' 和 'hdfs dfs -ls/' 之间的区别

为什么hdfsdfs-ls指向与hdfsdfs-ls/不同的位置?从下面的截图中可以清楚地看到两个命令给出不同的输出:以上输出的主要原因是什么? 最佳答案 来自官方源码org.apache.hadoop.fs.shell.Ls.java.只需搜索DESCRIPTION字词。它将列出以下语句:-publicstaticfinalStringDESCRIPTION="Listthecontentsthatmatchthespecifiedfilepattern.If"+"pathisnotspecified,thecontentsof/

hadoop - 启用 dfs.image.compress 时会压缩什么?

Hadoophdfsdocumentation表示此旋钮指定是否应压缩“dfs图像”。那具体指的是什么?存储在hdfs中的输入文件、输出文件(有一个单独的参数)或其他什么? 最佳答案 这里的“dfsimage”是实际dfs的副本,在检查点时创建。当最初创建检查点时,检查点有助于恢复到以前的dfs状态。图像文件包含dfs中存在的所有文件。压缩会尝试使用压缩编解码器将此文件压缩到更小的大小。 关于hadoop-启用dfs.image.compress时会压缩什么?,我们在StackOverf

ubuntu - 无法使用 Hadoop-Fuse 挂载 HDFS

我有一个在AWSEC2上运行的2节点Hadoop集群。我正在尝试将HDFS安装在不同的EC2实例上。客户端运行的是Ubuntu12.04.4LTS,我已经安装了Hadoop-Fuse。#apt-cachepolicyhadoop-0.20-fusehadoop-0.20-fuse:Installed:0.20.2+923.479-1~maverick-cdh3Candidate:0.20.2+923.479-1~maverick-cdh3Versiontable:***0.20.2+923.479-1~maverick-cdh30500http://archive.cloudera.c

ubuntu - 无法运行 start-dfs.sh

我无法运行start-dfs.shubuntu@UBUNTU:~$start-dfs.sh14/10/1919:26:50WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicableStartingnamenodeson[localhost]localhost:ssh:connecttohostlocalhostport22:Connectionrefusedlocalhost:ssh:connecttohostloc

hadoop - dfs.replication提供复制因子,file.replication提供什么

我的理解是dfs.replication提供了HDFS维护的复制数量,在core-default.xml中,我看到“file.replication”以及“s3.replication”、“ftp.replication”和“s3native.replication",能否请您提供有关这些变量重要性的任何输入 最佳答案 Hadoop支持不同的文件系统实现,所有这些属性定义了用于其相应文件系统的复制因子。------------------------------------------------------------------

hadoop - hdfs dfs - 覆盖?

我正在使用hdfsdfs-putmyfilemypath对于我得到的一些文件put:'myfile':FileExists这是否意味着存在同名文件或已经存在完全相同的文件(大小、内容)?如何在此处指定-overwrite选项?谢谢! 最佳答案 put:'myfile':文件存在意思是,名为“myfile”的文件已经存在于hdfs中。hdfs中不能有多个同名文件您可以使用hadoopfs-put-f/path_to_local/path_to_hdfs覆盖它 关于hadoop-hdfsdf

hadoop - Hadoop DFS 的 CopyFromLocal 命令如何工作?

我对Hadoop分布式文件系统的设置方式以及我的特定设置如何影响它感到有点困惑。我使用本指南进行设置http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-multi-node-cluster/在VirtualBox上使用两个虚拟机并运行示例(只是一个简单的带有txt文件输入的字数统计)。到目前为止,我知道数据节点管理和检索其节点上的文件,而任务跟踪器分析数据。1)当您使用命令-copyFromLocal时,您是否正在将文件/输入复制到HDFS?Hadoop是否知道如何在slaves/master之间划分

java - dfs.data.dir : Failed to set permissions of path:\tmp\hadoop-user\dfs\data to 0755 中的无效目录

我是hadoop框架的新手,目前我正在处理大数据项目,在Windows7中使用cygwin、hadoop-0.19.1、eclipse-3.3.1(Europa)。现在我正在尝试从hadoop-0.19进行更改.1到hadoop-1.2.1version.i如下配置hadoop-1.2.1核心站点.xml:fs.default.namehdfs://localhost:9100hdfs.xmldfs.replication1mapred-site.xmlmapred.job.trackerlocalhost:9101但是我在启动数据节点时出错,如下所示$bin/hadoopdatano

hadoop - 将数据从 Hadoop DFS 传输到本地文件系统的最快方法是什么?

我总是使用“dfs-get”或“dfs-cat”,但我想可能会有更好的东西。使用“dfs-cat|pv”,我的网络连接似乎没有饱和(我只有20MB/秒)。也许有办法并行化它吗? 最佳答案 dfs-cat必须通过单个进程传送所有数据,并行性很差。我所做的是运行一个仅限映射器的流作业,该作业转储到每个磁盘上的暂存空间,然后rsync返回到一台机器。这两部分都很好地充分发挥了集群的作用;并且由于rsync是很好的幂等性,所以您可以与hdfs->local部分同时启动它。 关于hadoop-将数

hadoop - Hadoop dfs.replicate 如何工作?

我有一个2节点的hadoop(一个是主/从,另一个是从)设置和4个输入文件,每个文件大小为1GB。当我将dfs.replicate设置为2时,整个数据将被复制到两个节点,这是可以理解的。但我的问题是,我如何看到单节点设置的性能提高(几乎是原来的两倍),因为在2节点的情况下,map-reduce仍然会运行在两个系统上的完整数据集以及添加的将输入从2个映射器传送到缩减器的开销。此外,当我将复制设置为1时,整个数据仅存在于主节点上,这也是可以理解的,以避免以太网开销。但即使在这种情况下,我也看到了与单节点设置相比的性能改进,这让我感到困惑,因为map-reduce在本地数据集上运行,这种情况