DFS_草庐IT

linux - 无法写入 Hadoop DFS 目录模式 775 组权限 UserGroupInformation

我在启用了文件系统权限的私有(private)集群上运行Hadoop2.6.2。集群有密码文件，只有像hadoop这样的系统用户，没有个人账户。我正在从具有像我这样的个人帐户('clott')的linux边缘节点访问DFS。问题是我无法写入模式为775和组hadoop的DFS目录(“共享”)；边缘节点显示我是hadoop组的成员。我以为会使用边缘节点上的用户组成员资格，但是没有？这是我看到的:clott@edge$iduid=1003(clott)gid=1003(clott)groups=1003(clott),27(sudo),1001(hadoop)clott@edge$hdfs

linux - 安装和获取当前的 dfs.name.dir 和 dfs.data.dir 值

我没有在hdfs-site.xml文件中设置dfs.name.dir和dfs.data.dir值没有设置。他们会怎样？有趣的是，他们默认接受什么值？(如何接收他们的当前值？) 最佳答案 dfs.name.dir的默认值为${hadoop.tmp.dir}/dfs/data和dfs.data.dir是${hadoop.tmp.dir}/dfs/data。如果hadoop.tmp.dir的值未使用-D选项或配置文件设置，则默认值为/tmp/hadoop-${user.name}user.name是您用来登录系统的用户名。对于所有默认值，

hadoop dfs -copyFromLocal src dest

我的问题是为什么我们需要指定目标。我放到hdfs中的文件不一定完全在本地机器上，所以在命令中指定dest有什么用。当我通过命令lie运行命令然后执行hadoopdfs-ls时，我可以看到我的文件在hdfs中列出，但是当我使用以编程方式创建文件时FileSystemfs=FileSystem.get(conf);PathfilenamePath=newPath("hello.txt");fs.create(filenamePath);然后执行hadoopdfs-ls我找不到这个文件。在我的core-site.xml中，我有以下...hadoop.tmp.dir/home/apurv/ha

"hadoop"用户的 Hadoop 启动 dfs 权限被拒绝

我在mac本地mac上安装了hadoop。当我使用单独的hadoop用户使用start-dfs.sh命令启动dfs时，我在终端中收到以下错误。0.0.0.0:mkdir:/usr/local/Cellar/hadoop/2.3.0/libexec/logs:权限被拒绝有谁知道如何更改hadoop的日志目录？我使用Homebrew软件安装了hadoop。bash-3.2$start-dfs.sh14/03/3109:04:20WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingb

eclipse - 在 VM 中访问 Hadoop 后 Eclipse Europa 中的 DFS 位置

我是hadoop的新手。我需要安装它并试用示例。所以我提到了这个tutorial.我已经安装了该教程中给出的Sandbox。我需要在Windows中配置ECLIPSE，并在教程中给出下图中指定的VM位置。我已经安装了eclipseeuropa和hadoop插件。然后在Map/ReduceLocations中，我为主机名提供了VMIp，在UserName中提供了Linux用户名，在Map/Reduce端口中提供了9001，在DFS端口中提供了9000。在“高级”选项卡中，我将mapred.system.dir的值设置为/hadoop/mapred/system并且没有hadoop.job

Hadoop dfs.include 文件

请解释dfs.include文件的用途以及如何定义它。我已经向Hadoop集群添加了一个新节点，但名称节点未识别它。在其中一篇文章中，我发现dfs.include可以解决这个问题。先感谢您，弗拉迪最佳答案仅在dfs.include和mapred.include中包含节点名称是不够的。从属文件必须在namenode/jobtracker上更新。tasktracker和datanode必须在新节点上启动并且refreshNodes命令必须在NameNode和JobTracker上运行以让它们知道新节点。这是instructions关

hadoop - HDFS 占用空间 : "hdfs dfs -du/" vs "hdfs dfsadmin -report"

哪种工具最适合测量HDFS空间消耗？当我总结“hdfsdfs-du/”的输出时，与“hdfsdfsadmin-report”(“DFSUsed”行)相比，我总是消耗更少的空间。是否有du没有考虑的数据？最佳答案 Hadoop文件系统通过将数据副本放置到多个节点来提供重新标记存储。副本数是复制因子，通常大于一。命令hdfsdfs-du/显示空间在没有复制的情况下消耗了您的数据。命令hdfsdfsadmin-report(使用DFS行)显示实际磁盘使用情况，同时考虑了数据复制。所以当从dfs-ud命令获取数字时，它应该大几倍。

hadoop - 启动-dfs.sh : command not found

我已经安装了hadoop2.7.0。在Ubuntu14.04上。但是代码start-dfs.sh不起作用。当我运行此代码时，它返回start-dfs.sh:commandnotfound。start-dfs.sh、start-all.sh、stop-dfs.sh和stop-all.sh位于sbin目录中。我已经正确安装并设置了java和hadoop的路径。代码hadoopversion和sshlocalhost也有效。可能是什么问题？最佳答案文件start-dfs.sh是否存在于目录${HADOOP_HOME}/bin中？如果没

hadoop dfs -ls 提示

谁能告诉我这里似乎出了什么问题？hadoopdfs命令似乎没问题，但无法识别以下任何选项。[hadoop-0.20]$bin/hadoopdfs-ls~/wordcount/input/ls:无法访问/home/cloudera/wordcount/input/:没有那个文件或目录最佳答案 hadoopfs-ls/some/path/here-将列出HDFS位置，而不是您本地的linux位置先试试这个命令hadoopfs-ls/然后逐步调查其他文件夹。如果你想将一些文件从本地目录复制到HDFS位置上的用户目录，那么只需使用这个:h

hadoop - hdfs dfs 命令很慢 - 有没有办法让它更快？

我在Hadoop2.2.0上运行单节点设置。我的理解是hdfsdfs-ls很慢，因为它每次被调用时都会启动一个JVM。有没有办法让它保持JVM运行，以便简单的命令可以更快地完成？最佳答案我想告知您我们为解决此问题所做的解决方案。我们创建了一个新的实用程序-HDFSShell以更快地使用HDFS。https://github.com/avast/hdfs-shellHDFSDFS为每个命令调用启动JVM，HDFSShell只启动一次-这意味着当您需要更频繁地使用HDFS时速度会大大提高可以使用简短的方式使用命令-例如。hdfsdf