草庐IT

hadoop - HDFS dfs 完整路径

如何在我的系统中找到HDFS存储的完整路径?例如我在hdfs存储上有/user/cloudera/文件夹,但是“/user/cloudera”的路径是什么?有没有具体的命令?HDFSdfs-ls和HDFSdfs-ls-R只返回目录列表,不返回路径。我的问题很独特,因为在here你最终没有得到HDFS路径。 最佳答案 如果您是HDFS管理员,您可以运行:hdfsfsck/user/cloudera-files-blocks-locations引用资料:HDFSCommandsGuide:fsckhdfsfileactualblockp

hadoop - 我可以使用 Hadoop 插入不同的 DFS 而不是 HDFS 吗?

我正在寻找一种方法来将新文件系统挂接到Hadoop中,以针对HDFS对这个新文件系统的性能进行基准测试。我是Hadoop的新手,所以如果我问错了问题,请随时纠正我。如果有帮助,我将使用亚马逊的EMR。 最佳答案 您需要为新文件系统创建一个Hadoop文件系统驱动程序。这将是一个扩展org.apache.hadoop.fs.FileSystem的类.此类“驱动程序”的示例是众所周知的DistributedFileSystem又名。HDFS,LocalFilesystem或S3FileSystem等等。然后您必须使用core-site.

windows - Windows 上的 Hadoop : Not a valid DFS filename

我在Windows上配置了Hadoop2.7.2,我可以看到名称节点、数据节点、资源管理器和节点管理器正常运行,当我尝试运行作为示例提供的mapreduce程序之一时出现问题.请在下面找到我正在运行的命令c:\hdp\bin\yarnjarc:\hdp\share\hadoop\mapreduce\hadoop-mapreduce-examples-2.7.2.jarwordcountc:\hdp\LICENSE.txt/out我可以看到所有文件都位于所需位置。请在堆栈跟踪下方找到:C:\WINDOWS\system32>c:\hdp\bin\yarnjarc:\hdp\share\h

hadoop - hdfs dfs -count 从哪里获取信息?

我们需要计算Multi-Tenancy多节点集群中大量目录中的文件数量,该集群具有大量数据。所以,我想知道命令“hdfsdfs-count/path/to/directory”从哪里来得到它的信息?它像hdfsdfs-ls一样工作吗?或者它直接从HDFS中的Namenode获取它的信息?非常感谢! 最佳答案 它从FileSystemAPI调用getContentSummary方法:ContentSummarysummary=src.fs.getContentSummary(src.path);out.println(summary.

java - 多个文件作为 Hadoop Dfs 和 mapreduce 的输入

通常我们将一个文本文件作为java文件的输入(比如在简单的字数统计问题的情况下)。相反,现在我有100个csv文件,我想将其作为我的java代码的输入。(所有文件不能简单地合并为1个文件)。试图预测给定100只股票的最大/最小股票波动率,因此每个csv文件都是唯一的。那么,如何将csv文件的整个文件夹作为输入流提供给java程序。 最佳答案 解决方案1:为了解决这个问题,我们可以使用FileInputFormat.addInputPaths()方法,它可以采用逗号分隔的多个输入列表,我们可以将其写为FileInputFormat.a

hadoop 权限问题 (hdfs-site.xml dfs.permissions.enabled)

我最近在我的机器上安装了Hadoop。我有权限问题。我以用户rahul身份登录并尝试在HDFS中创建目录(hdfsdfs-mkdir/rahul_workspace)。但它给了我一个错误Permissiondenied:user=Rahul,access=WRITE,inode="/user":hdfs:hdfs:drwxr-xr-x。在Google上快速搜索此错误会导致许多响应建议通过将hdfs-site.xml中的dfs.permissions属性设置为false来禁用权限检查的解决方法。现在我可以在HDFS中创建目录。将上述属性设置为false后,我可以访问所有其他hadoop服

hadoop - 更改 dfs.block 大小的值是否会影响现有数据

我的Hadoop版本是2.5.2。我正在更改主节点上hdfs-site.xml文件中的dfs.blocksize。我有以下问题:1)这个变化会影响HDFS中已有的数据吗2)我需要将此更改传播到Hadoop集群中的所有节点还是仅在NameNode上就足够了 最佳答案 1)WillthischangeaffecttheexistingdatainHDFS不,不会。它将保留旧文件的旧block大小。为了让它接受新的block更改,您需要重写数据。您可以对数据执行hadoopfs-cp或distcp。新副本将具有新的block大小,您可以删

java - Hadoop:TaskTracker 和 JobTracker 不以 start-dfs.sh 开头

我正在尝试使用此链接在我的笔记本电脑上设置hadoop0.22.0以用于学习目的http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/当我运行脚本start-dfs.sh时,这是输出startingnamenode,loggingto/usr/local/hadoop/bin/../logs/hadoop-raunak-namenode-ubuntu.outlocalhost:startingdatanode,loggingto/usr/local/hadoop/

Hadoop DFS 权限错误

2009/08/1113:25:39[INFO]-put:org.apache.hadoop.fs.permission.AccessControlException:Permissiondenied:user=yskhoo,access=WRITE,inode="":bad-boy:supergroup:rwxr-xr-x当我尝试将一些文件从我的LFS放入HDFS时,为什么总是出现此错误? 最佳答案 权限被拒绝就是事实---yskhoo试图访问bad-boy的文件。不确定空白inode名称。

hadoop - 如何释放hadoop中的dfs空间?

我已经从hbase的2500万行中清空了一个列。我是否需要对表进行压缩以重新获得hbase中未使用的空间。当前dfs使用率已使用93%,无法启Action业。有什么想法可以重新获得空间吗? 最佳答案 您应该尝试运行主要压缩以查看是否可以解决问题。您可能还会打HBASE-6564问题已在0.95.0中修复。 关于hadoop-如何释放hadoop中的dfs空间?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.