hdfs_clusters_草庐IT

hadoop - 复制文件 : Could only be replicated to 0 nodes, 而不是 1 时出现 HDFS 错误

将文件从本地系统复制到HDFS时出现以下错误，我正在使用单节点13/08/0410:50:02警告hdfs.DFSClient:DataStreamer异常:java.io.IOException:文件/user/vishu/input只能复制到0个节点，而不是1我删除了dfs/Name和dfs/data目录，格式化了Namenode还是没有用。并且我有足够的空间来复制数据。谁能帮忙解决这个问题？问候，维斯瓦最佳答案有时数据节点可能启动缓慢，这可能会导致上述问题。在dfs和mapred恶魔启动后保持一些等待时间。bin/hado

时出 replicated section stackoverflow hadoop hdfs

hadoop - hadoop 2.2.0 wordcount 示例中的 "No FileSystem for scheme: hdfs"IOException

我全新安装了hadoopyarn并通过hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples...中给定的jar文件执行了wordcount示例，但是当我尝试编译wordcountsource并运行它，它给了我java.io.IOException:NoFileSystemforscheme:hdfs。上面的异常与这行代码有关:FileInputFormat.addInputPath(job,newPath(args[0]));编辑:命令和输出如下:hduser@master-virtual-machine:~$hadoopjar

hadoop IOException FileSystem java hdfs word-count hadoop-yarn

java - 如何在java客户端获取HDFS服务器的元数据信息？

我需要构建一个实用程序类来测试与HDFS的连接。测试应显示HDFS的服务器端版本和任何其他元数据。虽然，有很多可用的客户端演示，但没有关于提取服务器元数据的演示。有人可以帮忙吗？请注意，我的客户端是一个远程java客户端，没有hadoop和HDFS配置文件来初始化配置。我需要通过动态使用其URL连接到HDFS名称节点服务来完成此操作。最佳答案 Hadoop通过HTTP公开一些您可以使用的信息。参见Cloudera的文章。可能最简单的方法是连接到NNUI并解析内容服务器返回:URLurl=newURL("http://myhost:

java 何在 hadoop apache println connection client hdfs

java - 将文件复制到HDFS时，如何控制该文件驻留在哪些节点上？

我正在处理一种奇怪的用例，我需要确保文件A是机器A的本地文件，文件B是机器B的本地文件，等等。将文件复制到HDFS时，有没有办法控制该文件将驻留在哪些机器上？我知道任何给定的文件都将在三台机器上复制，但我需要能够说“文件A肯定存在于机器A上”。我不太关心其他两台机器——它们可以是我集群上的任何机器。谢谢。最佳答案我不这么认为，因为通常当文件大于64MB(block大小)时，文件block的主要副本将驻留在多个服务器上。关于java-将文件复制到HDFS时，如何控制该文件驻留在哪些节

该文留在 section java linux hadoop mapreduce hdfs

hadoop - HDFS 中文件的 ctime

有什么方法可以获取HDFS中文件的ctime吗？FileStatus中有修改时间，但随着文件被追加，这次也会被修改。最佳答案 HDFS按照代码HERE只存储文件的修改时间和访问时间。.文件的修改时间是文件最后一次关闭的时间(比如最初写入和关闭的时间，或者重新打开追加和关闭的时间)。在大多数情况下，我们放置在HDFS上的大多数文件的修改时间不会改变，除非它们进行了上述任何修改。因此，大多数时候(不总是)可以将修改后的创建时间称为可接受的创建时间。关于hadoop-HDFS中文件的cti

hadoop ctime section HDFS

hadoop - 使用 HDFS 的最低依赖性

我需要将一些文件从我的客户端应用程序放入HDFS。我不打算将作业安排到hadoop，只需要将一些东西放入HDFS。Maven对hadoop-core的依赖带来了很多我根本不需要的东西，比如jersey-core等。是否有任何简单的客户端库可以在不获取完整的hadoop依赖项的情况下与HDFS一起工作？我可以使用的最少maven依赖项集是什么？是webhdfs唯一的选择？最佳答案他们引入了hadoop-client，它比hadoop-core作为客户端库要好得多。关于hadoop-使

依赖性 hadoop section HDFS webhdfs

hadoop - 有没有办法从 HDFS 将数据加载到 cassandra 中？

我正在寻找将我的数据从HDFS加载到cassandra的选项。有什么办法可以达到这个要求吗？场景是i)我在cassandra中创建了一个类似于HDFS中可用数据的数据模型ii)现在我想将我的hdfs数据导出到创建的cassandra数据模型。如有任何帮助，我们将不胜感激。谢谢，卡莱最佳答案找到了。"构建SSTables并上传使用自定义分区程序在reduce步骤中镜像拓扑”https://github.com/spotify/hdfs2cass 关于hadoop-有没有办法从HDFS将

cassandra hadoop section https hdfs

java - 将 HDFS 挂载到本地目录失败

我目前正在尝试将hdfs挂载到ubuntu机器上的本地目录。我正在使用hadoop-fuse-dfs包。所以，我正在执行下面的命令ubuntu@dev:~$hadoop-fuse-dfsdfs://localhost:8020/mnt/hdfs输出INFO/var/lib/jenkins/workspace/generic-package-ubuntu64-12-04/CDH4.5.0-Packaging-Hadoop-2013-11-20_14-31-53/hadoop-2.0.0+1518-1.cdh4.5.0.p0.24~precise/src/hadoop-hdfs-proje

java HDFS section code hadoop cloudera mount

hadoop - 如何判断一个大文件是否已经在我的hdfs集群中？

我有一个很大的jar包要安装到我的hdfs集群，但是如果我以前安装过，我不想安装两次，所以需要一种方法来判断hdfs中的jar包是不是和我本地的一样。我想用校验和来解决这个问题。我的代码是这样的:valfs=FileSystem.get(conf)vallfs=FileSystem.getLocal(conf);vallocalchecksum=lfs.getFileChecksum(src)valhdfschecksum=fs.getFileChecksum(dst)if(!localchecksum.equals(hdfschecksum)){//uploadthejarfile}

大文 hadoop section getFileChecksum stackoverflow md5 hdfs checksum

file - Hadoop - 在 HDFS 中手动拆分文件

我提交了一个大小为1GB的文件，我想将该文件拆分为大小为100MB的文件。我怎样才能从命令行做到这一点。我正在搜索如下命令:hadoopfs-split--bytes=100m/user/foo/one_gb_file.csv/user/foo/100_mb_file_1-11.csv有没有办法在HDFS中做到这一点？最佳答案在HDFS中，我们不能指望unix中可用的所有功能。当前版本的hadoopfs实用程序不提供此功能。也许我们可以期待future。您可以提出一个错误(apacheJira中的改进)以将此功能包含在hdfs中

Hadoop file section stackoverflow questions split hdfs