草庐IT

hdfs_clusters

全部标签

hadoop - 复制文件 : Could only be replicated to 0 nodes, 而不是 1 时出现 HDFS 错误

将文件从本地系统复制到HDFS时出现以下错误,我正在使用单节点13/08/0410:50:02警告hdfs.DFSClient:DataStreamer异常:java.io.IOException:文件/user/vishu/input只能复制到0个节点,而不是1我删除了dfs/Name和dfs/data目录,格式化了Namenode还是没有用。并且我有足够的空间来复制数据。谁能帮忙解决这个问题?问候,维斯瓦 最佳答案 有时数据节点可能启动缓慢,这可能会导致上述问题。在dfs和mapred恶魔启动后保持一些等待时间。bin/hado

hadoop - hadoop 2.2.0 wordcount 示例中的 "No FileSystem for scheme: hdfs"IOException

我全新安装了hadoopyarn并通过hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples...中给定的jar文件执行了wordcount示例,但是当我尝试编译wordcountsource并运行它,它给了我java.io.IOException:NoFileSystemforscheme:hdfs。上面的异常与这行代码有关:FileInputFormat.addInputPath(job,newPath(args[0]));编辑:命令和输出如下:hduser@master-virtual-machine:~$hadoopjar

java - 如何在java客户端获取HDFS服务器的元数据信息?

我需要构建一个实用程序类来测试与HDFS的连接。测试应显示HDFS的服务器端版本和任何其他元数据。虽然,有很多可用的客户端演示,但没有关于提取服务器元数据的演示。有人可以帮忙吗?请注意,我的客户端是一个远程java客户端,没有hadoop和HDFS配置文件来初始化配置。我需要通过动态使用其URL连接到HDFS名称节点服务来完成此操作。 最佳答案 Hadoop通过HTTP公开一些您可以使用的信息。参见Cloudera的文章。可能最简单的方法是连接到NNUI并解析内容服务器返回:URLurl=newURL("http://myhost:

java - 将文件复制到HDFS时,如何控制该文件驻留在哪些节点上?

我正在处理一种奇怪的用例,我需要确保文件A是机器A的本地文件,文件B是机器B的本地文件,等等。将文件复制到HDFS时,有没有办法控制该文件将驻留在哪些机器上?我知道任何给定的文件都将在三台机器上复制,但我需要能够说“文件A肯定存在于机器A上”。我不太关心其他两台机器——它们可以是我集群上的任何机器。谢谢。 最佳答案 我不这么认为,因为通常当文件大于64MB(block大小)时,文件block的主要副本将驻留在多个服务器上。 关于java-将文件复制到HDFS时,如何控制该文件驻留在哪些节

hadoop - HDFS 中文件的 ctime

有什么方法可以获取HDFS中文件的ctime吗?FileStatus中有修改时间,但随着文件被追加,这次也会被修改。 最佳答案 HDFS按照代码HERE只存储文件的修改时间和访问时间。.文件的修改时间是文件最后一次关闭的时间(比如最初写入和关闭的时间,或者重新打开追加和关闭的时间)。在大多数情况下,我们放置在HDFS上的大多数文件的修改时间不会改变,除非它们进行了上述任何修改。因此,大多数时候(不总是)可以将修改后的创建时间称为可接受的创建时间。 关于hadoop-HDFS中文件的cti

hadoop - 使用 HDFS 的最低依赖性

我需要将一些文件从我的客户端应用程序放入HDFS。我不打算将作业安排到hadoop,只需要将一些东西放入HDFS。Maven对hadoop-core的依赖带来了很多我根本不需要的东西,比如jersey-core等。是否有任何简单的客户端库可以在不获取完整的hadoop依赖项的情况下与HDFS一起工作?我可以使用的最少maven依赖项集是什么?是webhdfs唯一的选择? 最佳答案 他们引入了hadoop-client,它比hadoop-core作为客户端库要好得多。 关于hadoop-使

hadoop - 有没有办法从 HDFS 将数据加载到 cassandra 中?

我正在寻找将我的数据从HDFS加载到cassandra的选项。有什么办法可以达到这个要求吗?场景是i)我在cassandra中创建了一个类似于HDFS中可用数据的数据模型ii)现在我想将我的hdfs数据导出到创建的cassandra数据模型。如有任何帮助,我们将不胜感激。谢谢,卡莱 最佳答案 找到了。"构建SSTables并上传使用自定义分区程序在reduce步骤中镜像拓扑”https://github.com/spotify/hdfs2cass 关于hadoop-有没有办法从HDFS将

java - 将 HDFS 挂载到本地目录失败

我目前正在尝试将hdfs挂载到ubuntu机器上的本地目录。我正在使用hadoop-fuse-dfs包。所以,我正在执行下面的命令ubuntu@dev:~$hadoop-fuse-dfsdfs://localhost:8020/mnt/hdfs输出INFO/var/lib/jenkins/workspace/generic-package-ubuntu64-12-04/CDH4.5.0-Packaging-Hadoop-2013-11-20_14-31-53/hadoop-2.0.0+1518-1.cdh4.5.0.p0.24~precise/src/hadoop-hdfs-proje

hadoop - 如何判断一个大文件是否已经在我的hdfs集群中?

我有一个很大的jar包要安装到我的hdfs集群,但是如果我以前安装过,我不想安装两次,所以需要一种方法来判断hdfs中的jar包是不是和我本地的一样。我想用校验和来解决这个问题。我的代码是这样的:valfs=FileSystem.get(conf)vallfs=FileSystem.getLocal(conf);vallocalchecksum=lfs.getFileChecksum(src)valhdfschecksum=fs.getFileChecksum(dst)if(!localchecksum.equals(hdfschecksum)){//uploadthejarfile}

file - Hadoop - 在 HDFS 中手动拆分文件

我提交了一个大小为1GB的文件,我想将该文件拆分为大小为100MB的文件。我怎样才能从命令行做到这一点。我正在搜索如下命令:hadoopfs-split--bytes=100m/user/foo/one_gb_file.csv/user/foo/100_mb_file_1-11.csv有没有办法在HDFS中做到这一点? 最佳答案 在HDFS中,我们不能指望unix中可用的所有功能。当前版本的hadoopfs实用程序不提供此功能。也许我们可以期待future。您可以提出一个错误(apacheJira中的改进)以将此功能包含在hdfs中