hdfs_clusters

c++ - : No module named _hdfs_*

我能够毫无错误地构建和安装Pydoop，因此，例如，我可以执行以下操作:>>>importpydoop>>>pydoop.__version__'0.10.0'但是，当我尝试导入主要的Pydoop模块(例如pipes或hdfs)时，我遇到了ImportError:>>>importpydoop.hdfsTraceback(mostrecentcalllast):File"",line1,inFile"pydoop/hdfs/__init__.py",line79,infromfsimporthdfs,default_is_localFile"pydoop/hdfs/fs.py",lin

hadoop - 比较hadoop hdfs中的时间戳

我是hadoop的新手，而且我手头有一个问题。有没有办法比较HDFS中两个文件之间的时间戳？非常感谢任何帮助。最佳答案使用FileSystem.getFileStatus(Path)获取FileStatus的方法返回对象，可以通过FileStaus.getModifiedTime()获取文件的修改时间方法FileSystemfs=FileSystem.get(conf);longts1=fs.getFileStatus(newPath("/path/to/file1")).getModifiedTime();longts2=fs

hadoop hdfs section apache

java - 无法使用 URL 协议(protocol)处理程序从 HDFS 获取数据

我在java中运行以下程序时遇到问题(我是java的初学者)。这里的程序使用HDFS特定的URLstreamhandlerfactory来使用适当的协议(protocol)处理程序来访问HDFS。在eclipse中，它没有显示任何错误。我已将hadoop-common-2.2.0.jar放在构建路径中。packageorg.hdfs.prog;//ccURLCatDisplaysfilesfromaHadoopfilesystemonstandardoutputusinga//URLStreamHandlerimportjava.io.InputStream;importjava.ne

protocol java apache section eclipse maven hadoop

Hadoop MapReduce - 程序在文件系统上工作，但在 HDFS 上不工作

这里是Hadoop新手。所以我只是配置了一个单节点设置，我不确定文件应该放在哪里？!我的理解是应该在HDFS上。因此，我使用“将文件上传到DFS”向我的HDFS添加了一个文本文件“zulu.txt”(右键单击DFS；见下图)当我使用Stringinput="/user/irobot-pc/irobot/In/";我收到以下错误代码:输入路径不存在Exceptioninthread"main"org.apache.hadoop.mapreduce.lib.input.InvalidInputException:Inputpathdoesnotexist:file:/user/irobot

上工 MapReduce section hadoop strong

python - 为什么配置单元试图在 hdfs 中写入/用户？

使用如下所示的简单HiveQL查询:SELECTevent_typeFROM{{table}}wheredt=20140103limit10;{{table}}部分只是通过Jinja2使用的运行器代码插入。我正在使用来自python的subprocess.Popen在配置单元命令行上使用-e标志运行我的查询。出于某种原因，此设置试图写入HDFS中的常规/user目录？Sudo命令无效。产生的错误如下:JobSubmissionfailedwithexception:org.apache.hadoop.security.AccessControlException(Permissiond

配置单 python code section pre hadoop hive hdfs

hadoop - 在 HDFS 中移动文件的最佳实践或工具

我们正在map-reduce上进行POC以计算我们应用程序的模块使用情况。应用程序在位于单独盒子上的J2EE容器上运行，hadoop安装在单独的盒子上，我们需要将日志文件从应用程序容器盒子移动到hadoop盒子。下面提到的是一些需要帮助/建议的查询。有什么工具/框架可以将日志文件从多个位置移动到HDFS？什么是最佳实践？如何运行移动文件的作业？移动到HDFS应该是cron作业还是文件大小触发器？最佳答案您需要ApacheFlume。Flume是一种流行的标准工具，用于将日志文件移动到HadoopHDFS中。它可以作为cron作业

hadoop HDFS section

hadoop - Hadoop 中需要 "runuser hdfs -s/bin/bash/bin/bash"

我是hadoop的新手，正在关注这个link在Fedora20中安装它。这篇文章中有一个命令:runuserhdfs-s/bin/bash/bin/bash-c"hadoopfs-mkdir/user/"在这部分命令中，我们在HDFS中创建一个目录:"hadoopfs-mkdir/user/"但是我无法理解上面命令的这一部分的用途/含义是什么:runuserhdfs-s/bin/bash/bin/bash请告诉我这个命令的确切用途/含义是什么:runuserhdfs-s/bin/bash/bin/bash 最佳答案这有点令人困惑，

bash amp code pre hadoop mapreduce hdfs

java - 如何使用Java代码将文件上传和下载到hdfs

我是hadoop的新手，正在尝试通过hdfs上传和下载文件。Java代码。这应该表现为数据上传:hadoopfs-putor-copyFromLocalfilenamedirectoryName和数据下载hadoopfs-getor-copyToLocalfilenamedirectoryName来自高清文件系统。我需要这个，因为数据集包含图像、音频、视频等文件。上面的命令适用于所有类型的数据，如果我尝试使用Javai/o阅读器代码，它适用于文本文件，但不适用于图像、视频。docx等..请在这里帮忙。在此处编辑:publicstaticvoidmain(String[]args)thr

java code section hadoop

java - 如何在 Lucene 中从 hdfs 读取索引

您好，我正在使用Lucene在hiveudf中搜索数据。所以我的索引目录将在hdfs中。如何使用Lucene读取hdfs目录以获取索引。下面是一些代码片段。IndexReaderindexReader=DirectoryReader.open(FSDirectory.open(newFile(url)));IndexSearcherindexSearcher=newIndexSearcher(indexReader);在url中，我传递了索引的hdfs位置，如下所示hdfs://localhost:9000/home/input_all/index/spatial_search_ind

何在 Lucene section hdfs java hadoop solr

hadoop - 我可以在 HDFS 中有不同的 block 放置策略吗？

即一个集群有多个应用程序，每个应用程序在副本位置方面有不同的要求-我可以设置它以支持这些多个应用程序吗？最佳答案是的，这是可能的。注意:自行承担风险。编写block放置策略极其复杂且具有风险。您的应用程序需要确定如何放置副本，这似乎是一种代码味道。想想你是否真的需要编写block放置策略。警告过您之后，如果您想知道如何完成此操作，请继续。通常，此功能用于控制群集的平衡程度。例如。由Hadoop供应商之一构建的策略之一是将block放置在磁盘使用百分比最低的磁盘上。这里有一堆资源供您查看:SO发布同样的问题:Modifyingth

hadoop block section stackoverflow hdfs

14 15 161718 19 20