hdfs_clusters

python - 如何使用 webhdfs 列出 HDFS 目录内容？

是否可以使用webhdfs检查HDFS目录的内容？这将像hdfsdfs-ls通常那样工作，但使用webhdfs。如何使用Python2.6列出webhdfs目录？最佳答案您可以使用LISTSTATUS动词。文档位于ListaDirectory，下面的代码可以在WebHDFSRESTAPI上找到文档:使用curl，它看起来像这样:curl-i"http://:/webhdfs/v1/?op=LISTSTATUS"响应是FileStatusesJSON对象:{"name":"FileStatuses","properties":{"

webhdfs python 34 code description json hadoop hdfs

hadoop - 对 hbase/hdfs 的商业支持

我知道cloudera处于为hadoop/hbase/hdfs提供商业支持的最前沿。还有其他供应商提供此服务吗？-清美最佳答案 Cloudera为hadoop和hbase提供商业支持。还有其他供应商，例如提供工具的Karmasphere。没有其他人提供像Cloudera这样规模的hadoop支持。更新:Hortonworks，雅虎的hadoop衍生产品也进入了这个领域。关于hadoop-对hbase/hdfs的商业支持，我们在StackOverflow上找到一个类似的问题：

hadoop hbase section noreferrer hdfs

java - 关于 hadoop hdfs 文件系统重命名

我正在将大量数据存储到hdfs中。我需要将文件从一个文件夹移动到另一个文件夹。请问文件系统重命名方法的成本一般是多少？假设我必须移动数TB的数据。非常感谢。最佳答案如果正确实现，在HDFS或任何文件系统中移动文件涉及更改namespace而不是移动实际数据。浏览代码仅完成名称节点中namespace(内存和编辑日志)的更改。来自NameNode.java类NameNode控制两个关键表:1)文件名->block序列(命名空间)2)block->machinelist("inodes")只需要修改第一部分，不需要修改机器列表的bl

命名 hadoop section NameNode java filesystems hdfs

hadoop - 如何在不使用 map reduce 的情况下使用 lzo 压缩写入 hadoop hdfs

我正在写信给hadoophdfs。该文件必须使用lzo压缩。此外，该文件将实时附加。源文件是hadoop中不存在的gzip文件。批处理这个gzip文件，然后进行lzo压缩并附加到hadoop。这是否消除了使用mapreduce的可能性？我们怎样才能做到这一点？在此先感谢您的帮助最佳答案您可以从自定义Java代码直接写入HDFS:publicclassHdfsWriteextendsConfiguredimplementsTool{publicintrun(String[]arg0)throwsException{//create

hadoop 何在 section outputPath gzip hdfs lzo

java - 解析大于 hdfs block 大小的 XmlInputFormat 元素

我是HadoopMapReduce的新手(准确地说是4天)，我被要求在集群上执行分布式XML解析。根据我在Internet上的(重新)搜索，使用Mahout的XmlInputFormat应该相当容易，但我的任务是确保系统适用于巨大的(~5TB)XML文件。据我所知，发送到映射器的文件拆分不能大于hdfsblock大小(或每个作业的block大小)。[如果我弄错了请纠正我]。我面临的问题是有些XML元素很大(~200MB)而有些很小(~1MB)所以我的问题是:当XmlInputFormat创建的XML元素block大于block大小时会发生什么？它会将整个大文件(例如200MB)发送到映

XmlInputFormat block 射器 code java xml hadoop

apache - fsimage hdfs 的内容

我有一个问题，关于fsimage中的元数据是什么。我读到文件系统命名空间的所有突变，例如文件重命名、权限更改、文件创建、block分配都在fsimage中。但是block位置数据也是如此吗？它是否也包含有关block存储位置(在哪个数据节点上)的信息？我从这个来源得到:http://bradhedlund.com/2011/09/10/understanding-hadoop-clusters-and-the-network/关于存储block的元数据是由数据节点的block报告构建的。这是真的？所以Fsimage不包含有关block位置的信息？最佳答案

fsimage apache strong section block hadoop hdfs

hadoop - Flume NG 不写入 HDFS

我是Flume和Hadoop的新手，所以我正在尝试设置最简单(但有点帮助/现实)的示例。我正在使用HortonWorksSandbox在VM客户端中。在遵循一个教程12(涉及设置和使用Flume)之后，一切似乎都在正常工作。所以我设置了自己的flume.conf读取apache访问日志使用内存channel写入HDFS很简单吧？这是我的配置文件agent.sources=exec-sourceagent.sinks=hdfs-sinkagent.channels=ch1agent.sources.exec-source.type=execagent.sources.exec-sourc

hadoop Flume lib usr hdfs

hadoop - 如何从 HDFS 文件系统执行 hadoop jar？

我总是从本地文件系统执行作业，如下所示hadoopjar/home/usr/jar/myjar.jarcom.test.TestMain如何执行相同的命令，但myjar.jar将在hdfs中？有点像hadoopjarhdfs:///home/usr/jar/myjar.jarcom.test.TestMain但这当然行不通... 最佳答案 hadoopfs-copyToLocalhdfs:///home/usr/jar/myjar.jar/tmp/myjar.jar&&hadoopjar/tmp/myjar.jarcom.test.

hadoop HDFS section jar

hadoop fs -lsr hdfs ://localhost:9000 not working

我刚开始学习hdfs，并且在centosbox上设置了单节点hadoop(版本2.2.0)。在start-all命令之后，我正在尝试运行一些hdfs命令，但下面提到的命令不起作用。bin/hadoopfs-lsrhdfs://localhost:9000/tmp/hadoop-root/dfs/name当这个命令起作用时bin/hadoopfs-lsrfile:///tmp/hadoop-root/dfs/name这是我的core-site.xml文件fs.default.namehdfs://localhost:9000mapred-site.xml文件mapred.job.trac

localhost working code gt lt hadoop

linux - HDFS block 中的数据是如何存储的？

我在阅读有关HDFS的内容时想知道是否有任何特定的格式来排列block中的数据。假设有一个265MB的文件被复制到Hadoop集群，HDFSblock大小为64MB。因此文件被分成5个部分——64MB+64MB+64MB+64MB+9MB，并分布在数据节点之间。正确吗？我怀疑在存储数据的64MBblock中是否有任何格式？如果数据以任何格式/结构存储在block中，则存储的数据应小于64MB，因为数据结构/header等本身可能会占用一些空间。由于HDFS数据节点是一个逻辑文件系统(它运行在linux之上，HDFS没有单独的分区)，所有block都应该作为文件存储在linux分区中。正

linux block hadoop hdfs rw-r

206 207 208209210 211 212