草庐IT

hdfs_clusters

全部标签

python - 如何使用 webhdfs 列出 HDFS 目录内容?

是否可以使用webhdfs检查HDFS目录的内容?这将像hdfsdfs-ls通常那样工作,但使用webhdfs。如何使用Python2.6列出webhdfs目录? 最佳答案 您可以使用LISTSTATUS动词。文档位于ListaDirectory,下面的代码可以在WebHDFSRESTAPI上找到文档:使用curl,它看起来像这样:curl-i"http://:/webhdfs/v1/?op=LISTSTATUS"响应是FileStatusesJSON对象:{"name":"FileStatuses","properties":{"

hadoop - 对 hbase/hdfs 的商业支持

我知道cloudera处于为hadoop/hbase/hdfs提供商业支持的最前沿。还有其他供应商提供此服务吗?-清美 最佳答案 Cloudera为hadoop和hbase提供商业支持。还有其他供应商,例如提供工具的Karmasphere。没有其他人提供像Cloudera这样规模的hadoop支持。更新:Hortonworks,雅虎的hadoop衍生产品也进入了这个领域。 关于hadoop-对hbase/hdfs的商业支持,我们在StackOverflow上找到一个类似的问题:

java - 关于 hadoop hdfs 文件系统重命名

我正在将大量数据存储到hdfs中。我需要将文件从一个文件夹移动到另一个文件夹。请问文件系统重命名方法的成本一般是多少?假设我必须移动数TB的数据。非常感谢。 最佳答案 如果正确实现,在HDFS或任何文件系统中移动文件涉及更改namespace而不是移动实际数据。浏览代码仅完成名称节点中namespace(内存和编辑日志)的更改。来自NameNode.java类NameNode控制两个关键表:1)文件名->block序列(命名空间)2)block->machinelist("inodes")只需要修改第一部分,不需要修改机器列表的bl

hadoop - 如何在不使用 map reduce 的情况下使用 lzo 压缩写入 hadoop hdfs

我正在写信给hadoophdfs。该文件必须使用lzo压缩。此外,该文件将实时附加。源文件是hadoop中不存在的gzip文件。批处理这个gzip文件,然后进行lzo压缩并附加到hadoop。这是否消除了使用mapreduce的可能性?我们怎样才能做到这一点?在此先感谢您的帮助 最佳答案 您可以从自定义Java代码直接写入HDFS:publicclassHdfsWriteextendsConfiguredimplementsTool{publicintrun(String[]arg0)throwsException{//create

java - 解析大于 hdfs block 大小的 XmlInputFormat 元素

我是HadoopMapReduce的新手(准确地说是4天),我被要求在集群上执行分布式XML解析。根据我在Internet上的(重新)搜索,使用Mahout的XmlInputFormat应该相当容易,但我的任务是确保系统适用于巨大的(~5TB)XML文件。据我所知,发送到映射器的文件拆分不能大于hdfsblock大小(或每个作业的block大小)。[如果我弄错了请纠正我]。我面临的问题是有些XML元素很大(~200MB)而有些很小(~1MB)所以我的问题是:当XmlInputFormat创建的XML元素block大于block大小时会发生什么?它会将整个大文件(例如200MB)发送到映

apache - fsimage hdfs 的内容

我有一个问题,关于fsimage中的元数据是什么。我读到文件系统命名空间的所有突变,例如文件重命名、权限更改、文件创建、block分配都在fsimage中。但是block位置数据也是如此吗?它是否也包含有关block存储位置(在哪个数据节点上)的信息?我从这个来源得到:http://bradhedlund.com/2011/09/10/understanding-hadoop-clusters-and-the-network/关于存储block的元数据是由数据节点的block报告构建的。这是真的?所以Fsimage不包含有关block位置的信息? 最佳答案

hadoop - Flume NG 不写入 HDFS

我是Flume和Hadoop的新手,所以我正在尝试设置最简单(但有点帮助/现实)的示例。我正在使用HortonWorksSandbox在VM客户端中。在遵循一个教程12(涉及设置和使用Flume)之后,一切似乎都在正常工作。所以我设置了自己的flume.conf读取apache访问日志使用内存channel写入HDFS很简单吧?这是我的配置文件agent.sources=exec-sourceagent.sinks=hdfs-sinkagent.channels=ch1agent.sources.exec-source.type=execagent.sources.exec-sourc

hadoop - 如何从 HDFS 文件系统执行 hadoop jar?

我总是从本地文件系统执行作业,如下所示hadoopjar/home/usr/jar/myjar.jarcom.test.TestMain如何执行相同的命令,但myjar.jar将在hdfs中?有点像hadoopjarhdfs:///home/usr/jar/myjar.jarcom.test.TestMain但这当然行不通... 最佳答案 hadoopfs-copyToLocalhdfs:///home/usr/jar/myjar.jar/tmp/myjar.jar&&hadoopjar/tmp/myjar.jarcom.test.

hadoop fs -lsr hdfs ://localhost:9000 not working

我刚开始学习hdfs,并且在centosbox上设置了单节点hadoop(版本2.2.0)。在start-all命令之后,我正在尝试运行一些hdfs命令,但下面提到的命令不起作用。bin/hadoopfs-lsrhdfs://localhost:9000/tmp/hadoop-root/dfs/name当这个命令起作用时bin/hadoopfs-lsrfile:///tmp/hadoop-root/dfs/name这是我的core-site.xml文件fs.default.namehdfs://localhost:9000mapred-site.xml文件mapred.job.trac

linux - HDFS block 中的数据是如何存储的?

我在阅读有关HDFS的内容时想知道是否有任何特定的格式来排列block中的数据。假设有一个265MB的文件被复制到Hadoop集群,HDFSblock大小为64MB。因此文件被分成5个部分——64MB+64MB+64MB+64MB+9MB,并分布在数据节点之间。正确吗?我怀疑在存储数据的64MBblock中是否有任何格式?如果数据以任何格式/结构存储在block中,则存储的数据应小于64MB,因为数据结构/header等本身可能会占用一些空间。由于HDFS数据节点是一个逻辑文件系统(它运行在linux之上,HDFS没有单独的分区),所有block都应该作为文件存储在linux分区中。正