hdfs_clusters

hadoop - 如何从HDFS hadoop中的blockName中查找文件

在给定block名称/ID的情况下，在HDFS中查找与block关联的文件的最简单方法是什么最佳答案不确定这是什么时候引入的，但你可以这样做hdfsfsck-blockIdhdfsfsck-blockIdblk_1100790203ConnectingtonamenodeFSCKstartedbyhdfsBlockId:blk_1100790203Blockbelongsto:/tmp/1447685899336.txt 关于hadoop-如何从HDFShadoop中的blockNa

hadoop - hdfs如何选择一个datanode来存储

如题所示，当客户端请求向hdfs写入文件时，HDFS或namenode如何选择将文件存储在哪个datanode上？hdfs是否尝试将此文件的所有block存储在同一节点或同一机架中的某个节点(如果它太大)？hdfs有没有提供任何API让应用程序随心所欲地将文件存储在某个datanode中？最佳答案 howdoestheHDFSornamenodechoosewhichdatanodetostorethefile?HDFS有一个BlockPlacementPolicyDefault，查看API文档了解更多详情。应该可以扩展Block

datanode hadoop section hdfs

hadoop - 如何通过hdfs导入/导出hbase数据(hadoop命令)

我已经通过nutch将我爬取的数据保存在文件系统为hdfs的Hbase中。然后我通过命令将我的数据(hbase的一张表)从hdfs直接复制到某个本地目录hadoopfs-CopyToLocal/hbase/input~/Documents/output之后，我通过以下命令将该数据复制回另一个hbase(其他系统)hadoopfs-CopyFromLocal~/Documents/input/hbase/mydata它保存在hdfs中，当我在hbaseshell中使用list命令时，它显示为另一个表，即“mydata”，但是当我运行scan命令时，它说没有名称为“mydata”的表。上述

hadoop hbase code local-files

hadoop - Hdfs 放 VS webhdfs

我正在使用webhdfs在hadoophdfs中加载28GB的文件，加载大约需要25分钟。我尝试使用hdfsput加载相同的文件，它花了大约6分钟。为什么性能会有如此大的差异？推荐使用什么？有人可以解释一下或指导我找到一些好的链接，这真的很有帮助。下面是我正在使用的命令curl-i--negotiate-u:-XPUT"http://$hostname:$port/webhdfs/v1/$destination_file_location/$source_filename.temp?op=CREATE&overwrite=true"这将重定向到我在下一步写入数据时使用的数据节点地址。

webhdfs hadoop strong section hdfs

java - 从java中删除hdfs文件夹

在边缘节点上运行的Java应用程序中，我需要删除一个hdfs文件夹(如果存在)。我需要在运行在文件夹中输出的mapreduce作业(使用spark)之前执行此操作。我发现我可以使用这个方法org.apache.hadoop.fs.FileUtil.fullyDelete(newFile(url))但是，我只能让它与本地文件夹一起工作(即运行计算机上的文件url)。我尝试使用类似的东西:url="hdfs://hdfshost:port/the/folder/to/delete";hdfs://hdfshost:port是hdfsnamenodeIPC。我将它用于mapreduce，所以

java hdfs section code hadoop

java - 在 HDFS 上合并多个 LZO 压缩文件

假设我在HDFS上有这个结构:/dir1/dir2/Name1_2015/file1.lzofile2.lzofile3.lzo/Name2_2015file1.lzofile2.lzoName1_2015.lzo我想合并'dir2'中每个目录的每个文件并将结果附加到/dir1/DirName.lzo中的文件例如，对于/dir1/dir2/Name1_2015，我想合并file1.lzo、file2.lzo、file3.lzo并将其附加到/dir1/Name1_2015.lzo每个文件都是LZO压缩的。我该怎么做？谢谢最佳答案如

java HDFS section lzo file hadoop mapreduce compression

java - 使用 HDFS 输入和 HBASE 输出的 hadoop map reduce 作业

我是hadoop的新手。我有一个MapReduce作业，它应该从Hdfs获取输入并将reducer的输出写入Hbase。我还没有找到任何好的例子。这是代码，运行这个例子的错误是Typemismatchinmap,expectedImmutableBytesWritablerecievedIntWritable.映射器类publicstaticclassAddValueMapperextendsMapper{/*input*output*/publicvoidmap(LongWritablekey,Textvalue,Contextcontext)throwsIOException,In

hadoop reduce ImmutableBytesWritable IntWritable class java mapreduce hbase hdfs

hadoop - 带 append 功能的 HDFS 是如何工作的

假设一个使用默认block大小(128MB)，并且有一个文件使用130MB；所以使用一个全尺寸block和一个2MB的block。然后需要将20MBappend到文件(现在总计应该是150MB)。会发生什么？HDFS是否真的将最后一个block的大小从2MB调整为22MB？或者创建一个新block？追加到HDFS中的文件如何处理并发性？是否存在数据丢失的风险？HDFS是否创建第三个block将20+2MB放入其中，并删除2MB的block。如果是，这如何同时工作？最佳答案根据latestdesigndocument在Jirais

hadoop append block section HDFS size

ubuntu - 打开存储在 HDFS 中的文件以在 VI 中进行编辑

我想直接在HDFS中使用VI编辑一个文本文件，而不必将其复制到本地，编辑它，然后再从本地复制回来。这可能吗？编辑:这在Cloudera的HueUI中曾经是可能的，但现在不再是这样了。最佳答案您可以尝试几个选项，它们允许您将HDFS挂载到本地机器，然后您可以使用本地系统命令，如cp、rm、cat、mv、mkdir、rmdir等。但是它们都不支持随机写操作，但支持追加操作。NFSGatewayHadoopFuseNFSGateway使用NFSV3并支持附加到文件但不能执行随机写入操作。关于您对hue的评论，也许Hue正在将文件下载到

中进 ubuntu section hadoop noreferrer hdfs vi

hadoop - Apache Spark-SQL 与 Sqoop 基准测试，同时将数据从 RDBMS 传输到 hdfs

我正在处理一个用例，我必须将数据从RDBMS传输到HDFS。我们已经使用sqoop完成了这个案例的基准测试，发现我们能够在6-7分钟内传输大约20GB的数据。当我尝试使用SparkSQL时，性能非常低(1Gb的记录需要4分钟才能从netezza传输到hdfs)。我正在尝试进行一些调整并提高其性能，但不太可能将其调整到sqoop的水平(1分钟内大约3Gb的数据)。我同意spark主要是一个处理引擎这一事实，但我的主要问题是spark和sqoop都在内部使用JDBC驱动程序，所以为什么性能差异如此之大(或者我可能遗漏了一些东西)。我在这里发布我的代码。objecthelloWorld{de

Spark-SQL hadoop 34 option section apache-spark-sql sqoop bigdata

234 235 236237238 239 240