草庐IT

hdfs_clusters

全部标签

hadoop - 如何从HDFS hadoop中的blockName中查找文件

在给定block名称/ID的情况下,在HDFS中查找与block关联的文件的最简单方法是什么 最佳答案 不确定这是什么时候引入的,但你可以这样做hdfsfsck-blockIdhdfsfsck-blockIdblk_1100790203ConnectingtonamenodeFSCKstartedbyhdfsBlockId:blk_1100790203Blockbelongsto:/tmp/1447685899336.txt 关于hadoop-如何从HDFShadoop中的blockNa

hadoop - hdfs如何选择一个datanode来存储

如题所示,当客户端请求向hdfs写入文件时,HDFS或namenode如何选择将文件存储在哪个datanode上?hdfs是否尝试将此文件的所有block存储在同一节点或同一机架中的某个节点(如果它太大)?hdfs有没有提供任何API让应用程序随心所欲地将文件存储在某个datanode中? 最佳答案 howdoestheHDFSornamenodechoosewhichdatanodetostorethefile?HDFS有一个BlockPlacementPolicyDefault,查看API文档了解更多详情。应该可以扩展Block

hadoop - 如何通过hdfs导入/导出hbase数据(hadoop命令)

我已经通过nutch将我爬取的数据保存在文件系统为hdfs的Hbase中。然后我通过命令将我的数据(hbase的一张表)从hdfs直接复制到某个本地目录hadoopfs-CopyToLocal/hbase/input~/Documents/output之后,我通过以下命令将该数据复制回另一个hbase(其他系统)hadoopfs-CopyFromLocal~/Documents/input/hbase/mydata它保存在hdfs中,当我在hbaseshell中使用list命令时,它显示为另一个表,即“mydata”,但是当我运行scan命令时,它说没有名称为“mydata”的表。上述

hadoop - Hdfs 放 VS webhdfs

我正在使用webhdfs在hadoophdfs中加载28GB的文件,加载大约需要25分钟。我尝试使用hdfsput加载相同的文件,它花了大约6分钟。为什么性能会有如此大的差异?推荐使用什么?有人可以解释一下或指导我找到一些好的链接,这真的很有帮助。下面是我正在使用的命令curl-i--negotiate-u:-XPUT"http://$hostname:$port/webhdfs/v1/$destination_file_location/$source_filename.temp?op=CREATE&overwrite=true"这将重定向到我在下一步写入数据时使用的数据节点地址。

java - 从java中删除hdfs文件夹

在边缘节点上运行的Java应用程序中,我需要删除一个hdfs文件夹(如果存在)。我需要在运行在文件夹中输出的mapreduce作业(使用spark)之前执行此操作。我发现我可以使用这个方法org.apache.hadoop.fs.FileUtil.fullyDelete(newFile(url))但是,我只能让它与本地文件夹一起工作(即运行计算机上的文件url)。我尝试使用类似的东西:url="hdfs://hdfshost:port/the/folder/to/delete";hdfs://hdfshost:port是hdfsnamenodeIPC。我将它用于mapreduce,所以

java - 在 HDFS 上合并多个 LZO 压缩文件

假设我在HDFS上有这个结构:/dir1/dir2/Name1_2015/file1.lzofile2.lzofile3.lzo/Name2_2015file1.lzofile2.lzoName1_2015.lzo我想合并'dir2'中每个目录的每个文件并将结果附加到/dir1/DirName.lzo中的文件例如,对于/dir1/dir2/Name1_2015,我想合并file1.lzo、file2.lzo、file3.lzo并将其附加到/dir1/Name1_2015.lzo每个文件都是LZO压缩的。我该怎么做?谢谢 最佳答案 如

java - 使用 HDFS 输入和 HBASE 输出的 hadoop map reduce 作业

我是hadoop的新手。我有一个MapReduce作业,它应该从Hdfs获取输入并将reducer的输出写入Hbase。我还没有找到任何好的例子。这是代码,运行这个例子的错误是Typemismatchinmap,expectedImmutableBytesWritablerecievedIntWritable.映射器类publicstaticclassAddValueMapperextendsMapper{/*input*output*/publicvoidmap(LongWritablekey,Textvalue,Contextcontext)throwsIOException,In

hadoop - 带 append 功能的 HDFS 是如何工作的

假设一个使用默认block大小(128MB),并且有一个文件使用130MB;所以使用一个全尺寸block和一个2MB的block。然后需要将20MBappend到文件(现在总计应该是150MB)。会发生什么?HDFS是否真的将最后一个block的大小从2MB调整为22MB?或者创建一个新block?追加到HDFS中的文件如何处理并发性?是否存在数据丢失的风险?HDFS是否创建第三个block将20+2MB放入其中,并删除2MB的block。如果是,这如何同时工作? 最佳答案 根据latestdesigndocument在Jirais

ubuntu - 打开存储在 HDFS 中的文件以在 VI 中进行编辑

我想直接在HDFS中使用VI编辑一个文本文件,而不必将其复制到本地,编辑它,然后再从本地复制回来。这可能吗?编辑:这在Cloudera的HueUI中曾经是可能的,但现在不再是这样了。 最佳答案 您可以尝试几个选项,它们允许您将HDFS挂载到本地机器,然后您可以使用本地系统命令,如cp、rm、cat、mv、mkdir、rmdir等。但是它们都不支持随机写操作,但支持追加操作。NFSGatewayHadoopFuseNFSGateway使用NFSV3并支持附加到文件但不能执行随机写入操作。关于您对hue的评论,也许Hue正在将文件下载到

hadoop - Apache Spark-SQL 与 Sqoop 基准测试,同时将数据从 RDBMS 传输到 hdfs

我正在处理一个用例,我必须将数据从RDBMS传输到HDFS。我们已经使用sqoop完成了这个案例的基准测试,发现我们能够在6-7分钟内传输大约20GB的数据。当我尝试使用SparkSQL时,性能非常低(1Gb的记录需要4分钟才能从netezza传输到hdfs)。我正在尝试进行一些调整并提高其性能,但不太可能将其调整到sqoop的水平(1分钟内大约3Gb的数据)。我同意spark主要是一个处理引擎这一事实,但我的主要问题是spark和sqoop都在内部使用JDBC驱动程序,所以为什么性能差异如此之大(或者我可能遗漏了一些东西)。我在这里发布我的代码。objecthelloWorld{de