blockly_草庐IT

hadoop - HDFS 复制不足的 block 到文件映射

HDFS文件系统显示，由于机架故障，集群上大约有600Kblock复制不足。在HDFS恢复之前，有没有办法知道如果这些block丢失，哪些文件会受到影响？我无法执行“fsck/”，因为集群非常大。最佳答案 NamenodeUI列出了丢失的block，JMX日志列出了损坏/丢失的block。UI和JMX仅显示复制不足的block数。有两种方法可以查看复制不足的block/文件:使用fsck或WebHDFSAPI。使用WebHDFSRESTAPI:curl-i"http://:/webhdfs/v1/?op=LISTSTATUS"这将

hadoop - Hadoop 中的文件存储、 block 大小和输入拆分

考虑这个场景:我有4个文件，每个6MB。HDFSblock大小为64MB。1block将包含所有这些文件。它有一些额外的空间。如果添加了新文件，它将容纳在这里现在，当输入拆分是根据输入格式计算Map-reduce作业时，(拆分大小通常是HDFSblock大小，以便每个拆分都可以加载到内存中进行处理，从而减少寻道时间。)这里进行了多少次输入拆分:是不是因为所有4个文件都包含在一个block中？还是每个文件一个输入拆分？这是如何确定的？如果我希望所有文件都作为单个输入拆分处理怎么办？最佳答案 1blockwillholdallthes

hadoop - 在 hadoop 中，有没有办法获取 hdfs block 的底层文件系统文件名？

我了解到hdfs将其文件作为数据block存储在数据节点上，每个block实际上作为文件存储在每个数据节点的本地文件系统中。所以我想知道在给定hdfs文件名的情况下，是否有办法在本地文件系统中获取hdfsblock的实际文件名。谢谢。最佳答案您可以对您想到的文件使用Hadoop的FSCK命令。这将返回主机名和block名。但是，它不提供本地文件系统上文件的完整路径。$hadoopfsck/path/to/file-files-blocks-locations另一种选择是通过HDFSWebUI。如果浏览到每个文件，它将列出bloc

hadoop - if-else 中的 block 语句

Hive支持条件语句-https://cwiki.apache.org/Hive/languagemanual-udf.html#LanguageManualUDF-ConditionalFunctions但是，我希望使用block条件语句。例如，我有两个表A和B，它们具有相似的列(尽管列名不相同)。我希望从A和B创建一个新表，使B具有更高的优先级。因此，如果B中存在一行，我希望从B中选择它，否则从A中选择该行。即SELECTIF(B.idNULL,(B.idasid,B.value1asvalue),(A.idasid,a.value2asvalue))FROMAFULLOUTERJ

hadoop - MapReduce:当 2 个 block 分布在不同节点时如何进行输入拆分？

我阅读了以下wiki，但仍然无法澄清一件事。https://wiki.apache.org/hadoop/HadoopMapReduce比如说，我有一个大文件，它被分成两个HDFSblock，这些block物理上保存在两台不同的机器上。考虑在集群中没有这样的节点在本地托管这两个block。据我了解，在TextInputFormat的情况下，HDFSblock大小通常与拆分大小相同。现在因为有2个拆分，2个map实例将在2个本地保存block的单独机器中生成。现在假设HDFS文本文件在一行中间被打断以形成block。hadoop现在会从第二台机器复制block2到第一台机器，以便它可以提

hadoop - 如何在 Hadoop 中设置数据 block 大小？改变它有好处吗？

如果我们可以更改Hadoop中的数据block大小，请告诉我该怎么做。更改block大小是否有利，如果是，请告诉我为什么以及如何？如果否，请告诉我原因和方法？最佳答案您可以随时更改block大小，除非dfs.blocksize参数在hdfs-site.xml中定义为final。改变block大小运行时hadoopfs命令你可以运行hadoopfs-Ddfs.blocksize=67108864-put.此命令将保存64MBblock大小的文件运行时hadoopjar命令-hadoopjar-Ddfs.blocksize=.Red

hadoop - 如何在 Hadoop 中动态更改现有文件的 block 大小？

我有一个正在运行的Hadoop集群。我使用HadoopAPI在Hadoop中创建文件。例如使用:create(Pathf,booleanoverwrite,intbufferSize,shortreplication,longblockSize,Progressableprogress)。我想知道如何在创建文件后更改文件的block大小？使用命令或任何API或任何其他方法？因为我在API中找不到更改block大小的函数。谢谢最佳答案我不知道，也没有找到使用API动态更改单个文件block大小的方法。有多种方法可以更改存储在HDF

java - 解析大于 hdfs block 大小的 XmlInputFormat 元素

我是HadoopMapReduce的新手(准确地说是4天)，我被要求在集群上执行分布式XML解析。根据我在Internet上的(重新)搜索，使用Mahout的XmlInputFormat应该相当容易，但我的任务是确保系统适用于巨大的(~5TB)XML文件。据我所知，发送到映射器的文件拆分不能大于hdfsblock大小(或每个作业的block大小)。[如果我弄错了请纠正我]。我面临的问题是有些XML元素很大(~200MB)而有些很小(~1MB)所以我的问题是:当XmlInputFormat创建的XML元素block大于block大小时会发生什么？它会将整个大文件(例如200MB)发送到映

linux - HDFS block 中的数据是如何存储的？

我在阅读有关HDFS的内容时想知道是否有任何特定的格式来排列block中的数据。假设有一个265MB的文件被复制到Hadoop集群，HDFSblock大小为64MB。因此文件被分成5个部分——64MB+64MB+64MB+64MB+9MB，并分布在数据节点之间。正确吗？我怀疑在存储数据的64MBblock中是否有任何格式？如果数据以任何格式/结构存储在block中，则存储的数据应小于64MB，因为数据结构/header等本身可能会占用一些空间。由于HDFS数据节点是一个逻辑文件系统(它运行在linux之上，HDFS没有单独的分区)，所有block都应该作为文件存储在linux分区中。正

hadoop - 如何在 hadoop 中设置 map block 大小？

我知道hadoop中block的默认大小是64MB。我想改变它。我怎样才能做到这一点？谢谢最佳答案在Hadoop1.0版中，默认大小为64MB，在2.0版中，默认大小为128MB。但是，如果您想更改block大小，请转到hdfs-site.xml文件并添加以下属性dfs.block.size134217728Blocksize注意:我们应该以位为单位提及大小。例如:134217728位=128MB。如需进一步查询，请转到此链接(Extra)ChangeBlocksizeofexistingfilesinHadoop