草庐IT

hadoop - 哈HDFS : Initialization failed for Block pool <registering> (Datanode Uuid unassigned)

尝试在HAHDFS集群中启动数据节点时出现以下错误2016-01-0622:54:58,064INFOorg.apache.hadoop.hdfs.server.common.Storage:Storagedirectory[DISK]file:/home/data/hdfs/dn/hasalreadybeenused.2016-01-0622:54:58,082INFOorg.apache.hadoop.hdfs.server.common.Storage:AnalyzingstoragedirectoriesforbpidBP-1354640905-10.146.52.232-14

java - 当我在 mapreduce 框架中设置 Split size 大于实际 Block size 时会发生什么?

据我所知,一个mapper将分配给一个split。但是当我将Splitsize设置为大于实际Blocksize时会发生什么?例如:如果我设置Blocksize=128Mb和SplitSize=130Mb,在这些情况下将运行多少映射器。是一个映射器还是多个映射器? 最佳答案 如果InputSplit超过HDFSblock大小,则映射器最终会从多个block读取数据。在您的示例中,如果block大小=128MB且计算的拆分大小=130MB,将生成一个映射任务,该任务将从两个不同的block读取。这两个block究竟是如何被读取的,是HD

hadoop - 一些数据节点在清除 HDFS 后仍然显示使用的 block 池

Hadoop版本:2.7.3数据节点:32区block大小:512m复制:3我使用命令清除了HDFS中的所有数据hdfsdfs-rm-r/*清除HDFS集群后,尽管block为零,但很少有数据节点仍显示使用的block池。hdfswebui的截图hdfsfsck/输出结果如下Connectingtonamenodeviahttp://ip-10-0-2-7:50070/fsck?ugi=ubuntu&path=%2FFSCKstartedbyubuntu(auth:SIMPLE)from/10.0.2.7forpath/atTueJul1804:34:19UTC2017Status:H

hadoop - HDFS 中的文件数与 block 数

我正在运行单节点hadoop环境。当我运行$hadoopfsck/user/root/mydatadir-block时,我真的对它给出的输出感到困惑:Status:HEALTHYTotalsize:998562090BTotaldirs:1Totalfiles:50(Filescurrentlybeingwritten:1)Totalblocks(validated):36(avg.blocksize27737835B)(Totalopenfileblocks(notvalidated):1)Minimallyreplicatedblocks:36(100.0%)Over-replic

Hadoop、Mapreduce - 无法获取 LocatedBlock 的 block 长度

我在hdfs上有一个文件,路径为“test/test.txt”,大小为1.3Gls和du命令的输出是:hadoopfs-dutest/test.txt->1379081672test/test.txthadoopfs-lstest/test.txt->Found1items-rw-r--r--3testusersupergroup13790816722014-05-0620:27test/test.txt我想在此文件上运行mapreduce作业,但是当我在此文件上启动mapreduce作业时,作业失败并出现以下错误:hadoopjarmyjar.jartest.TestMapReduc

hadoop - 是否可以将 hadoop block 大小设置为 24 MB?

我只是想问问您对HDFSblock大小的看法。所以我把HDFS的blocksize设置为24MB就可以正常运行了。我记得24MB不是计算机上通常大小的指数数(2的倍数)。所以我想问问大家,你们对24MB有什么看法?谢谢大家.... 最佳答案 是的。可以将HDFSblock大小设置为24MB。Hadoop1.x.x默认为64MB,2.x.x默认为128MB。在我看来,增加block大小。因为,block大小越大,reducer阶段使用的时间就越少。事情会加快。但是,如果减小块大小,每个映射阶段将花费更少的时间,但有可能在reduce阶

hadoop - HDFS block 大小和网络复制流量之间有什么关系?

相对于我们认为通过OpenTSDB写入的数据量,我们的HBase集群有大量的网络流量。将字节中继到OpenTSDB:以字节为单位的网络吞吐量(Y轴是SI单位,因此不是base2):我们使用Cloudera,所以block是128MB,将其更改为64MB会减少网络复制流量吗?是否还有其他后果需要考虑? 最佳答案 要清楚地回答降低block大小会减少复制流量的问题,答案是不会。HDFS客户端不会一次写入整个block的数据-它们一次将写入流化为64k-128k字节的小校验和数据包(可配置),在管道中的DataNode(s)上构建整个bl

hadoop - 在 HDFS 中本地化 HFile block

我们使用Mapreduce批量创建HFile,然后将其增量/批量加载到HBase中。我注意到加载只是一个HDFS移动命令(它不会物理移动文件block)。由于我们进行了大量的HBase表扫描并且我们启用了短路读取,因此将这些HFile本地化到它们各自区域的节点将是有益的。我知道主要压缩可以实现这一点,但当HFile与区域大小相比较小时,这些压缩效率很低。 最佳答案 HBase使用HDFS作为文件系统。HBase不控制HDFSblock的数据局部性。当使用HBaseAPI向HBase写入数据时,HBaseRegionServer成为H

hadoop - 将文件/ block 从 HDFS 复制到从节点的本地文件系统

在Hadoop中,我理解主节点(Namenode)负责存储从机(Datanode)中的数据block。当我们使用-copyToLocal或-get时,从master可以将文件从HDFS复制到master节点的本地存储。奴隶有什么办法可以将存储在其中的block(数据)复制到他们自己的本地文件系统?例如,一个128MB的文件可以拆分为2个从属节点,每个从属节点存储64MB。从机有什么办法可以识别并将这block数据加载到其本地文件系统中吗?如果是这样,如何以编程方式完成?在这种情况下是否也可以使用命令-copyToLocal或-get?请帮忙。 最佳答案

Hadoop 哪个节点会将输入数据拆分为多个 block ?

我是hadoop的新手,有什么问题吗?哪个节点会将输入数据拆分为多个block?根据短路径查找数据节点。问题是找到客户端与数据节点或数据节点与名称节点之间的短路径? 最佳答案 clientwritestheblocksdirectlytothedatanodesaftercommunicatingwiththenamenodeforallocatingblocklocations我不明白第二部分。任何客户端都必须联系名称节点才能知道block的位置。没有namenode,就无法获取整个文件内容