Block_草庐IT

hadoop - hadoop map/reduce 可以通过拆分数据大小来加速吗？

我能否通过将输入数据拆分为更小的block来增加我的hadoopmap/reduce作业的执行时间？第一个问题:例如，我有1GB的输入文件用于映射任务。我的默认block大小是250MB。所以只有4个映射器将被分配来完成这项工作。如果我将数据分成10block，每block为100MB，那么我有10个映射器来完成这项工作。但是这样每一个splitpiece都会在存储中占用1个block，也就是说每个splitdatablock会浪费150MB。如果我不想更改存储的block大小，在这种情况下应该怎么做？第二个问题:如果我在映射作业之前拆分输入数据，它可以提高映射作业的性能。因此，如果我

hadoop - 在名称节点崩溃损坏根 block 后重建 Accumulo

hadoop - 什么是 Hadoop block 抽象。需要更多详细信息

我正在阅读Hadoop权威指南，但没有弄清以下概念。block抽象，有人可以详细说明一下吗。使抽象单元成为block而不是文件可以简化存储子系统。a.)block的抽象单元是什么？b.)如何制作抽象单元？c.)它如何简化存储子系统？最佳答案 HDFSblock抽象:HDFSblock大小为64MB-128MB(通常)，与其他文件系统不同，小于block大小的文件不会占用完整block大小的内存。block大小保持很大，因此与数据传输速率相比，进行磁盘寻道的时间更少。为什么要阻止抽象:文件可以大于单个磁盘文件系统元数据不需要与每个b

apache-spark - 文件大于 HDFS 中的 block 大小

众所周知，写入大于HDFSblock大小的单个文件并不是最佳选择，许多非常小的文件也是如此。但是，当在spark中执行repartition('myColumn)操作时，它将为每个项目创建一个分区(假设是一天)，其中包含所有记录(作为单个文件)，这些记录可能是几GB大小(假设20GB)，而HDFSblock大小配置为256MB。文件太大真的不好吗？当读回文件时(假设它是一个可拆分文件，如parquet或带有gzip或zlib压缩的orc)spark正在为每个文件创建>>1任务，即这是否意味着我不需要担心指定maxRecordsPerFile/文件大小大于HDFSblock大小？

hadoop - 当节点数少于复制因子时，HDFS 如何复制？

例如，如果Hadoop集群由2个DataNode组成，并且HDFS复制因子设置为默认值3，那么文件复制的默认行为是什么？从我读到的内容来看，HDFS似乎是基于机架感知的，但是对于这种情况，有人知道它是如何确定的吗？最佳答案它会认为这些block是复制不足的，它会一直提示这一点，它会永久地尝试使它们达到预期的复制因子。HDFS系统有一个参数(复制因子-默认为3)告诉名称节点每个block应该如何复制(在默认情况下，每个block应该在整个集群中复制3次，根据给定的副本放置策略)。在系统设法将每个block复制到复制因子指定的次数之

hadoop - 无法在 FOREACH block 内调用 PIG 宏

我无法从foreach中调用宏，例如DEFINEvalid_attribute(id,attribute)RETURNSresult{data=LOAD'/user/sathish/sessAttr'AS(id:chararray,browser_version:chararray);filtered_data=FILTERdataBYid=='$id'AND$attributeisNOTnull;$result=foreachfiltered_datagenerate$attribute;};ip=load'/user/sathish/macros/inputParams'AS(id

hadoop - 文件复制到 DataNodes 时 Hadoop HDFS 中的数据流管道

我只是想更多地了解以下声明。当我试图理解howtheHDFSwriteshappenstoDatanodes.我得到了以下关于HDFS写入的解释。为什么hdfs客户端向数据节点发送4kb而不是向数据节点发送整个block64MB？有的可以详细解释一下吗？为了获得更好的性能，数据节点维护数据传输管道。数据节点1不需要等待一个完整的block到达就可以开始向流中的数据节点2传输。事实上，对于给定block，从客户端到数据节点1的数据传输发生在4KB的较小块中。当数据节点1从客户端接收到第一个4KBblock时，它将这个block存储在其本地存储库中，并立即开始将其传输到流中的数据节点2。同

hadoop - HDFS 中的 block 复制限制

我目前正在重建具有区域服务器和数据节点的服务器。当我关闭一个数据节点时，10分钟后，它所拥有的block将在其他数据节点之间重新复制，这是应该的。我们有10个数据节点，因此在重新复制block时我看到网络流量很大。但是，我发现每台服务器的流量大约只有500-600mbps(所有机器都有千兆位接口(interface))，所以它绝对不受网络限制。我试图弄清楚是什么限制了数据节点发送和接收block的速度。每个数据节点有六个7200rpmsata驱动器，在此期间IO使用率非常低，每个驱动器的峰值仅为20-30%。hdfs是否内置了限制block复制速度的限制？

Hadoop 损坏 block

我正在使用hadoop0.20.append和hbase0.90.0。我将少量数据上传到Hbase，然后出于评估目的杀死了HMaster和Namenode。在此之后，我向Hbase添加了更多数据，我可以在hbaseshell中看到它们。现在，当我启动Namenode时，我遇到了问题。日志显示名称节点处于安全模式，我无法添加或删除处于安全模式的内容。也是刚跑的时候./bin/hadoopfsck/我明白了，............Status:HEALTHYTotalsize:12034B(Totalopenfilessize:4762B)Totaldirs:22Totalfiles:1

java - Hadoop..如何计算输入拆分的散列

我想计算输入split的sha256哈希，mapper的输出应该是(key,value)其中key是block开始的位置值是整个区block的sha256哈希值。我的要求是阅读完整的InputSplitasOnerecord。这是我到目前为止所做的..(我将block大小设为100kb)..还没有处理键值的值部分。对不就是输出1publicvoidmap(LongWritablekey,Textvalue,OutputCollectoroutput,Reporterreporter)throwsIOException{LongWritablekey_offset=newLongWrit