blockly

java - hadoop中的 block 池

我正在阅读Hadoop教程，我对hadoop中的block池产生了疑问。block池-基本上每个block池都是相互独立管理的，每个block池都是属于一个命名空间的一组block。block池是虚拟概念，还是类似于block上的元数据，维护在内存中？最佳答案它是关于每个数据block的元数据。hadoop中的文件被分成block，然后这些block存储在不同的数据节点上。但是要再次访问这些数据，我们需要知道这些block存储在哪里。名称节点在block池的帮助下完成这件事。因此，block池是关于hadoop集群上每个文件的每

hadoop block section 命名 java hdfs hadoop-yarn hadoop2

Hadoop block 管理

我是Hadoop的初学者(我已经学习了几个教程)。我目前正在研究Hadoop中的底层复制模型。我想知道模型的外观以及在哪里可以找到代码。中期结果:在研究了Hadoop的包之后，我找到了包“org.apache.hadoop.hdfs.server.blockmanagement”。在这里我找到了几个像BlockManager.java这样的类。但我已经走到了死胡同。你能给我一个网站/书籍的引用吗，我可以在其中找到Hadoop中的底层复制模型。有没有？如果没有，您有什么建议？最佳答案 HDFS架构指南中有一个高级概述:http://

Hadoop block apache section

hadoop - 2 即使输入小于 block 大小，Map 任务也会启动，什么决定了 Map 任务的数量？

我在EC2微型实例上运行单机Hadoop设置。我写了一个简单的wordcount程序，没有明确指定应该运行的Map或Reduce任务的数量，输入文件小于1MB。本例中启动的MapTask数量为2，为什么？如果我使用conf.setNumMapTasks(1)，那么只会启动1个map。即使输入文件最佳答案每个作业的默认maptask数为2。即“mapred.map.tasks”属性的默认值为2。在此处验证文档:http://hadoop.apache.org/docs/r1.0.4/mapred-default.html

Map 即使 section strong hadoop mapreduce hdfs

java - hadoop 是否为非本地映射器缓存 hdfs-block？

假设我在DN1上运行映射器任务。我感兴趣的hdfs-block在DN2上。据我了解，hadoop不会缓存DN1上的block。这意味着如果我正在读取1MB的记录，而block是512MB，那么我将通过网络512次。这是正确的吗？也许我的问题措辞不正确。我知道数据局部性，我的问题是关于数据局部性不可能的时代。如果DN2上的一个block中有512MB的数据，但映射器在DN1上运行，并且记录读取器提供的每条记录都是1MB，这是否意味着我们要通过网络512次？或者hadoop是否缓存该block——这意味着它是否将512MB的block从DN2复制到DN1，然后开始为记录读取器提供服务。我认

非本射器 section block java hadoop hdfs

hadoop - HDFS Block相关问题

我有2个问题可以帮助我理解HDFS如何在block的上下文中工作。1。您使用hadoopfs-put命令写入一个300MB的文件，HDFSblock大小为64MB。在此命令完成写入此文件的200MB后，其他用户会看到什么尝试访问此文件时？一个。当他们尝试访问此文件时，他们会看到Hadoop抛出ConcurrentFileAccessException。B.他们会看到文件的当前状态，直到命令写入的最后一位。C.他们会通过最后一个完成的block看到文件的当前状态。D.在整个文件写入并关闭之前，他们看不到任何内容。如我所见，因为文件被分成block，当每个block放入HDFS时它变得可用

hadoop Block HDFS section

hadoop - pig 脚本对 10 block 训练数据进行采样，pig 脚本被卡住了

背景我有一个数据高度不平衡的二元分类任务。具体来说，有标签0的数据比标签1的数据多得多。为了解决这个问题，我计划进行子采样标签0的数据与标签1的数据的大小大致匹配。我在pig脚本中做了这个。代替只采样一block训练数据，我这样做了10次以生成10个数据block来训练10个分类器类似于装袋以减少方差。示例pig脚本-----------------------------------generatetrainingchunki-----------------------------------subsamplingdatawithlabel0labelZeroTrainingDat

卡住 pig 射器 strong label hadoop machine-learning apache-pig sampling bootstrapping

hadoop - HDFS 重复出现错误 : Under-Replicated Blocks

我们的Hadoop集群每天都报告有“复制不足的block”。它通过ClouderaManager进行管理。健康警告的一个例子是:!Under-ReplicatedBlocksConcerning:767underreplicatedblocksinthecluster.3,115totalblocksinthecluster.Percentageunderreplicatedblocks:24.62%.Warningthreshold:10.00%.我一直在运行修复问题的命令，但第二天早上警告又回来了，有时没有添加任何新数据。暂时成功的命令之一是hdfsdfs-setrep-R2/*我

Under-Replicated Replicated code section hadoop hdfs cloudera cloudera-manager

hadoop - 集群重启后 HDFS 显示 0 个 block

我已经设置了一个用于测试/学术建议的小型集群，我有3个节点，其中一个节点同时充当名称节点和数据节点(以及辅助名称节点)。我已经上传了60GB的文件(大约650万个文件)并且上传开始变得非常慢，所以我在网上看到我可以停止主机上的辅助名称节点服务，目前它没有效果在任何事情上。在我重新启动所有3台计算机后，我的两个数据节点显示0个block(尽管在Web界面中显示磁盘使用情况)，即使两个名称节点服务都在运行。有问题的节点之一也是运行名称节点的节点，所以我猜这不是网络问题。关于如何让这些block再次被识别的任何想法？(无需重新开始，大约需要两周时间才能全部上传)更新半小时后，再次重启后，日志

hadoop block section noreferrer hdfs

hadoop - HDFS 上的文件 block

Hadoop是否保证同一文件的不同block将存储在集群中的不同机器上？显然复制的block将在不同的机器上。最佳答案没有。如果您查看HDFSArchitectureGuide，您将看到(在图表中)文件part-1的复制因子为3，并且由标记为2、4和5的三个block组成。请注意block2和5在一种情况下在同一个数据节点上。关于hadoop-HDFS上的文件block，我们在StackOverflow上找到一个类似的问题： https://stacko

hadoop block section stackoverflow hdfs

hadoop - 带 block 压缩的序列文件

我需要启用带有block压缩数据的序列文件。下面是将存储为SequenceFile的表格。createtablelip_data_quality(buyer_idbigint,total_chkoutbigint,total_errpdsbigint)partitionedby(dtstring)rowformatdelimitedfieldsterminatedby'\t'storedassequencefilelocation'/apps/hdmi-technology/b_apdpds/lip-data-quality';在上表中，我通过启用这些命令以压缩格式获取数据-setma

hadoop block code section compression mapreduce hive

272 273 274275276 277 278