mapReduce

hadoop - 为什么 HDFS 中的 block 这么大？

有人可以解释这个计算并给出清晰的解释吗？Aquickcalculationshowsthatiftheseektimeisaround10msandthetransferrateis100MB/s,tomaketheseektime1%ofthetransfertime,weneedtomaketheblocksizearound100MB.Thedefaultisactually64MB,althoughmanyHDFSinstallationsuse128MBblocks.Thisfigurewillcontinuetoberevisedupwardastransferspeeds

hadoop - Hadoop 中的 Writable 和 WritableComparable？

谁能给我解释一下:什么是Hadoop中的Writable和WritableComparable接口(interface)？这两者有什么区别？请举例说明。提前致谢最佳答案 Writable在Hadoop中的接口(interface)中，Hadoop中的类型必须实现此接口(interface)。Hadoop为几乎所有Java原始类型和一些其他类型提供了这些可写包装器，但有时我们需要传递自定义对象，这些自定义对象应该实现Hadoop的Writable接口(interface)。HadoopMapReduce使用Writables的实现来

WritableComparable Writable interface Hadoop mapreduce

hadoop - jobconf 和 job 之间的基本区别是什么？

嗨，我想知道jobconf和工作对象之间的基本区别，目前我正在这样提交我的工作JobClient.runJob(jobconf);我看到了像这样提交工作的其他方式Configurationconf=getConf();Jobjob=newJob(conf,"secondarysort");job.waitForCompletion(true);return0;我如何使用jobconf为作业指定sortcomparator类？谁能给我解释一下这个概念？最佳答案简而言之:JobConf和org.apache.hadoop.mapre

别是 jobconf code section hadoop mapreduce bigdata

Hadoop MapReduce vs MPI(vs Spark vs Mahout vs Mesos)——什么时候使用其中一个？

我是并行计算的新手，刚开始在AmazonAWS上试用MPI和Hadoop+MapReduce。但我对何时使用一个而不是另一个感到困惑。例如，我看到的一个常见的经验法则建议可以概括为...大数据、非迭代、容错=>MapReduce速度、小数据、迭代、非Mapper-Reducer类型=>MPI但是，我还看到了MPI(MR-MPI)上的MapReduce实现，它不提供容错，但是seemstobe在某些基准测试中比Hadoop上的MapReduce更高效，并且似乎使用核外内存处理大数据。相反，新一代HadoopYarn及其分布式文件系统(HDFS)上也有MPI实现(MPICH2-YARN)。

mdash vs MapReduce noreferrer noopener hadoop parallel-processing mpi

hadoop - Hadoop Map Reduce 和 Google Map Reduce 之间的区别

HadoopMapReduce和GoogleMapReduce有什么区别？难道只是Hadoop为mapreduce等提供了标准化？差异中还有什么。最佳答案 GoogleMapReduce和Hadoop是MapReduce框架/概念的两种不同实现(实例)。Hadoop是开源的，GoogleMapReduce不是，实际上没有太多关于它的可用细节。由于他们处理大型数据集，因此他们必须依赖分布式文件系统。Hadoop使用HDFS(Hadoop分布式文件系统)作为标准分布式文件系统，而GoogleMapReduce使用GFS(谷歌文件系统)

Reduce Map section Hadoop MapReduce

hadoop - Yarn 给现有的 map reduce 带来了什么额外的好处？

Yarn的基础设施层与原始mapreduce架构的不同之处如下:在YARN中，作业跟踪器分为两个不同的守护进程，分别称为ResourceManager和NodeManager(特定于节点)。资源管理器只管理资源分配给不同的作业，除了包含一个调度程序，它只负责调度作业而不用担心任何监控或状态更新。不同的资源，如内存、CPU时间、网络带宽等，被放入一个称为ResourceContainer的单元中。不同的AppMasters运行在不同的节点上，它们与这些资源容器中的许多对话，并相应地使用监控/状态详细信息更新节点管理器。我想知道使用这种方法如何从map-reduce的角度提高性能？此外，如

带来 hadoop noreferrer noopener nofollow mapreduce hadoop-yarn

hadoop - “Combiner"mapreduce 作业中的类

Combiner在Mapper之后和Reducer之前运行，它将接收由给定节点上的Mapper实例发出的所有数据作为输入。然后向Reducers发出输出。而且，如果reduce函数既是可交换的又是结合的，那么它可以用作Combiner。我的问题是短语“commutativeandassociative”在这种情况下是什么意思？最佳答案假设您有一个数字列表，123456。此处的关联意味着您可以将您的操作应用于任何子组，然后将其应用于这些子组的结果并获得相同的答案:(1)+(2+3)+(4+5+6)==(1+2)+(3+4)+(5)

mapreduce Combiner section strong 的 hadoop reducers combiners

hadoop - 关于 Hadoop/HDFS 文件分割

只想确认以下内容。请验证这是否正确:1.根据我的理解，当我们将文件复制到HDFS时，这就是文件(假设其大小>64MB=HDFSblock大小)被拆分为多个block并且每个block存储在不同数据节点上的时间点。当文件被复制到HDFS时，文件内容已经被拆分成block，并且文件拆分不会在运行映射作业时发生。Map任务仅以这样的方式进行调度，即它们在max的每个block上工作。大小为64MB，具有数据局部性(即映射任务在包含数据/block的节点上运行)如果文件被压缩(gzipped)，文件拆分也会发生，但MR确保每个文件仅由一个映射器处理，即MR将收集位于其他数据节点的所有gzip文

hadoop 射器 block section mapreduce

hadoop - MapReduce 中的分区究竟是如何工作的？

我认为我对MapReduce编程模型有一个大致的了解，但即使在阅读了原始论文和其他一些资源之后，我仍然不清楚许多细节，尤其是关于中间结果的分区。我将快速总结一下到目前为止我对MapReduce的理解:我们有一个可能非常大的输入数据集，它会被MR-Framework自动分成M个不同的部分。对于每一block，框架都会安排一个映射任务，该任务由我的集群中的一个可用处理器/机器执行。M个map任务中的每一个都输出一组Key-Value-Pairs，这些键值对存储在本地执行此map任务的同一台机器上。每台机器将其磁盘划分为R个分区，并根据中间键在分区之间分发其计算的中间键值对。然后，框架为每个

竟是 MapReduce reduce section 的 hadoop

hadoop - Hadoop MapReduce中Mapper/Reducer的设置和清理方法

是否分别在每个mapper和reducer任务中调用了setup和cleanup方法？或者它们只在整个映射器和缩减器作业开始时被调用一次？最佳答案每个任务都会调用它们，因此如果您有20个映射器在运行，将为每个任务调用设置/清理。一个问题是Mapper和Reducer的标准运行方法不会捕获map/reduce方法周围的异常-因此如果在这些方法中抛出异常，则不会调用清理方法。2020年编辑:如评论中所述，2012年(Hadoop0.20)的这一说法不再正确，清理被称为finallyblock的一部分。

MapReduce Reducer section 射器 strong hadoop

132 133 134135136 137 138