Reduce_草庐IT

java - 一个 mapreduce 程序的输出作为另一个 mapreduce 程序的输入

我正在尝试一个简单的示例，其中一个MapReduce作业的输出应该是另一个MapReduce作业的输入。流程应该是这样的:Mapper1-->Reducer1-->Mapper2-->Reducer2(Mapper1的输出必须是Reducer1的输入，Reducer1的输出必须是输入Mapper2的输出。Mapper2的输出必须是Reducer2的输入。Reducer2的输出必须存储在输出文件中)。如何将多个Mappers和Reducers添加到我的程序中，以便像上面那样保持流程？我需要使用ChainMappers还是ChainReducers？如果可以，我该如何使用它们？

java - map reduce 有两个输入文件，一个文件基于另一个文件处理

我需要编写一个将输入作为两个输入文件的mapreduce。第一个输入文件如下所示:key1,25key1,35key1,60key2,30key3,45key3,65第二个输入文件如下:key1,-10key2,-20key3,-15我需要得到如下输出:key1,15key1,25key1,50key2,10key3,30key3,50(输出是第一个输入文件的值减去第二个输入文件的值)这怎么可能？mapper和reducer任务会是什么样子？我的做法如下:我想我必须有两个映射器，每个输入文件一个(一个映射器可以用来读取两个文件吗？)。映射器将简单地发出键和值。在reducer端，当我收

reduce java key 射器 section hadoop mapreduce hadoop-partitioning

java - Hadoop Map-Reduce 并行执行 3 个 Mappers 并输出到 1 个 reducer

我有一个要求，我必须根据每个数据集的不同标准过滤3个不同的数据集，最后将它们联合起来并将它们聚合到一个reducer中。我有一个执行作业的Pig脚本，其中数据集的过滤按顺序发生。我想知道是否有可能为每个数据集并行运行Mappers，并将输出发送到1个reducer类。最佳答案尝试使用MultipleInputs和3个映射器来处理3个数据集。请参阅此链接以获取MultipleInputs的API-https://hadoop.apache.org/docs/stable/api/org/apache/hadoop/mapreduc

Map-Reduce Mappers MultipleInputs section class java hadoop mapreduce

java - 如何在hadoop中的mapreduce java代码中限制reduce作业的数量

我是Hadoop的新手，我想限制我的应用程序中减少作业的数量。在集群中，reduce作业的最大数量是120。但是，我不想使用所有这些，因为我的应用程序不需要那么多的reduce作业。我尝试了下面的解决方案，但没有任何改变。我的应用程序仍然使用120个reduce作业。如何设置reduce作业的数量？https://stackoverflow.com/questions/33237361/unable-to-set-mapreduce-job-reduces-through-generic-option-parser感谢您的回复。最佳答案

java 何在 section reduce stackoverflow hadoop mapreduce

hadoop - Hadoop MapReduce 中每个阶段产生的中间数据存储在哪里？

我学习hadoopmapreduce有一段时间了，大家知道，hadoop使用hdfs把数据文件存储在硬盘上，我们运行mapreduce的时候，progran从hdfs中获取数据，但是在mapreduce的各个阶段，数据从哪里获取存储？我得到了一些答案hsfs运行mapreduce的本地硬盘最佳答案一般map和reduce任务生成的中间数据文件都存放在本地磁盘上运行MapReduce的目录(位置)中。该目录包含:map任务生成的输出文件用作reduce任务的输入。reduce任务生成的临时文件。临时数据位置由mapreduce.c

MapReduce hadoop section reduce

hadoop reduce函数没有执行？

我正在运行mapreduce程序，但我意识到虽然我写了一个reduce函数，但mapreduce并没有执行它。然后我尝试添加@Override，错误提示reduce函数没有覆盖任何super方法。作业配置信息如下preProcess.setJobName("GeneProcessingprogramfor100SNP");preProcess.setMapperClass(PreprocessMapper.class);preProcess.setReducerClass(PreprocessReducer.class);preProcess.setInputFormatClass(T

hadoop reduce preProcess Text code reducers

file - 多个小文件作为 map reduce 的输入

我有很多小文件，比如说20000多个。我想节省花在映射器初始化上的时间，那么是否可以只使用500个映射器，每个处理40个小文件作为其输入？如果可能的话，我需要有关如何实现这种输入格式的指导，谢谢!顺便说一句，我知道我应该合并这些小文件，这一步也是需要的。最佳答案可以使用CombineFileInputFormat。它在old中和new先生API。这是一个不错的blogentry关于如何使用它。关于file-多个小文件作为mapreduce的输入，我们在StackOverflow上找

reduce file section CombineFileInputFormat noreferrer input hadoop mapreduce mapper

hadoop - Map 和 Reduce 是否在单独的 JVM 中运行？

您好，我有一个MapReduce任务，例如AverageScoreCalculator，它具有映射器和缩减器。问题是我静态初始化AverageScoreCalculator中的几个字段是否对映射器和缩减器都可用？最佳答案默认情况下，每个map和reduce任务都在不同的JVM中运行，并且可以有多个JVM在节点上的任何特定实例上运行。设置以下属性mapred.job.reuse.jvm.num.tasks=-1mapreduce.tasktracker.map.tasks.maximum=1mapreduce.tasktracke

中运 hadoop 射器 section

输出数百万个小型二进制/图像文件的 Hadoop 方法

我需要在Hadoop作业中处理和操作许多图像，输入将通过网络进行，使用MultiThreadedMapper下载速度较慢。但是减少输出的最佳方法是什么？我认为我应该将原始二进制图像数据写入一个序列文件，将这些文件传输到它们最终的位置，然后编写一个小应用程序将单个图像从SequenceFile中提取为单个JPG和GIF。或者有更好的选择可以考虑吗？最佳答案如果您愿意(或者通过一些Google搜索您可以找到一个实现)，您可以编写一个FileOutputFormat，它用ZipOutputStream包装一个FSDataOutputS

小型 Hadoop section ZipOutputStream BytesWritable mapreduce reduce

hadoop - 在同一台机器上的多个内核上运行 Map-Reduce 应用程序

我想在一台机器上运行mapreduce任务，我想使用我机器的所有核心。哪种方法最好？如果我以伪分布式模式安装hadoop，是否可以使用所有内核？最佳答案您可以使用属性mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.tasks.maximum来增加映射器的数量/根据您的硬件规范，Reducers在TaskTracker上同时生成。默认情况下，它设置为2，因此最多2个map和2个reduce将在给定实例上运行。但是，要记住的一件事是，如果您的输入非

Map-Reduce hadoop strong section Reducers mapreduce