reducer-combiner

java - map 和 reduce 作业可以在不同的机器上吗？

我正在研究一个非常独特的计算卸载解决方案，我可以使用c++/java中的自定义编程很好地完成这项工作，但我正在寻找可以在hadoop或任何其他框架中完成的相同方法吗？我搜索了很多，但没有找到任何有值(value)的东西。正如我们所知，正常的hadoop作业由Map和Reduce阶段组成，其中两者都在具有几乎相同功率的机器上运行，对于map阶段我们不需要power并且可以卸载到像RaspberryPI这样的廉价商品硬件上，而reduce应该在强大的机器上运行。那么是否有可能将这2个阶段隔离开来并使它们具有机器感知能力？最佳答案在每

hadoop - 洗牌和排序后的 n-Records 到 reducer

我只想将排序/洗牌后输出的前10条记录移动到缩减程序。这可能吗？原因是这样的:我要在一个文件中找到数量最多的最少10项。但是，我知道映射阶段的结果将到达已经排序的reducer。因此，我不想在映射器中排序，而是只想将“洗牌和排序”之后的前10行传递给缩减器。这将允许reducer仅对原始记录的一个子集进行排序。有什么办法吗？最佳答案您可以通过为作业编写自定义Combiner来实现这一点。MapReduce作业的不同阶段是:Mapper->Partitioner->Sorting->Combiner->Reducer.现在Comb

牌和 n-Records code section Combiner hadoop mapreduce hadoop-streaming

Hadoop Map Reduce 作业 : Class org. 找不到 apache.hive.hcatalog.mapreduce.HCatInputFormat

我正在使用kylin.它是一个数据仓库工具，它使用hadoop、hive和hbase。它附带示例数据，以便我们可以测试系统。我正在构建这个样本。这是一个多步骤过程，其中许多步骤都是map-reduce作业。第二步是ExtractFactTableDistinctColumns，这是一个MR作业。如果没有在hadoop日志中写入任何内容，这项工作就会失败。深入挖掘后，我在logs/userlogs/application_1450941430146_0002/container_1450941430146_0002_01_000004/syslog中发现了一个异常2015-12-2407

HCatInputFormat mapreduce apache hadoop org hive kylin

hadoop - 当 reducer 的输出 VALUE 为 null 时，如何使用 combiner？

当我尝试在我的MR作业中使用组合器时，出现以下异常java.lang.NullPointerExceptionatorg.apache.hadoop.mapred.IFile$Writer.append(IFile.java:193)atorg.apache.hadoop.mapred.Task$CombineOutputCollector.collect(Task.java:1315)atorg.apache.hadoop.mapred.Task$NewCombinerRunner$OutputConverter.write(Task.java:1632)原因是，我在reducer类

combiner reducer code hadoop section mapreduce

java - 使用 map reduce 程序查找一年中每个月的最高温度

我的代码对我来说似乎是正确的，但在cmd上它没有给出正确的输出，请任何人帮助我找到代码中的问题。运行正常但输出错误:packagetest;importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.Text;//importorg.apache.hadoop.mapred.JobConf;importorg.apa

年中 reduce IntWritable import temp java hadoop mapreduce bigdata

java - 使用 java 运行 Hadoop map reduce 作业时抛出空指针异常

提前致谢...我正在运行Hadoop版本0.20.0和HBase0.94。我有一个聚合逻辑，它将使用调度程序每晚12点运行。我们正处于无法升级HBase和Hadoop的阶段。在运行MapReduce作业时，它抛出如下异常，java.lang.NullPointerExceptionatorg.apache.hadoop.conf.Configuration.getLocalPath(Configuration.java:877)atorg.apache.hadoop.mapred.JobConf.getLocalPath(JobConf.java:280)atorg.apache.ha

java Hadoop apache hbase bigdata

python - reducer 完成后调用 mapper

我执行的工作是:hadoop/bin/./hadoopjar/home/hadoopuser/hadoop/share/hadoop/tools/lib/hadoop-streaming-2.6.0.jar-Dmapred.reduce.tasks=2-filekmeans_mapper.py-mapperkmeans_mapper.py-filekmeans_reducer.py\-reducerkmeans_reducer.py-inputgutenberg/small_train.csv-outputgutenberg/out当两个reducer完成后，我想对结果做一些事情，所以

reducer python hadoop section mapreduce cluster-computing distributed-computing

java - 在测试中为 hdfs map reduce 可以设置多低的 Yarn 容器内存？

我正在设置一个hadoop单节点环境，用于在只有4GB物理内存的硬件上进行测试，并使用hadoop2.6.0。我只使用了针对此类环境建议的基本配置。但我现在担心我可能应该调整内存资源管理以便能够运行一些mapreduce示例。我知道有几个设置需要查看，包括Java堆以及映射和缩减任务的内存。对于像我这样的小规模测试环境，我应该/可以将最小、最大容器大小设置多低，以使适度的mapreduce任务正常运行？我特别指的是:yarn.scheduler.minimum-allocation-mbyarn.scheduler.maximum-allocation-mb启动-dfs和启动-yarn

容器 reduce gt lt property java hadoop hdfs hadoop-yarn bigdata

java - 为什么这个使用 Combiner 类的 Hadoop 示例不能正常工作？ (不要执行Combiner提供的 "local reduction")

我是Hadoop的新手，我正在做一些实验，尝试使用Combiner类在映射器的同一节点上本地执行reduce操作。我正在使用Hadoop1.2.1。所以我有这3个类:WordCountWithCombiner.java://LearningMapReducebyNiteshJainimportorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.mapreduce.Job;importorg.apac

Combiner amp JobClient the mapred java hadoop bigdata

hadoop - 如何使用一个 reducer 的输出作为另一个映射器的输入？

我想从reducer的输出中提取不同的值。为此，我在单独的映射器和缩减器中编写了代码。也就是说，我有一个mapperreducer用于生成训练文件，第二个mapper-reducer提供来自训练文件的不同行。我想要这两个文件用于测试目的。那么如何将第一个reducer的输出作为另一个mapper的输入呢？最佳答案您可以轻松做到这一点:只需将第一个作业的输出目录作为输入目录传递给第二个作业。我在这个例子中称它为outputTempDir:StringinputDir="/input";StringoutputTempDir="/o

射器 reducer job section class hadoop mapreduce bigdata

74 75 767778 79 80