Reduce

hadoop - map reduce 中的集成 SVM

我正在为MapReduce中的每个数据集制作SVM模型(为此我正在使用LibSVM库)。甚至，我有每个模型的测试结果。测试结果文件包含以下详细信息。(IT给出关于测试结果的预测)+1-1+1+1....+1我有这样的5个测试文件。现在我想在mapreduce中使用多数投票结合测试结果。在map阶段，我想将行号作为key的值。如何在映射阶段为所有测试文件提供行号作为值。最佳答案我不知道你是否需要MapReduce来完成这个任务，但如果你确实需要在MapReduce中完成它，我会只使用Map-only作业，甚至没有输出文件。仅使用两

hadoop - 为什么我的 map reduce 作业按顺序运行？

我有一个4节点集群和总共96GB内存。我已将我的输入分成100个文件，并将作业设置为有100个映射器。从日志来看，映射器似乎是按顺序运行的。[2014/10/0815:22:36]INFO:Totalinputpathstoprocess:100[2014/10/0815:22:36]INFO:numberofsplits:100[2014/10/0815:22:36]INFO:Startingtask:attempt_local1244628585_0001_m_000000_0[2014/10/0815:22:36]INFO:Submittingtokensforjob:job_l

hadoop reduce 1244628585 2014 INFO mapreduce

java - hadoop map reduce 程序未运行不受支持的 major.minor 版本

当我像那样运行我的MapReduce程序时:bin/hadoopjar/usr/local/hadoop/share/hadoop/mapreduce/mapreduceprog.jarproblemdata/problemdata/input2/problemdata/output5我得到以下输出:Exceptioninthread"main"java.lang.UnsupportedClassVersionError:mapreduceprog:Unsupportedmajor.minorversion52.0atjava.lang.ClassLoader.defineClass1

hadoop reduce java ClassLoader URLClassLoader mapreduce hdfs

hadoop - map-reduce 中不同组件/ Action 的执行顺序

map-reduce中Action/组件的执行顺序是什么-Mapper-->Combiner-->Shuffling/Sorting-->Partitioner-->Reducer顺序一样吗？？最佳答案这个过程几乎是正确的，但让我们深入了解它。第一个Map阶段将从运行map开始。一旦map处理了输入，它会在保存到本地文件系统之前进行排序，这被称为sort然后copy到本地文件系统，接下来这个数据将被复制到reducer这是shuffle阶段。由于数据已经在每个mapper输出中排序，它根据每个到达reducer所在节点的键执

map-reduce hadoop code section reducer mapreduce

java - 何时在 Hadoop Map-Reduce 中使用 NLineInputFormat？

我有一个基于文本的输入文件，大小约为25GB。在该文件中，一条记录由4行组成。每条记录的处理都是相同的。但是在每条记录中，四行中的每一行都以不同的方式处理。我是Hadoop的新手，所以我想要一个指导，在这种情况下是使用NLineInputFormat还是使用默认的TextInputFormat？提前致谢! 最佳答案假设您有以下格式的文本文件:2015-8-02error2014blahblahblahblah2015-8-02blahblahbalherror2014你可以使用NLineInputFormat.使用NLineInp

NLineInputFormat Map-Reduce apache hadoop java mapreduce

hadoop - Mapreduce 中可以用combiner 代替reduce 吗？

我们可以在Mapreduce作业中使用combiner代替reduce吗？如果没有，我们可以用什么来代替mapreduce作业中的reducer？最佳答案严格来说，不是。组合器只有在至少有一个reducer被调用时才会被调用。当没有reducer时，作业停止在map阶段，省略了对map任务输出的本地排序。组合器也需要这种排序(它们实际上是本地reducer)。所以，没有reducer=>没有组合器。但是，如果您使用映射器内聚合，有时可以模拟组合器的操作。例如，您可以将来自映射器的wordcount结果存储在本地数据结构中，在每个

Mapreduce combiner section 射器 reducer hadoop

nosql - Hadoop Map/Reduce - 简单使用示例来执行以下操作

我有MySQL数据库，我在其中存储以下BLOB(包含JSON对象)和ID(用于此JSON对象)。JSON对象包含很多不同的信息。比如，“城市:洛杉矶”和“州:加利福尼亚”。目前大约有50万条这样的记录，但它们还在增长。而且每个JSON对象都很大。我的目标是在MySQL数据库中进行搜索(实时)。比如说，我想搜索所有具有“州”到“加利福尼亚”和“城市”到“旧金山”的JSON对象。我想利用Hadoop来完成这项任务。我的想法是会有“工作”，它从MySQL中获取100条记录(行)，根据给定的搜索条件验证它们，返回符合条件的那些(ID)。优点/缺点？我知道有人可能认为我应该为此使用简单的SQL功

Hadoop Reduce section JSON nosql mapreduce bigtable

exception-handling - 如何处理在 map/reduce 期间死亡的数据节点

当map/reduce使用的数据节点出现故障时会发生什么？不应该将作业重定向到另一个数据节点吗？我的代码应该如何处理这种异常情况？最佳答案如果datanode宕机，运行在该节点上的任务(假设您也将其用作tasktracker)将失败，这些失败的任务将被分配给其他tasktracker以重新执行。在死数据节点中丢失的数据block将在其他数据节点中可用，因为将跨集群复制数据。因此，即使数据节点出现故障，除了重新执行失败任务的非常短暂的延迟外，不会有任何损失。所有这些都将由框架来处理。您的代码无需担心这一点。

exception-handling exception section 点中 stackoverflow hadoop mapreduce

hadoop - 将普通的java程序转换为map reduce

我想编写一个Java包装器，它将“兼容程序”转换为mapreduce形式，以供Hadoop框架执行。我知道我的问题很含糊。但这是我打算做的。输入一个java程序。用户将指定的哪一部分程序将由mapreduce执行。这个java程序将是由我的程序输入，它将提供等效的mapreduce程序到hadoop。我被困在几点上。每个类(class)的Mapreduce程序都不同。我要怎么走概括它？从我应该开始的地方开始。解决这个问题的方法应该是什么？欢迎提出任何建议。这将帮助我决定进一步的方向。最佳答案一般来说是不可能的，并不是所有的程序都

hadoop reduce section li mapreduce

hadoop - 在 AWS Elastic Map Reduce 中禁用 Gzip 输入解压缩

我正在Gzipped.arc文件上运行MapReduce任务。类似于此question，我遇到了困难，因为Gzip解压缩是自动运行的(因为文件有.gz扩展名)，但它导致换行符/回车符按照Unix文件编码被渲染为换行符的问题。这使得输入完全不可读，因为它取决于文件中嵌入的特定字符数。我正在尝试禁用Gzip解压缩，以便我可以在我的映射器中正确地执行它。我试过:-jobconfstream.recordreader.compression=none但这似乎并不影响压缩。有什么方法可以防止对我的输入进行Gzip解压缩？谢谢，-Geoff 最佳答案

Elastic hadoop section stackoverflow questions amazon-web-services mapreduce compression amazon-emr

78 79 808182 83 84