appengine-mapreduce

hadoop - 使用hadoop的mapreduce中溢出的记录是否应该始终等于mapinput记录或mapoutput记录？

我正在研究在hadoop中使用mapreduce的矩阵乘法示例。我想问一下，溢出记录是否应该始终等于mapinput和mapoutput记录。我有不同于mapinput和mapoutput记录的溢出记录这是我得到的其中一项测试的输出:ThreebythreetestIB=1KB=2JB=111/12/1413:16:22INFOinput.FileInputFormat:Totalinputpathstoprocess:211/12/1413:16:22INFOmapred.JobClient:Runningjob:job_201112141153_000311/12/1413:16:

我听说MapReduce作业的输入不需要在HDFS中。它可以在其他文件系统上。有人可以为此提供更多信息吗？我对此有点困惑？在独立模式下，数据可以在本地文件系统上。但是在集群模式下，我们如何将mapreduce作业指向其他文件系统？最佳答案不，它不需要在HDFS中。例如，使用其TableInputFormat以HBase为目标的作业通过网络从HBase节点拉取记录作为其映射作业的输入。DbInputFormat可用于将数据从SQL数据库提取到作业中。您可以构建一种输入格式，执行类似从NFS装载读取数据的操作。在实践中，如果可以的话

hadoop - 像couchdb这样的数据存储的MapReduce和Hadoop的区别？

最近在Couchbase的网络研讨会上，他们说Hadoop用于处理大型日志文件，而Couchbase用于将其呈现给应用层。他们声称Couchbase和Hadoop的map和reduce是不同的，适用于所提到的各自用例。我打算使用Couchbasemapreduce来处理大量的日志文件。有人可以澄清两个mapreduce之间的确切区别吗？Hadoop中是否有任何特性使其更适合处理大型日志文件？谢谢... 最佳答案主要区别在于couchbase使用增量map/reduce并且不会扫描您需要更新或删除项目的所有数据集。另一个区别是“大”

java - MapReduce 和从外部源下载文件

我有一个项目，要求以分布式方式从外部源下载文件。我们已经在Hadoop上进行了大量投资，并希望利用MapReduce——但更多的是作为分布式任务而不是ETL。1)以前有人这样做过吗？2)是否应该只有一个Mapper而没有一个Reducer？3)将FTP/HTTP连接的抽象实现传递给映射器的最佳方法是什么？--需要说明的是，我的意思是我想要一种无需进行集成测试即可对此进行单元测试的好方法，因此需要一种模拟FTP/HTTP的方法。4)MapReduce是处理这类事情的最佳方法吗？--我们在滥用MapReduce吗？谢谢。最佳答案这“

java - 将带有参数的文件传递给 mapreduce 作业

我有一个mapreduce映射器。这个Mapper应该使用一些只读参数集。假设我想计算输入行中某些子字符串(某物的标题)的出现次数。我确实有一个成对列表:“一些标题”=>“从输入行中提取此标题的正则表达式”。这些对存储在通常的文本文件中。将此文件传递给Mapper的最佳方式是什么？我只有这个想法:将成对的文件上传到hdfs。使用-Dpath.to.file.with.properties将路径传递给文件在映射器的静态{}部分读取文件并填充映射对“sometitle”=>“标题的常规表达式”。这是好事还是坏事？请告知最佳答案您已经

java - 运行简单的 mapreduce 作业时出现错误 "java.lang.OutOfMemoryError: Java heap space"

我一直在尝试在RHEL6中为wordcount运行一个简单的Mapreduce作业，但我一直收到此错误。请帮忙。13/01/1319:59:01INFOmapred.MapTask:io.sort.mb=10013/01/1319:59:01WARNmapred.LocalJobRunner:job_local_0001java.lang.OutOfMemoryError:Javaheapspaceatorg.apache.hadoop.mapred.MapTask$MapOutputBuffer.(MapTask.java:949)atorg.apache.hadoop.mapred

java - mapreduce，排序值

我的映射器有一个输出:Mapper:KEY,VALUE(Timestamp,someOtherAttrbibutes)我的Reducer确实收到了:Reducer:KEY,Iterable我要Iterable按Timestamp属性排序。有没有实现的可能？我想避免在Reducer代码中进行手动排序。http://cornercases.wordpress.com/2011/08/18/hadoop-object-reuse-pitfall-all-my-reducer-values-are-the-same/我将不得不从Iterable中“深度复制”所有对象，这会导致巨大的内存开销。:

hadoop - mapreduce 的哪个部分/类是停止 reduce 任务的逻辑实现

在HadoopMapReduce中，在所有映射器完成之前，没有缩减器启动。有人可以解释一下这个逻辑是在哪个部分/类/代码行实现的吗？我说的是HadoopMapReduce版本1(不是Yarn)。我已经搜索了mapreduce框架，但是类太多了，我不太了解方法调用及其顺序。换句话说，我需要(首先用于测试目的)让reducers开始减少，即使仍然有工作的映射器。我知道这样我得到的工作结果是错误的，但我知道这是更改框架部分的一些工作的开始。那么我应该从哪里开始查看并进行更改？最佳答案这是在洗牌阶段完成的。对于Hadoop1.x，请查看

hadoop - 我正在尝试将文件中的所有数字相加，该文件包含以空格分隔的数字，并且使用 MapReduce 包含在多行中

我的输出出错了。输入文件是:12345432输出应该是key:sumvalue:24MapReduce产生的输出:key:sumvalue:34我在Ubuntu14.04中使用OpenJDK7来运行jar文件，而jar文件是在EclipseJuna中创建的，使用的java版本是OracleJDK7来编译它。NumberDriver.java包裹数量和；importjava.io.*;//importjava.util.StringTokenizer;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs

hadoop - Hadoop MapReduce 的目的

目前我正在阅读一些关于Hadoop和流行的MapReduce算法的论文。但是，我看不到MapReduce的值(value)，如果有人能提供一些见解，我会很高兴。具体来说:据说MapReduce接收一个文件并产生键值对。什么是key？只是一个词，词的组合还是其他什么？如果关键是文件中的单词，那么为MapReduce编写代码的目的是什么？MapReduce应该在不实现特定算法的情况下做同样的事情。如果所有内容都转换为键值对，那么Hadoop所做的只是像在JAVA和C#中那样创建字典，赖特？可能是Hadoop可以以更有效的方式创建字典。除了效率之外，Hadoop还提供了普通Dictionar