mapreduce_shuffle

hadoop - MapReduce 线性规划

可以使用MapReduce在分布式系统上解决简单的线性规划问题吗？最佳答案是的，你可以查看hbase-simplex 关于hadoop-MapReduce线性规划，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/5422416/

file - Hadoop MapReduce : Appropriate input files size?

我有3位数GB甚至1或2位数TB的数据集。因此，输入文件是一个文件列表，每个文件的大小约为10GB。我在hadoop中的mapreduce作业处理所有这些文件，然后只给出一个输出文件(带有聚合信息)。我的问题是:从Apache调整hadoop/mapreduce框架的合适文件大小是多少？我听说大文件比小文件更受欢迎。有什么想法吗？我唯一确定的是hadoop读取block，每个block默认为64MB。所以如果文件大小是64MB的倍数就好了。目前，我的应用程序只将输出文件写入一个文件。文件大小当然是3位千兆位。我想知道如何有效地对文件进行分区。当然，我可以只使用一些unix工具来完成这项

Appropriate MapReduce 射器 section block file hadoop size

Hadoop MapReduce : Clarification on number of reducers

在MapReduce框架中，一个reducer用于映射器生成的每个键。因此您会认为在HadoopMapReduce中指定Reducers的数量没有任何意义，因为它取决于程序。但是，Hadoop允许您指定要使用的reducer的数量(-Dmapred.reduce.tasks=#ofreducers)。这是什么意思？reducer数量的参数值是否指定有多少机器资源进入reducer，而不是实际使用的reducer的数量？最佳答案 onereducerisusedforeachkeygeneratedbythemapper此评论不正确

Clarification MapReduce section reducer hadoop reducers

hadoop - MapReduce开销的计算复杂度是多少

鉴于map和reduce任务的复杂度是O(map)=f(n)和O(reduce)=g(n)有没有人采取写下Map/Reduce内部操作(排序、混洗、发送数据等)如何增加计算复杂性的时间？Map/Reduce编排的开销是多少？我知道当你的问题足够大的时候这是无稽之谈，只是不关心效率低下，但是对于可以在小型机器或几台机器上运行的小问题，我是否应该经历痛苦当我手边已有Map/Reduce实现时设计并行算法？最佳答案对于“可以在小型机器或几台机器上运行”的小问题，是的，如果性能至关重要，您应该重写它们。正如其他人指出的那样，通信开销很高

MapReduce hadoop section code amp big-o

Hadoop MapReduce 提供嵌套目录作为作业输入

我正在处理一个嵌套目录结构的工作，其中包含多个级别的文件:one/├──three/│ └──four/│ ├──baz.txt│ ├──bleh.txt│ └──foo.txt└──two/├──bar.txt└──gaa.txt当我添加one/作为输入路径时，没有文件被处理，因为没有文件在根级别立即可用。我阅读了有关job.addInputPathRecursively(..)的内容，但这在最近的版本中似乎已被弃用(我使用的是hadoop1.0.2)。我已经编写了一些代码来遍历文件夹并使用job.addInputPath(dir)添加每个目录，直到由于某种原因尝试将目录作为

MapReduce Hadoop code section strong nested directory-walk

algorithm - MapReduce 替代品

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭23天前。Improvethisquestion是否有MapReduce(Google、Hadoop)的替代范例？大问题的拆分合并还有其他合理的方法吗？

替代品 algorithm section class notice hadoop mapreduce

apache-spark - MapReduce 还是 Spark？

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭8年前。Improvethisquestion我已经用cloudera测试了hadoop和mapreduce，我发现它很酷，我认为我是最新的和相关的BigData解决方案。但是几天前，我发现了这个:https://spark.incubator.apache.org/一个“闪电般快速的集群计算系统”，能够在Hadoop集群的顶部工作，并且显然能够碾压mapreduce。我看到它在RAM中比mapreduce更有效。我认为当您必须进行集

apache-spark MapReduce section 中比 hadoop

hadoop - 什么是谷歌的 Dremel？它与 Mapreduce 有何不同？

Google的Dremel是describedhere.Dremel和Mapreduce有什么区别？最佳答案 Dremel和MapReduce不能直接比较，而是互补技术。MapReduce不是专门为分析数据而设计的——而是一个软件框架，允许节点集合来解决大型数据集的分布式计算问题。Dremel是一种数据分析工具，旨在对大量结构化数据集(例如日志或事件文件)快速运行查询。它支持类似SQL的语法，但除了表追加之外，它是只读的。它不支持更新或创建函数，也不支持表索引。数据以“柱状”格式组织，这有助于非常快的查询速度。Google的Big

何不 Mapreduce section Dremel noreferrer hadoop google-bigquery abstraction

apache - hadoop.mapred vs hadoop.mapreduce？

为什么在Apache的hadoop包树中有两个独立的包map-reduce包:org.apache.hadoop.mapredhttp://javasourcecode.org/html/open-source/hadoop/hadoop-1.0.3/org/apache/hadoop/mapred/org.apache.hadoop.mapreducehttp://javasourcecode.org/html/open-source/hadoop/hadoop-1.0.3/org/apache/hadoop/mapreduce/为什么要分开呢？是否有说明这一点的文档？

hadoop mapreduce apache section

hadoop - 使用 mapred 或 mapreduce 包来创建 Hadoop 作业哪个更好？

要创建MapReduce作业，您可以使用旧的org.apache.hadoop.mapred包或更新的org.apache.hadoop.mapreduce包用于Mappers和Reducers，乔布斯……第一个被标记为已弃用，但同时又被恢复了。现在我想知道使用旧的mapred包还是新的mapreduce包来创建作业更好，为什么。还是仅仅取决于您是否需要像MultipleTextOutputFormat这样的东西，它只在旧的mapred包中可用？最佳答案在功能方面，旧的(o.a.h.mapred)和新的(o.a.h.mapred

mapreduce hadoop section code noreferrer

169 170 171172173 174 175