mapReduce

java - 映射器和缩减器的数量。这是什么意思？

我是MapReduce-hadoop世界的新手。在配置和文档中，他们指定了映射器和缩减器的数量。这到底是什么意思？我的疑问是:是否指定将完成映射/缩减的级别数。即，如果reducer的数量=2。那么reduce方法将被调用2次。是吗？是否指定并行工作的映射器/缩减器线程数，但每个线程只进行一次映射/缩减。哪个是正确的？或者它意味着别的东西。我很困惑..请回答我最佳答案不，你完全错了。指定maptasks的数量只是给框架一个提示，输入格式决定了输入拆分的数量，一个拆分=一个maptask。reducetasks的数量表示map输出

射器缩减 reduce strong section java hadoop mapreduce

hadoop - Hive:Mapreduce 文件丢失

我可以输入Hive-cli并创建新表。但是，当我尝试向表中插入数据时，它显示:java.io.FileNotFoundException:Filedoesnotexist:hdfs://nameservice1/user/yarn/mapreduce/mr-framework/3.0.0-cdh6.0.1-mr-framework.tar.gz但是HDFS路径hdfsdfs-ls/user/yarn根本不存在。HDFS、YARN/MR、Hive状态正常，我尝试重启所有框架。为什么Yarn没有在HDFS上生成路径，也没有把tar文件放到HDFS路径下？如何解决这个问题？感谢您的帮助。

Mapreduce hadoop code section HDFS hive hadoop-yarn

Hadoop 映射器发出一个唯一的键。我可以在每个 map 之后执行 reducer 吗？

我的映射器发出'uniqkey'-'非常大的值(value)'对。我的reducer不知道key是唯一的。因此，reducer会等待所有映射器完成。我尝试使用组合器，但这对我来说不是一个简单的解决方案，因为我的reducer非常复杂。我的问题是如何在每个map之后执行reducer？不使用组合器。最佳答案如果您的key是唯一的，则无需减少它们。因此只需将reducer代码复制粘贴到mapper并将reducer编号设置为零。顺便说一句，有很多mapreduce作业不需要reduce步骤，所以这并不奇怪。

射器发出 section reducer hadoop mapreduce reducers combiners

performance - Hadoop 等开源计算平台的效率如何？

Hadoop等开源分布式计算框架的效率如何？我所说的效率是指可用于大多数纯计算任务中的“实际工作”的CPU周期。换句话说，有多少CPU周期用于开销，或因未使用而浪费？我不是在寻找具体数字，只是一个粗略的图片。例如。我可以期望使用集群90%的CPU能力吗？99%？99.9%？更具体地说，假设我想计算PI，并且我有一个算法X。当我在一个紧密循环的单核上执行此操作时，假设我获得了一些性能Y。如果我在使用例如分布式方式Hadoop，我期望性能下降多少？我知道这取决于很多因素，但粗略的幅度是多少？如果重要的话，我正在考虑一个可能有10-100个服务器(总共80-800个CPU内核)的集群。谢谢!

performance Hadoop section 的 mapreduce

hadoop - 如何在 Hadoop 中创建和读取目录 - Mapreduce Job 工作目录

我想在Hadoop中的MapReduce作业的工作目录中创建一个目录。例如使用:文件setupFolder=newFile(setupFolderName);setupFolder.mkdirs();在我的映射器类中写入一些中间文件。这是正确的方法吗？此外，在完成工作后，如果我愿意，我将如何再次访问该目录？请指教。最佳答案如果您使用的是java，您可以覆盖setup方法并在那里打开文件处理程序(并在cleanup中关闭它)。此句柄将对所有映射器可用。我假设您不是在这里写所有的map输出，而是写一些调试/统计信息。使用此处理程序，

中创建和 section 射器 hadoop mapreduce

memcached - Memcached 和 Hadoop 之间的区别？

Memcached和Hadoop之间的基本区别是什么？Microsoft似乎使用WindowsServerAppFabric进行内存缓存。我知道memcached是一个使用多个服务器的巨大键值散列函数。什么是hadoop，hadoop与memcached有何不同？是用来存储数据的吗？对象？我需要在内存对象中保存巨型对象，但似乎我需要某种方式将这个巨型对象拆分成人们所说的“block”。当我考虑将对象拆分为字节时，Hadoop似乎正在兴起。我在内存中有一个巨大的类，内存超过100MB。我需要复制这个对象，以某种方式缓存这个对象。当我研究缓存这个怪物对象时，似乎我需要像谷歌那样拆分它。谷歌

memcached section hadoop mapreduce distributed appfabric

hadoop - 使用hadoop的mapreduce中溢出的记录是否应该始终等于mapinput记录或mapoutput记录？

我正在研究在hadoop中使用mapreduce的矩阵乘法示例。我想问一下，溢出记录是否应该始终等于mapinput和mapoutput记录。我有不同于mapinput和mapoutput记录的溢出记录这是我得到的其中一项测试的输出:ThreebythreetestIB=1KB=2JB=111/12/1413:16:22INFOinput.FileInputFormat:Totalinputpathstoprocess:211/12/1413:16:22INFOmapred.JobClient:Runningjob:job_201112141153_000311/12/1413:16:

hadoop mapreduce mapred JobClient INFO

hadoop - Hadoop MapReduce 可以运行在其他文件系统上吗？

我听说MapReduce作业的输入不需要在HDFS中。它可以在其他文件系统上。有人可以为此提供更多信息吗？我对此有点困惑？在独立模式下，数据可以在本地文件系统上。但是在集群模式下，我们如何将mapreduce作业指向其他文件系统？最佳答案不，它不需要在HDFS中。例如，使用其TableInputFormat以HBase为目标的作业通过网络从HBase节点拉取记录作为其映射作业的输入。DbInputFormat可用于将数据从SQL数据库提取到作业中。您可以构建一种输入格式，执行类似从NFS装载读取数据的操作。在实践中，如果可以的话

MapReduce hadoop section 吞吐好得多

hadoop - 像couchdb这样的数据存储的MapReduce和Hadoop的区别？

最近在Couchbase的网络研讨会上，他们说Hadoop用于处理大型日志文件，而Couchbase用于将其呈现给应用层。他们声称Couchbase和Hadoop的map和reduce是不同的，适用于所提到的各自用例。我打算使用Couchbasemapreduce来处理大量的日志文件。有人可以澄清两个mapreduce之间的确切区别吗？Hadoop中是否有任何特性使其更适合处理大型日志文件？谢谢... 最佳答案主要区别在于couchbase使用增量map/reduce并且不会扫描您需要更新或删除项目的所有数据集。另一个区别是“大”

MapReduce couchdb section Couchbase Hadoop

python - # 失败的映射任务超出了允许的限制

我正在尝试使用Python进行Hadoop流式处理。我在here的帮助下编写了简单的map和减少脚本。map脚本如下:#!/usr/bin/envpythonimportsys,urllib,retitle_re=re.compile("(.*?)",re.MULTILINE|re.DOTALL|re.IGNORECASE)forlineinsys.stdin:url=line.strip()match=title_re.search(urllib.urlopen(url).read())ifmatch:printurl,"\t",match.group(1).strip()和redu

python 的 streaming StreamJob INFO hadoop mapreduce hadoop-streaming

79 80 818283 84 85