Mapreduce1

java - MapReduce/Hadoop 入门

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于StackOverflow来说是偏离主题的，因为它们往往会吸引自以为是的答案和垃圾邮件。相反，describetheproblem以及迄今为止为解决该问题所做的工作。关闭8年前。Improvethisquestion最近，我阅读了很多有关MapReduce/Hadoop的文章，并认为这就是行业当前的发展方向。我想开始学习MapReduce/Hadoop，我认为最好的开始方式是实现一些小项目。但是，我尝试进行一些谷歌搜索，但找不到任何东西。你们能给我

MapReduce 入门 section class notice java hadoop

hadoop - 傻瓜化的Mapreduce

好的，我正在尝试学习Hadoop和mapreduce。我真的很想从mapreduce开始，我发现了很多很多映射器和缩减器等的简化示例。但是，我发现遗漏了一些东西。虽然显示一个词在文档中出现多少次的示例很容易理解，但它并不能真正帮助我解决任何“现实世界”问题。有谁知道在伪现实情况下实现mapreduce的好教程。例如，我想在类似于Adventureworks的数据存储之上使用hadoop和mapreduce。现在我想在5月份获得给定产品的订单。从hadoop/mapreduce的角度来看，这看起来如何？(我意识到这可能不是mapreduce旨在解决的问题类型，但我很快就想到了。)任何方向

傻瓜化 Mapreduce section noreferrer hadoop

hadoop - Apache Flink 与 Hadoop 上的 Mapreduce 相比如何？

ApacheFlink与Hadoop上的Mapreduce相比如何？它在哪些方面更好，为什么？最佳答案免责声明:我是ApacheFlink的提交者和PMC成员。与HadoopMapReduce类似，ApacheFlink是一个并行数据处理器，具有自己的API和执行引擎。Flink旨在支持Hadoop正在使用的许多用例，并与Hadoop生态系统中的许多系统(包括HDFS和YARN)很好地协同工作。我将通过区分MapReduce编程模型和MapReduce执行模型来回答您的问题。编程模型ApacheFlink的编程模型基于MapRe

Mapreduce hadoop Flink section apache-flink

java - MapReduce组合器

我有一个带有映射器、缩减器和组合器的简单mapreduce代码。映射器的输出传递给组合器。但是对于reducer，传递的不是combiner的输出，而是mapper的输出。请帮忙代码:packageCombiner;importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.DoubleWritable;importorg.apache.hadoop.io.LongWritable;impor

MapReduce java Text import catch hadoop

hadoop - 无法初始化集群。请检查你配置的mapreduce.framework.name和对应的服务器地址-提交job2remoteClustr

我最近将我的集群从ApacheHadoop1.0升级到CDH4.4.0。我在另一台机器上有一个weblogic服务器，我从那里通过mapreduce客户端将作业提交到这个远程集群。我仍然想使用MR1而不是Yarn。我已经针对CDH安装中的客户端jar编译了我的客户端代码(/usr/lib/hadoop/client/*)创建JobClient实例时出现以下错误。有很多帖子与同一问题相关，但所有解决方案都涉及将作业提交到本地集群而不是远程的场景，特别是在我的情况下是从wls容器提交。JobClientjc=newJobClient(conf);无法初始化集群。请检查您的配置中的mapre

job2remoteClustr 2remoteClustr section mapreduce hadoop cloudera

hadoop - 使用 Hadoop MapReduce 对字数进行排序

我是MapReduce的新手，我完成了一个Hadoop字数统计示例。在该示例中，它生成未排序的字数统计文件(带有键值对)。那么是否可以通过将另一个MapReduce任务与较早的任务组合来按单词出现次数对其进行排序？最佳答案在简单的单词计数mapreduce程序中，我们得到的输出是按单词排序的。示例输出可以是:苹果1男孩30猫2Frog20斑马1如果您希望根据单词的出现次数对输出进行排序，即采用以下格式1个苹果1斑马2只猫20只Frog30岁男孩您可以使用下面的映射器和缩减器创建另一个MR程序，其中输入将是从简单的字数统计程序获得

MapReduce hadoop IntWritable section stringTokenizer word-count parallel-processing

java - 从集群中获取现有的 mapreduce 作业(作业可能正在运行或已完成)

以前，我使用org.apache.hadoop.mapred.JobClient#getJob(org.apache.hadoop.mapred.JobID)来获取RunningJob。此调用是从作业完成回调方法进行的，但是，在我看来，存在时间问题，如果作业已经完成，则上述getJob()方法找不到它并返回null。我可以从集群UI确认作业已完成。保持RunningJob分开，有没有办法在给定org.apache.hadoop.mapreduce.JobID，无论作业当前是正在运行还是已完成？我试着编写类似这样的代码:集群cluster=jobClient.getClusterHand

取现 mapreduce code section cluster java apache hadoop

hadoop - MapReduce 洗牌/排序方法

有点奇怪的问题，但是有谁知道MapReduce在shuffle/sort的排序部分使用了什么样的排序？我会考虑合并或插入(与整个MapReduce范例保持一致)，但我不确定。最佳答案这是快速排序，之后将排序后的中间输出合并在一起。Quicksort检查递归深度并在太深时放弃。如果是这种情况，则使用Heapsort。看看Quicksort类:org.apache.hadoop.util.QuickSort您可以通过hadoop-default.xml中的map.sort.class值更改使用的算法.

洗牌 MapReduce section hadoop hdfs

hadoop - 在 Mapreduce/Hadoop 中加入两个数据集

有谁知道如何在Hadoop中实现两个数据集之间的Natural-Join操作？更具体地说，这是我真正需要做的:我有两组数据:存储为(tile_number,point_id:point_info)的点信息，这是一个1:n键值对。这意味着对于每个tile_number，可能有多个point_id:point_info存储为(tile_number,line_id:line_info)的行信息，这又是一个1:m键值对，对于每个tile_number，可能有多个line_id:line_info如您所见，两个数据集之间的tile_numbers相同。现在我真正需要的是根据每个tile_num

中加 Mapreduce tile point line hadoop join distributed

hadoop - MapReduce2 中如何基于 vcores 和内存创建容器？

我有一个由1个主节点(namenode、secondarynamenode、resourcemanager)和2个从节点(datanode、nodemanager)组成的小型集群。我已经在master的yarn-site.xml中设置了:yarn.scheduler.minimum-allocation-mb:512yarn.scheduler.maximum-allocation-mb:1024yarn.scheduler.minimum-allocation-vcores:1yarn.scheduler.maximum-allocation-vcores:2我在slaves的yar

容器 MapReduce2 strong code hadoop mapreduce hadoop-yarn

159 160 161162163 164 165