草庐IT

Mapreduce1

全部标签

java - MapReduce/Hadoop 入门

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于StackOverflow来说是偏离主题的,因为它们往往会吸引自以为是的答案和垃圾邮件。相反,describetheproblem以及迄今为止为解决该问题所做的工作。关闭8年前。Improvethisquestion最近,我阅读了很多有关MapReduce/Hadoop的文章,并认为这就是行业当前的发展方向。我想开始学习MapReduce/Hadoop,我认为最好的开始方式是实现一些小项目。但是,我尝试进行一些谷歌搜索,但找不到任何东西。你们能给我

hadoop - 傻瓜化的Mapreduce

好的,我正在尝试学习Hadoop和mapreduce。我真的很想从mapreduce开始,我发现了很多很多映射器和缩减器等的简化示例。但是,我发现遗漏了一些东西。虽然显示一个词在文档中出现多少次的示例很容易理解,但它并不能真正帮助我解决任何“现实世界”问题。有谁知道在伪现实情况下实现mapreduce的好教程。例如,我想在类似于Adventureworks的数据存储之上使用hadoop和mapreduce。现在我想在5月份获得给定产品的订单。从hadoop/mapreduce的角度来看,这看起来如何?(我意识到这可能不是mapreduce旨在解决的问题类型,但我很快就想到了。)任何方向

hadoop - Apache Flink 与 Hadoop 上的 Mapreduce 相比如何?

ApacheFlink与Hadoop上的Mapreduce相比如何?它在哪些方面更好,为什么? 最佳答案 免责声明:我是ApacheFlink的提交者和PMC成员。与HadoopMapReduce类似,ApacheFlink是一个并行数据处理器,具有自己的API和执行引擎。Flink旨在支持Hadoop正在使用的许多用例,并与Hadoop生态系统中的许多系统(包括HDFS和YARN)很好地协同工作。我将通过区分MapReduce编程模型和MapReduce执行模型来回答您的问题。编程模型ApacheFlink的编程模型基于MapRe

java - MapReduce组合器

我有一个带有映射器、缩减器和组合器的简单mapreduce代码。映射器的输出传递给组合器。但是对于reducer,传递的不是combiner的输出,而是mapper的输出。请帮忙代码:packageCombiner;importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.DoubleWritable;importorg.apache.hadoop.io.LongWritable;impor

hadoop - 无法初始化集群。请检查你配置的mapreduce.framework.name和对应的服务器地址-提交job2remoteClustr

我最近将我的集群从ApacheHadoop1.0升级到CDH4.4.0。我在另一台机器上有一个weblogic服务器,我从那里通过mapreduce客户端将作业提交到这个远程集群。我仍然想使用MR1而不是Yarn。我已经针对CDH安装中的客户端jar编译了我的客户端代码(/usr/lib/hadoop/client/*)创建JobClient实例时出现以下错误。有很多帖子与同一问题相关,但所有解决方案都涉及将作业提交到本地集群而不是远程的场景,特别是在我的情况下是从wls容器提交。JobClientjc=newJobClient(conf);无法初始化集群。请检查您的配置中的mapre

hadoop - 使用 Hadoop MapReduce 对字数进行排序

我是MapReduce的新手,我完成了一个Hadoop字数统计示例。在该示例中,它生成未排序的字数统计文件(带有键值对)。那么是否可以通过将另一个MapReduce任务与较早的任务组合来按单词出现次数对其进行排序? 最佳答案 在简单的单词计数mapreduce程序中,我们得到的输出是按单词排序的。示例输出可以是:苹果1男孩30猫2Frog20斑马1如果您希望根据单词的出现次数对输出进行排序,即采用以下格式1个苹果1斑马2只猫20只Frog30岁男孩您可以使用下面的映射器和缩减器创建另一个MR程序,其中输入将是从简单的字数统计程序获得

java - 从集群中获取现有的 mapreduce 作业(作业可能正在运行或已完成)

以前,我使用org.apache.hadoop.mapred.JobClient#getJob(org.apache.hadoop.mapred.JobID)来获取RunningJob。此调用是从作业完成回调方法进行的,但是,在我看来,存在时间问题,如果作业已经完成,则上述getJob()方法找不到它并返回null。我可以从集群UI确认作业已完成。保持RunningJob分开,有没有办法在给定org.apache.hadoop.mapreduce.JobID,无论作业当前是正在运行还是已完成?我试着编写类似这样的代码:集群cluster=jobClient.getClusterHand

hadoop - MapReduce 洗牌/排序方法

有点奇怪的问题,但是有谁知道MapReduce在shuffle/sort的排序部分使用了什么样的排序?我会考虑合并或插入(与整个MapReduce范例保持一致),但我不确定。 最佳答案 这是快速排序,之后将排序后的中间输出合并在一起。Quicksort检查递归深度并在太深时放弃。如果是这种情况,则使用Heapsort。看看Quicksort类:org.apache.hadoop.util.QuickSort您可以通过hadoop-default.xml中的map.sort.class值更改使用的算法.

hadoop - 在 Mapreduce/Hadoop 中加入两个数据集

有谁知道如何在Hadoop中实现两个数据集之间的Natural-Join操作?更具体地说,这是我真正需要做的:我有两组数据:存储为(tile_number,point_id:point_info)的点信息,这是一个1:n键值对。这意味着对于每个tile_number,可能有多个point_id:point_info存储为(tile_number,line_id:line_info)的行信息,这又是一个1:m键值对,对于每个tile_number,可能有多个line_id:line_info如您所见,两个数据集之间的tile_numbers相同。现在我真正需要的是根据每个tile_num

hadoop - MapReduce2 中如何基于 vcores 和内存创建容器?

我有一个由1个主节点(namenode、secondarynamenode、resourcemanager)和2个从节点(datanode、nodemanager)组成的小型集群。我已经在master的yarn-site.xml中设置了:yarn.scheduler.minimum-allocation-mb:512yarn.scheduler.maximum-allocation-mb:1024yarn.scheduler.minimum-allocation-vcores:1yarn.scheduler.maximum-allocation-vcores:2我在slaves的yar