草庐IT

mapreduce_shuffle

全部标签

hadoop - MapReduce 作业未在终端上显示我的打印语句

我目前正在尝试弄清楚当您运行MapReduce作业时会发生什么,方法是在代码的某些位置创建一些system.out.println()但知道当作业运行时这些打印语句会在我的终端上打印.谁能帮我弄清楚我到底做错了什么。importjava.io.IOException;importjava.util.StringTokenizer;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.apache

hadoop - Hadoop MapReduce的项目构想

Asitcurrentlystands,thisquestionisnotagoodfitforourQ&Aformat.Weexpectanswerstobesupportedbyfacts,references,orexpertise,butthisquestionwilllikelysolicitdebate,arguments,polling,orextendeddiscussion.Ifyoufeelthatthisquestioncanbeimprovedandpossiblyreopened,visitthehelpcenter提供指导。9年前关闭。几个月前,我学习了Ha

java - Hadoop:OutputCollector 在MapReduce 中是如何工作的?

我想知道OutputCollector的“实例”输出是否用于映射函数:output.collect(键,值)这个-output-将键值对存储在某处?即使它发送到reducer函数,它们也一定是一个中间文件,对吧?那些文件是什么?它们是否可见并由程序员决定?我们在main函数中指定的OutputKeyClass、OutputValueClasses就是这些存放的地方吗?[Text.class和IntWritable.class]我给出了MapReduce中WordCount示例的标准代码,我们可以在网上找到很多地方。publicclassWordCount{publicstaticcla

java - 什么时候更喜欢 Hadoop MapReduce 而不是 Spark?

非常简单的问题:在哪些情况下我应该更喜欢HadoopMapReduce而不是Spark?(我希望这个问题还没有被问到——至少我没有找到它……)我目前正在对这两个处理框架进行比较,从目前所读的内容来看,似乎每个人都建议使用Spark。这是否也符合你的经验?或者您能说出MapReduce比Spark表现更好的用例吗?与MapReduce相比,我是否需要更多的资源(尤其是RAM)来完成与Spark相同的任务?谢谢和问候! 最佳答案 Spark是对传统MapReduce的巨大改进。您什么时候会在Spark上使用MapReduce?当您有一个

java - "Adopting MapReduce model"= 可扩展性的通用答案吗?

我一直在努力理解MapReduce概念并将其应用到我目前的情况中。我的情况是什么?好吧,我这里有一个ETL工具,其中数据转换发生在源和目标数据源(数据库)之外。因此,源数据源纯粹用于提取,目的地用于加载。因此,对于今天的这种转换行为,假设一百万条记录大约需要X个小时。我想解决一个场景,我将拥有十亿条记录,但我希望在相同的X小时内完成工作。因此,我的产品需要根据数据规模进行横向扩展(添加更多商品机器)。如您所见,我只担心将我的产品的转换功能分配到不同机器的能力,从而利用所有这些机器的CPU能力。我开始寻找选择,然后遇到了ApacheHadoop,然后最终遇到了MapReduce的概念。我

hadoop - (Hadoop) MapReduce - 链式作业 - JobControl 不会停止

我需要链接两个MapReduce作业。我使用JobControl将job2设置为依赖于job1。它有效,输出文件已创建!但它不会停止!在shell中它保持这种状态:12/09/1119:06:24WARNmapred.JobClient:UseGenericOptionsParserforparsingthearguments.ApplicationsshouldimplementToolforthesame.12/09/1119:06:25INFOinput.FileInputFormat:Totalinputpathstoprocess:112/09/1119:06:25INFOu

amazon-web-services - Amazon MapReduce 无 reducer 作业

我正在尝试通过AWS(流式作业)创建仅映射器作业。reducer字段是必需的,因此我提供了一个虚拟可执行文件,并将-jobconfmapred.map.tasks=0添加到ExtraArgs框中。在我安装的hadoop环境(版本0.20)中,不会启动reducer作业,但在AWS中,虚拟可执行文件启动并失败。如何在AWS中运行一个没有reducer/mapper的作业? 最佳答案 您也可以使用cat或NONE作为reducer参数。 关于amazon-web-services-Amazo

hadoop - MapReduce 作业输出排序顺序

我可以在我的mapreduce作业中看到reducer部分的输出是按键排序的..因此,如果我将reducer的数量设置为10,则输出目录将包含10个文件,并且每个输出文件都有一个排序数据。我把它放在这里的原因是即使所有文件都有排序数据但这些文件本身没有排序..例如:在某些情况下,part-000*文件从0开始并在zzzz结束,假设我使用文本作为键。我假设即使在文件中也应该对文件进行排序,即文件1应该有a,最后一个文件部分--00009应该有带有zzzz或atleaset>a的条目假设我有所有字母表均匀分布的键。有人能解释一下为什么会这样吗 最佳答案

java - MapReduce/Hadoop 入门

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于StackOverflow来说是偏离主题的,因为它们往往会吸引自以为是的答案和垃圾邮件。相反,describetheproblem以及迄今为止为解决该问题所做的工作。关闭8年前。Improvethisquestion最近,我阅读了很多有关MapReduce/Hadoop的文章,并认为这就是行业当前的发展方向。我想开始学习MapReduce/Hadoop,我认为最好的开始方式是实现一些小项目。但是,我尝试进行一些谷歌搜索,但找不到任何东西。你们能给我

hadoop - 傻瓜化的Mapreduce

好的,我正在尝试学习Hadoop和mapreduce。我真的很想从mapreduce开始,我发现了很多很多映射器和缩减器等的简化示例。但是,我发现遗漏了一些东西。虽然显示一个词在文档中出现多少次的示例很容易理解,但它并不能真正帮助我解决任何“现实世界”问题。有谁知道在伪现实情况下实现mapreduce的好教程。例如,我想在类似于Adventureworks的数据存储之上使用hadoop和mapreduce。现在我想在5月份获得给定产品的订单。从hadoop/mapreduce的角度来看,这看起来如何?(我意识到这可能不是mapreduce旨在解决的问题类型,但我很快就想到了。)任何方向