草庐IT

elastic-mapreduce-cli

全部标签

hadoop - MapReduce 作业未在终端上显示我的打印语句

我目前正在尝试弄清楚当您运行MapReduce作业时会发生什么,方法是在代码的某些位置创建一些system.out.println()但知道当作业运行时这些打印语句会在我的终端上打印.谁能帮我弄清楚我到底做错了什么。importjava.io.IOException;importjava.util.StringTokenizer;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.apache

hadoop - Amazon Elastic Map Reduce - 创建工作流程

我对亚马逊服务还很陌生。我在创建工作流程时遇到问题。每次我创建任何作业流程时,它都会失败或关闭。我不清楚输入、输出或映射器函数上传技术。我关注了开发人员部分,但事情并不清楚。任何建议都会有所帮助。提前致谢。错误日志是LastStateChange:Noactivekeysfoundforuseraccount 最佳答案 这是对我有用的修复,如果您的工作流程报告以下错误,您可能需要它:LastStateChange:Noactivekeysfoundforuseraccount当您创建AWS账户时,默认情况下,必须为您创建安全访问ke

hadoop - Hadoop MapReduce的项目构想

Asitcurrentlystands,thisquestionisnotagoodfitforourQ&Aformat.Weexpectanswerstobesupportedbyfacts,references,orexpertise,butthisquestionwilllikelysolicitdebate,arguments,polling,orextendeddiscussion.Ifyoufeelthatthisquestioncanbeimprovedandpossiblyreopened,visitthehelpcenter提供指导。9年前关闭。几个月前,我学习了Ha

java - Hadoop:OutputCollector 在MapReduce 中是如何工作的?

我想知道OutputCollector的“实例”输出是否用于映射函数:output.collect(键,值)这个-output-将键值对存储在某处?即使它发送到reducer函数,它们也一定是一个中间文件,对吧?那些文件是什么?它们是否可见并由程序员决定?我们在main函数中指定的OutputKeyClass、OutputValueClasses就是这些存放的地方吗?[Text.class和IntWritable.class]我给出了MapReduce中WordCount示例的标准代码,我们可以在网上找到很多地方。publicclassWordCount{publicstaticcla

java - Elastic Storm拓扑/Storm-Hadoop共存

我们正在评估部署Storm,但我有点担心。我们目前运行HadoopMapReduce,并且希望将我们的一些处理从MapReduce转移到Storm进程。请注意,这是一些,但不是全部。我们仍然会有一些MapReduce功能。我找到了Mesos,它(可能)允许我们在同一硬件上维护Storm和Hadoop部署,但还有一些其他问题:我设想的理想情况是能够在Storm和Hadoop之间任意“借用”插槽。前任。两者都将根据需要使用相同的资源。不幸的是,这是一个固定部署,并不是像EC2等那样“基于云”。我想避免Storm环境中的瓶颈。理想情况是根据需要“增加”(或相反)更多Bolt实例。这可能/现实

java - 什么时候更喜欢 Hadoop MapReduce 而不是 Spark?

非常简单的问题:在哪些情况下我应该更喜欢HadoopMapReduce而不是Spark?(我希望这个问题还没有被问到——至少我没有找到它……)我目前正在对这两个处理框架进行比较,从目前所读的内容来看,似乎每个人都建议使用Spark。这是否也符合你的经验?或者您能说出MapReduce比Spark表现更好的用例吗?与MapReduce相比,我是否需要更多的资源(尤其是RAM)来完成与Spark相同的任务?谢谢和问候! 最佳答案 Spark是对传统MapReduce的巨大改进。您什么时候会在Spark上使用MapReduce?当您有一个

java - "Adopting MapReduce model"= 可扩展性的通用答案吗?

我一直在努力理解MapReduce概念并将其应用到我目前的情况中。我的情况是什么?好吧,我这里有一个ETL工具,其中数据转换发生在源和目标数据源(数据库)之外。因此,源数据源纯粹用于提取,目的地用于加载。因此,对于今天的这种转换行为,假设一百万条记录大约需要X个小时。我想解决一个场景,我将拥有十亿条记录,但我希望在相同的X小时内完成工作。因此,我的产品需要根据数据规模进行横向扩展(添加更多商品机器)。如您所见,我只担心将我的产品的转换功能分配到不同机器的能力,从而利用所有这些机器的CPU能力。我开始寻找选择,然后遇到了ApacheHadoop,然后最终遇到了MapReduce的概念。我

hadoop - (Hadoop) MapReduce - 链式作业 - JobControl 不会停止

我需要链接两个MapReduce作业。我使用JobControl将job2设置为依赖于job1。它有效,输出文件已创建!但它不会停止!在shell中它保持这种状态:12/09/1119:06:24WARNmapred.JobClient:UseGenericOptionsParserforparsingthearguments.ApplicationsshouldimplementToolforthesame.12/09/1119:06:25INFOinput.FileInputFormat:Totalinputpathstoprocess:112/09/1119:06:25INFOu

amazon-web-services - Amazon MapReduce 无 reducer 作业

我正在尝试通过AWS(流式作业)创建仅映射器作业。reducer字段是必需的,因此我提供了一个虚拟可执行文件,并将-jobconfmapred.map.tasks=0添加到ExtraArgs框中。在我安装的hadoop环境(版本0.20)中,不会启动reducer作业,但在AWS中,虚拟可执行文件启动并失败。如何在AWS中运行一个没有reducer/mapper的作业? 最佳答案 您也可以使用cat或NONE作为reducer参数。 关于amazon-web-services-Amazo

hadoop - MapReduce 作业输出排序顺序

我可以在我的mapreduce作业中看到reducer部分的输出是按键排序的..因此,如果我将reducer的数量设置为10,则输出目录将包含10个文件,并且每个输出文件都有一个排序数据。我把它放在这里的原因是即使所有文件都有排序数据但这些文件本身没有排序..例如:在某些情况下,part-000*文件从0开始并在zzzz结束,假设我使用文本作为键。我假设即使在文件中也应该对文件进行排序,即文件1应该有a,最后一个文件部分--00009应该有带有zzzz或atleaset>a的条目假设我有所有字母表均匀分布的键。有人能解释一下为什么会这样吗 最佳答案