草庐IT

Mapreduce1

全部标签

java - 如何告诉 MapReduce 使用多少映射器?

我正在尝试加速优化MapReduce作业。有什么方法可以让hadoop使用特定数量的mapper/reducer进程?或者,至少,最少数量的映射器进程?在文档中,它被指定,你可以用这个方法来做到这一点publicvoidsetNumMapTasks(intn)JobConf类的。这种方式并没有过时,所以我用Job类开始Job。这样做的正确方法是什么? 最佳答案 map任务的数量由输入中的block数决定。如果输入文件为100MB且HDFSblock大小为64MB,则输入文件将占用2个block。因此,将产生2个maptask。Job

hadoop - 当输入数据未存储时,Hadoop/MapReduce 如何扩展?

当输入数据为distributed时,Hadoop的预期用途似乎是(HDFS)并且在映射过程中已经存储在节点本地。假设我们有不需要存储的数据;数据可以在运行时生成。例如,映射过程的输入是每个可能的IP地址。Hadoop是否能够有效地跨节点分配Mapper工作?您是否需要明确定义如何将输入数据(即IP地址空间)拆分到不同的节点,或者Hadoop是否自动处理? 最佳答案 首先让我澄清一下您的评论。Hadoop旨在支持跨潜在大量节点的潜在大规模并行计算,而不管数据来自何处或去往何处。Hadoop设计在必要时更倾向于可扩展性而不是性能。确实

hadoop - 在 mapreduce 作业中恢复黑名单 tasktrackers

我有5个节点的hadoop集群。我为每个节点配置了10个映射器。当MR作业正在运行时,其中一个hdfs节点死亡。这最终导致该任务跟踪器被列入黑名单。在它被列入黑名单之后和MR作业完成之前,如果我修复受影响的hdfs节点,是否可以从黑名单中恢复任务跟踪器?我在ubuntu上使用clouderacdh4.2。 最佳答案 我正在阅读有关tasktracker失败的“Hadoop权威指南”。我找到了这个说法“列入黑名单的tasktracker没有分配任务,但它们会继续与jobtracker通信。故障会随着时间的推移而过期(以每天一个的速度)

java - hadoop-2.2.0 mapreduce 在 ubuntu 上不工作

我已经在64位Ubuntu12.04.3(精确)上安装了hadoop2.2.0,并按照博客中的建议配置了配置xml文件(http://tuliodomingos.blogspot.com.es/2013/04/installing-apache-hadoop-in-ubuntu-linux.html,如果您有兴趣)目标是为dfs和mapreduce建立一个“单节点集群”。因为缺少某些库,我经常收到以下消息,但我认为这不是导致问题的原因:WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...

hadoop - MapReduce 任务数

我需要一些帮助,了解如何在我的应用程序中获得正确数量的Map和Reduce任务。有什么办法可以发现这个数字吗?谢谢 最佳答案 无法在应用程序执行之前获得实际的map和reduce任务数量,因为在执行之前无法准确确定任务失败后重新尝试和推测执行尝试的因素,一个大概的数量可以派生任务。MapReduce作业的Map任务总数取决于其输入文件及其文件格式。对于每个输入文件,计算拆分,每个输入拆分将调用一个映射任务。拆分大小将根据,input_split_size=max(mapreduce.input.fileinputformat.spl

functional-programming - 原始函数式语言中的 MapReduce 的可扩展性如何?

Map-Reduce编程模型源于map和reduce函数,这些函数存在于函数式语言(如Lisp和Scheme)中可以追溯到很多年前。我记得大学时(90年代初),甚至在那时我就被告知Map-Reduce在可扩展性方面具有优势。目前我们都知道Hadoop及其从Google复制而来的原始版本。我想知道的是,“旧”函数式语言中存在哪些选项可以在至少几个计算节点上执行Map-Reduce?或者这是那些在纸面上看起来不错但在Google做到之前没有人真正开始构建的功能之一? 最佳答案 Map/Reduce是dataparallelism的特例.

java - 配置 MapReduce 作业时使用多个 InputFormat 类

我想编写一个可以处理文本和zip文件的MapReduce应用程序。为此,我想使用不同的输入格式,一种用于文本,另一种用于zip。有可能吗? 最佳答案 从@ChrisWhite的回答中扩展一点,您需要使用自定义InputFormat和RecordReader来处理ZIP文件。你可以在这里找到asampleZipFileInputFormat在这里asampleZipFileRecordReader.鉴于此,Chris建议您应该使用MultipleInputs,如果您不需要为每种类型的文件自定义映射器,我会这样做:MultipleInp

hadoop - pig 错误 : Unhandled internal error. 找到接口(interface) org.apache.hadoop.mapreduce.TaskAttemptContext,但类是预期的

我刚刚在HortonworksHDP2.1上将Pig0.12.0升级到0.13.0版本当我尝试在脚本中使用XMLLoader时出现以下错误,即使我已经注册了piggybank。脚本:A=load'EPAXMLDownload.xml'usingorg.apache.pig.piggybank.storage.XMLLoader('Document')as(x:chararray);错误:dumpA2014-08-1023:08:56,494[main]INFOorg.apache.hadoop.conf.Configuration.deprecation-io.bytes.per.ch

java - 远程运行 MapReduce

我有一个远程运行的hadoop集群。我能够完成教程:http://hadoop.apache.org/docs/r2.6.0/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html在我的远程机器上,因为有一个内置的hadoop实例。但是,我希望在本地执行相同的任务。作为hadoop的新手,我不确定该怎么做。我想知道我是否可以运行该程序并将结果发送回我的本地机器。我不确定如何登录到我的远程计算机,然后运行​​MapReduce作业。这是我在远程机器上的代码:importjava.io.IOEx

hadoop - mapreduce 作业的链接

我遇到了“mapreduce作业的链接”。作为mapreduce的新手,在什么情况下我们必须链接(我假设链接意味着依次运行mapreduce作业)作业?有什么可以提供帮助的例子吗? 最佳答案 必须链接的作业的经典示例是字数统计,它输出按频率排序的字词。你需要:工作1:输入源映射器(发出单词作为键,一个作为值)聚合缩减器(聚合字数)工作2:键/值交换映射器(将频率作为键,词作为值)implicitidentityreducer(获取按频率排序的词,不必实现)这是上面映射器/缩减器的例子:publicclassHadoopWordCou