mapreduce_shuffle

hadoop - MapReduce WordCount 程序 - 输出与输入文件相同

我期望的输出是输入文件中每个单词的计数。但我的输出是整个输入文件，因为它是。我正在使用extendsMapper对于映射器类和Reducer对于reducer类。这是我的代码驱动.javapublicclassdriverextendsConfiguredimplementsTool{publicintrun(String[]args)throwsException{Configurationconf=newConfiguration();Jobjob=newJob(conf,"wordcount");job.setMapperClass(mapper.class);job.setRe

处理 PDF 文件的 Java MapReduce 程序

我需要使用Java在mapreduce程序中解析PDF文件。我正在使用CDH5.0.1进行集群设置。我有一个由FileInputFormat扩展的自定义输入格式类，我在其中覆盖了getRecordReader方法以返回自定义RecordReader的实例，并覆盖了isSplitable方法以防止文件不可拆分，如本SOanswer中所建议的那样.现在的问题是，在当前的CDHAPIgetRecordReader返回接口(interface)org.apache.hadoop.mapred.RecordReader而上面的SO答案中扩展到自定义RecordReader的是一个抽象类org.a

hadoop - 一个包含 HDFS 和 MapReduce 的文件数据库

假设我想存储大量带有相关元数据的urlURL=>Metadata在文件中hdfs://db/urls.seq我希望这个文件在每次运行MapReduce后增长(如果找到新的URL)。这可以与Hadoop一起使用吗？据我了解，MapReduce将数据输出到新目录。有没有办法获取该输出并将其附加到文件中？我想到的唯一想法是创建一个临时的urls.seq然后替换旧的。它有效，但感觉很浪费。另外，根据我的理解，Hadoop喜欢“一次编写”的方法，而这个想法似乎与此冲突。最佳答案作为blackSmith已经解释说你可以很容易地在hdfs中附

java - Hadoop MapReduce 作业在本地无法加载库并且在 OS X 上连接失败

我正在尝试在OSXYosemite上运行hadoop。当我按照http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html的说明进行操作时，我配置了hadoop，启动了$sbin/start-dfs.sh，然后用jps查看得到了输出:17237DataNode17324SecondaryNameNode17388Jps但是，当我尝试“bin/hdfsdfs-mkdir/user”时，hadoop无法加载库(当我运行其他示例时也会发生同样的情况)，并显示连接失败:$bi

hadoop - Mapper Combiner patitioner shuffle/sort 顺序

我在DefiniteGuide:Hadoopinpg206中有以下文字。在写入磁盘之前，线程首先将数据划分为对应的分区到他们最终将被发送到的reducer。在每个分区内，后台线程按键执行内存中排序，如果有组合器功能，它在排序的输出上运行。运行combiner函数可以得到更多紧凑的map输出，因此写入本地磁盘和传输到的数据较少reducer。那么有了这个理解，我可以排序为Mapper，partitioner，shuffle/sort，Combiner的顺序吗？最佳答案我写了一篇关于此的好文章:http://0x0fff.com/h

python - 如何使用 Python 在 MapReduce 中的 reducer 中输出键值对，以便 1 小时内的时间结束？

我有一种情况需要处理一个非常大的文本文件，格式如下:ID\ttime\tduration\tDescription\tstatus我想利用MapReduce来帮助我处理这个文件。我知道MapReduce基于键值对工作。Mapper将输出键和一些值，而MapReduce将确保所有相同的键最终都在1个reducer中。我想要在reducer中结束的是时间间隔在1小时以内的行。然后在reducer中，我想访问所有其他信息以及ID、持续时间、状态来做其他事情。所以我猜想输出的值是一个列表还是什么？我有一些Python代码来处理输入数据。映射器.py#!/usr/bin/envpythonimp

hadoop - mapper类在hadoop mapreduce程序中是强制性的吗

据我所知，如果驱动程序类中未提及映射器类，它将使用恒等映射器以及同样的reducer。但是，如果不编写任何映射器类，谁将调用hdfs输入数据并对其进行处理并发送到reducer。最佳答案 Mapper类是必需的。正如您所说，如果您没有在驱动程序中指定Mapper类，那么将使用IdentityMapper。Butifnotwritinganymapperclass,whowillcallthehdfsinputdataandprocessitandsendtoreducer.因此，如果您不编写任何映射器类，IdentityMappe

hadoop - 为 mapreduce 中的键生成多个输出记录

我必须对大型数据集执行sql“分组依据”类型的(不完全是)操作。我能想到的一个简单的类似示例如下所示，其中所需的输出可能是1)将数据分组(国家、城市、性别、母语)2)将数据分组(国家、城市、性别、年龄组)3)将数据分组到(country,city,age_group)countrycitygenderage_groupmother_tongueno_of_times_surveyed----------------------------------------------------------------USAnew_yorkfemalemiddleenglish5USAseatt

hadoop - Hive count(*) 查询未调用 mapreduce

我在配置单元中有外部表，我正在尝试运行selectcount(*)fromtable_name查询，但查询立即返回并给出我认为已经存储的结果。查询返回的结果不正确。有没有办法强制执行mapreduce作业并使查询每次都执行。注意:并非所有外部表都遵循此行为，但其中一些外部表遵循此行为。使用的版本:Hive0.14.0.2.2.6.0-2800，Hadoop2.6.0.2.2.6.0-2800(Hortonworks) 最佳答案经过一些发现，我找到了一种方法，可以启动MR来计算orc表上的记录数。ANALYZETABLE'表名'PA

hadoop - Oozie 中的 MapReduce 作业可以从文件中读取吗？

在Oozie中创建工作流时，我有一个第一个Java步骤，它生成一个文件，其中包含下一步(map-reduce)所需的文件列表。我如何使用该文件提供该map-reduce作业？我知道我可以勾选java步骤的Captureoutput框，然后在map-reduce步骤中使用mapred.input.dir来使用捕获的输出作为输入。但我想摆脱它。仅作记录，我的文件内容如下:/data/kafka/4/camus/DATA.TRADE.ORDERHISTORY/daily/2015/07/18,/data/kafka/4/camus/DATA.TRADE.ORDERHISTORY/daily/