mapreduce_shuffle

hadoop - 在 MapReduce Hadoop 中排序

我有几个关于HadoopMapReduce的基本问题。假设是否执行了100个映射器和零个缩减器。会不会生成100个文件？所有个体都排序了吗？跨越所有映射器输出排序了吗？reducer的输入是Key->Values。对于每个键，所有值都已排序？假设是否执行了50个reducer。它会生成50个文件吗？所有单个文件都已排序？对所有reducer的输出进行排序？在MapReduce中有没有保证排序发生的地方？最佳答案 1.Assumeif100mapperswereexecutedandzeroreducer.Willitgenerat

中排 MapReduce blockquote 射器 reducer hadoop cloudera mapr

hadoop - 为什么join和group by会影响spark中的数据shuffle量

我正在使用spark，我看到当一个查询有很多连接操作并且groupbyspark需要做很多洗牌操作。我一直在寻找信息为什么会发生这种情况，但我没有找到任何具体的信息。你能帮助理解这个吗？最佳答案 Sparkshuffles只是在集群中移动数据。因此，任何需要分区中本地不存在的数据的转换都会执行洗牌。查看连接，每个分区都需要经过整个连接的df才能完成操作，因此完成了一个洗牌，基本上将连接的df移动到每个事件分区。groupbykey也会发生同样的事情，其中所有相同的键都需要在同一个分区中结束，以便随机播放将它们移到那里。如您所见

shuffle hadoop section 洗牌 stackoverflow apache-spark

hadoop - Mapreduce 传递命令行参数

我正在尝试将新的API用于mapreduce并将正则表达式作为-D命令行参数传递，但它没有被拾取。结果是Pattern.compile(pattern)得到一个NullPointerException我的映射器代码是；publicclassMdacMapperextendsMapper{privatePatterncompiledPattern;publicvoidsetup(Contextcontext){Configurationconfig=context.getConfiguration();Stringpattern=config.get("mapper.pattern");

Mapreduce 传递 class job Text hadoop hadoop2

java - MapReduce 排序程序中的 NullPointerException

我知道SortComparator用于按键对映射输出进行排序。我编写了自定义SortComparator以更好地理解MapReduce框架。这是我的带有自定义SortComparator类的WordCount类。packagebananas;importjava.io.FileWriter;importjava.io.IOException;importjava.util.StringTokenizer;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.

NullPointerException MapReduce hadoop apache IntWritable java sorting

hadoop - 使用 Hadoop MapReduce 的计算语言学项目构想

我需要做一个关于计算语言学类(class)的项目。是否有任何有趣的“语言”问题，这些问题的数据密集度足以使用Hadoopmapreduce来解决。解决方案或算法应该尝试分析并提供“语言”领域的一些见解。但是它应该适用于大型数据集，这样我就可以为它使用hadoop。我知道有一个用于hadoop的python自然语言处理工具包。最佳答案如果你有一些“不寻常”语言的大型语料库(在“已经执行了有限数量的计算语言学”的意义上)，重复一些已经为非常流行的语言(例如英语)执行的现有计算语言学工作,中文,阿拉伯语,...)是一个非常合适的项目(

语言学构想语料 section hadoop mapreduce nlp

Hadoop mapreduce编程

如何使用Hadoopmapreduce编程获取已排序的o/p。有什么方法可以按排序顺序获得最终的键值对。(通过键或值)。对此非常感谢。谢谢R 最佳答案默认情况下，MapReduce将按键对输入记录进行排序。但是，下载最新的Hadoop版本并查看它们的示例可能对您有更多帮助。还有不同的排序示例。如果您需要有关排序顺序的更多信息，可以这样更改。键的排序顺序由RawComparator控制，如下所示:如果设置了mapred.output.key.comparator.class属性，则该类的一个实例用来。(JobConf上的setOut

mapreduce Hadoop section 的

hadoop - 将数据传入和传出 Elastic MapReduce HDFS

我编写了一个Hadoop程序，它需要在HDFS中进行特定布局，然后我需要从HDFS中获取文件。它在我的单节点Hadoop设置上运行，我渴望让它在ElasticMapReduce中的10个节点上运行。我一直在做的是这样的:./elastic-mapreduce--create--aliveJOBID="j-XXX"#outputfromcreation./elastic-mapreduce-j$JOBID--ssh"hadoopfs-cps3://bucket-id/XXX/XXX"./elastic-mapreduce-j$JOBID--jars3://bucket-id/jars/h

传入传出 section elastic-mapreduce mapreduce hadoop elastic-map-reduce

java - Hadoop MapReduce 新手，在 mapred.Reducer.<init>() 上获取 NoSuchMethodException

解决方案:使用更好的教程-http://hadoop.apache.org/mapreduce/docs/r0.22.0/mapred_tutorial.html我刚开始使用MapReduce，遇到了一个我无法通过Google解决的奇怪错误。我正在制作一个基本的WordCount程序，但是当我运行它时，在Reduce期间出现以下错误:java.lang.RuntimeException:java.lang.NoSuchMethodException:org.apache.hadoop.mapred.Reducer.()atorg.apache.hadoop.util.Reflectio

NoSuchMethodException MapReduce hadoop apache IntWritable java nosuchmethoderror

java - 不了解 MapReduce NPE

这是我收到的错误:14/02/2802:52:43INFOmapred.JobClient:TaskId:attempt_201402271927_0020_m_000001_2,Status:FAILEDjava.lang.NullPointerExceptionatorg.apache.hadoop.mapred.MapTask$MapOutputBuffer.init(MapTask.java:843)atorg.apache.hadoop.mapred.MapTask.createSortingCollector(MapTask.java:376)atorg.apache.ha

MapReduce java code IntWritable MapTask generics hadoop cloudera

java - 无法找到或加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster

mapred-site.xml的内容:mapreduce.framework.nameyarnyarn.app.mapreduce.am.envHADOOP_MAPRED_HOME=/home/admin/hadoop-3.1.0mapreduce.map.envHADOOP_MAPRED_HOME=/home/admin/hadoop-3.1.0mapreduce.reduce.envHADOOP_MAPRED_HOME=/home/admin/hadoop-3.1.0mapreduce.application.classpath$HADOOP_MAPRED_HOME/share/h

MRAppMaster mapreduce HADOOP_MAPRED_HOME HADOOP java hadoop3

156 157 158159160 161 162