Mapreduce1

hadoop - Hive 生成的 MapReduce 代码

ApacheHiveQL在哪里存储它生成的Map/Reduce代码？最佳答案我相信Hive并没有真正生成Map/Reduce代码，就像您可以从Java中获得的那样，因为它是由Hive查询规划器解释的。如果您想了解Hive查询生成的操作类型，可以在查询前加上EXPLAIN，您将看到抽象语法树、依赖关系图和计划每个阶段。有关EXPLAIN的更多信息here.如果您真的想查看一些Map/Reduce作业，您可以尝试YSmart这会将您的HiveQL语句转换为有效的JavaMap/Reduce代码。我个人没有使用过它，但我知道有人用过它

hadoop - 带有 mapreduce.Job 的 SetNumMapTask

如何使用org.apache.hadoop.mapreduce.Job设置映射任务的数量？该功能似乎不存在...但它存在于org.apacache.hadoop.mapred.JobConf...谢谢! 最佳答案据我所知，setNumMapTasks不再受支持。这只是对框架的提示(即使在旧API中也是如此)，并不保证您只会获得指定数量的map。map创建实际上由您在工作中使用的InputFormat控制。您可以根据需要调整以下属性:mapred.min.split.sizemapred.max.split.size由于您处

SetNumMapTask mapreduce strong section size hadoop

sorting - Hadoop MapReduce Streaming 对多列进行排序

我有这样的mapreduce输入:key1\t4.1\tmore...key1\t10.3\tmore...key2\t6.9\tmore...key2\t3\tmore...我想按第一列排序，然后按第二列排序(反向数字)。有没有办法实现这个StreamingMapReduce？我目前的尝试是这样的:hadoopjarhadoop-streaming-1.2.1.jar-Dnum.key.fields.for.partition=1-Dmapred.text.key.comparator.options='-k1,2rn'-Dmapred.output.key.comparator.c

多列 MapReduce section combiner comparator sorting hadoop

java - java 中的 mapreduce - gzip 输入文件

我正在使用java，我正在尝试编写一个mapreduce，它将接收一个包含多个gz的文件夹作为输入文件。我一直在寻找所有的教程，但我找到的所有教程都说明了如何处理一个简单的文本文件，但没有找到任何可以解决我的问题的方法。我在我的工作场所四处打听，但只得到了对scala的引用，我对此并不熟悉。如有任何帮助，我们将不胜感激。最佳答案 Hadoop检查文件扩展名以检测压缩文件。Hadoop支持的压缩类型有:gzip、bzip2和LZO。您不需要采取任何额外的操作来使用这些类型的压缩来提取文件；Hadoop会为您处理。因此，您只需像编写文

java mapreduce section code 编写 hadoop gzip

hadoop - 在 MapReduce Hadoop 中排序

我有几个关于HadoopMapReduce的基本问题。假设是否执行了100个映射器和零个缩减器。会不会生成100个文件？所有个体都排序了吗？跨越所有映射器输出排序了吗？reducer的输入是Key->Values。对于每个键，所有值都已排序？假设是否执行了50个reducer。它会生成50个文件吗？所有单个文件都已排序？对所有reducer的输出进行排序？在MapReduce中有没有保证排序发生的地方？最佳答案 1.Assumeif100mapperswereexecutedandzeroreducer.Willitgenerat

中排 MapReduce blockquote 射器 reducer hadoop cloudera mapr

hadoop - Mapreduce 传递命令行参数

我正在尝试将新的API用于mapreduce并将正则表达式作为-D命令行参数传递，但它没有被拾取。结果是Pattern.compile(pattern)得到一个NullPointerException我的映射器代码是；publicclassMdacMapperextendsMapper{privatePatterncompiledPattern;publicvoidsetup(Contextcontext){Configurationconfig=context.getConfiguration();Stringpattern=config.get("mapper.pattern");

Mapreduce 传递 class job Text hadoop hadoop2

java - MapReduce 排序程序中的 NullPointerException

我知道SortComparator用于按键对映射输出进行排序。我编写了自定义SortComparator以更好地理解MapReduce框架。这是我的带有自定义SortComparator类的WordCount类。packagebananas;importjava.io.FileWriter;importjava.io.IOException;importjava.util.StringTokenizer;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.

NullPointerException MapReduce hadoop apache IntWritable java sorting

hadoop - 使用 Hadoop MapReduce 的计算语言学项目构想

我需要做一个关于计算语言学类(class)的项目。是否有任何有趣的“语言”问题，这些问题的数据密集度足以使用Hadoopmapreduce来解决。解决方案或算法应该尝试分析并提供“语言”领域的一些见解。但是它应该适用于大型数据集，这样我就可以为它使用hadoop。我知道有一个用于hadoop的python自然语言处理工具包。最佳答案如果你有一些“不寻常”语言的大型语料库(在“已经执行了有限数量的计算语言学”的意义上)，重复一些已经为非常流行的语言(例如英语)执行的现有计算语言学工作,中文,阿拉伯语,...)是一个非常合适的项目(

语言学构想语料 section hadoop mapreduce nlp

Hadoop mapreduce编程

如何使用Hadoopmapreduce编程获取已排序的o/p。有什么方法可以按排序顺序获得最终的键值对。(通过键或值)。对此非常感谢。谢谢R 最佳答案默认情况下，MapReduce将按键对输入记录进行排序。但是，下载最新的Hadoop版本并查看它们的示例可能对您有更多帮助。还有不同的排序示例。如果您需要有关排序顺序的更多信息，可以这样更改。键的排序顺序由RawComparator控制，如下所示:如果设置了mapred.output.key.comparator.class属性，则该类的一个实例用来。(JobConf上的setOut

mapreduce Hadoop section 的

hadoop - 将数据传入和传出 Elastic MapReduce HDFS

我编写了一个Hadoop程序，它需要在HDFS中进行特定布局，然后我需要从HDFS中获取文件。它在我的单节点Hadoop设置上运行，我渴望让它在ElasticMapReduce中的10个节点上运行。我一直在做的是这样的:./elastic-mapreduce--create--aliveJOBID="j-XXX"#outputfromcreation./elastic-mapreduce-j$JOBID--ssh"hadoopfs-cps3://bucket-id/XXX/XXX"./elastic-mapreduce-j$JOBID--jars3://bucket-id/jars/h

传入传出 section elastic-mapreduce mapreduce hadoop elastic-map-reduce

147 148 149150151 152 153