草庐IT

Mapreduce1

全部标签

hadoop - Hive 生成​​的 MapReduce 代码

ApacheHiveQL在哪里存储它生成的Map/Reduce代码? 最佳答案 我相信Hive并没有真正生成Map/Reduce代码,就像您可以从Java中获得的那样,因为它是由Hive查询规划器解释的。如果您想了解Hive查询生成的操作类型,可以在查询前加上EXPLAIN,您将看到抽象语法树、依赖关系图和计划每个阶段。有关EXPLAIN的更多信息here.如果您真的想查看一些Map/Reduce作业,您可以尝试YSmart这会将您的HiveQL语句转换为有效的JavaMap/Reduce代码。我个人没有使用过它,但我知道有人用过它

hadoop - 带有 mapreduce.Job 的 SetNumMapTask

如何使用org.apache.hadoop.mapreduce.Job设置映射任务的数量?该功能似乎不存在...但它存在于org.apacache.hadoop.mapred.JobConf...谢谢! 最佳答案 据我所知,setNumMapTasks不再受支持。这只是对框架的提示(即使在旧API中也是如此),并不保证您只会获得指定数量的map。map创建实际上由您在工作中使用的InputFormat控制。您可以根据需要调整以下属性:ma​​pred.min.split.sizema​​pred.max.split.size由于您处

sorting - Hadoop MapReduce Streaming 对多列进行排序

我有这样的mapreduce输入:key1\t4.1\tmore...key1\t10.3\tmore...key2\t6.9\tmore...key2\t3\tmore...我想按第一列排序,然后按第二列排序(反向数字)。有没有办法实现这个StreamingMapReduce?我目前的尝试是这样的:hadoopjarhadoop-streaming-1.2.1.jar-Dnum.key.fields.for.partition=1-Dmapred.text.key.comparator.options='-k1,2rn'-Dmapred.output.key.comparator.c

java - java 中的 mapreduce - gzip 输入文件

我正在使用java,我正在尝试编写一个mapreduce,它将接收一个包含多个gz的文件夹作为输入文件。我一直在寻找所有的教程,但我找到的所有教程都说明了如何处理一个简单的文本文件,但没有找到任何可以解决我的问题的方法。我在我的工作场所四处打听,但只得到了对scala的引用,我对此并不熟悉。如有任何帮助,我们将不胜感激。 最佳答案 Hadoop检查文件扩展名以检测压缩文件。Hadoop支持的压缩类型有:gzip、bzip2和LZO。您不需要采取任何额外的操作来使用这些类型的压缩来提取文件;Hadoop会为您处理。因此,您只需像编写文

hadoop - 在 MapReduce Hadoop 中排序

我有几个关于HadoopMapReduce的基本问题。假设是否执行了100个映射器和零个缩减器。会不会生成100个文件?所有个体都排序了吗?跨越所有映射器输出排序了吗?reducer的输入是Key->Values。对于每个键,所有值都已排序?假设是否执行了50个reducer。它会生成50个文件吗?所有单个文件都已排序?对所有reducer的输出进行排序?在MapReduce中有没有保证排序发生的地方? 最佳答案 1.Assumeif100mapperswereexecutedandzeroreducer.Willitgenerat

hadoop - Mapreduce 传递命令行参数

我正在尝试将新的API用于mapreduce并将正则表达式作为-D命令行参数传递,但它没有被拾取。结果是Pattern.compile(pattern)得到一个NullPointerException我的映射器代码是;publicclassMdacMapperextendsMapper{privatePatterncompiledPattern;publicvoidsetup(Contextcontext){Configurationconfig=context.getConfiguration();Stringpattern=config.get("mapper.pattern");

java - MapReduce 排序程序中的 NullPointerException

我知道SortComparator用于按键对映射输出进行排序。我编写了自定义SortComparator以更好地理解MapReduce框架。这是我的带有自定义SortComparator类的WordCount类。packagebananas;importjava.io.FileWriter;importjava.io.IOException;importjava.util.StringTokenizer;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.

hadoop - 使用 Hadoop MapReduce 的计算语言学项目构想

我需要做一个关于计算语言学类(class)的项目。是否有任何有趣的“语言”问题,这些问题的数据密集度足以使用Hadoopmapreduce来解决。解决方案或算法应该尝试分析并提供“语言”领域的一些见解。但是它应该适用于大型数据集,这样我就可以为它使用hadoop。我知道有一个用于hadoop的python自然语言处理工具包。 最佳答案 如果你有一些“不寻常”语言的大型语料库(在“已经执行了有限数量的计算语言学”的意义上),重复一些已经为非常流行的语言(例如英语)执行的现有计算语言学工作,中文,阿拉伯语,...)是一个非常合适的项目(

Hadoop mapreduce编程

如何使用Hadoopmapreduce编程获取已排序的o/p。有什么方法可以按排序顺序获得最终的键值对。(通过键或值)。对此非常感谢。谢谢R 最佳答案 默认情况下,MapReduce将按键对输入记录进行排序。但是,下载最新的Hadoop版本并查看它们的示例可能对您有更多帮助。还有不同的排序示例。如果您需要有关排序顺序的更多信息,可以这样更改。键的排序顺序由RawComparator控制,如下所示:如果设置了mapred.output.key.comparator.class属性,则该类的一个实例用来。(JobConf上的setOut

hadoop - 将数据传入和传出 Elastic MapReduce HDFS

我编写了一个Hadoop程序,它需要在HDFS中进行特定布局,然后我需要从HDFS中获取文件。它在我的单节点Hadoop设置上运行,我渴望让它在ElasticMapReduce中的10个节点上运行。我一直在做的是这样的:./elastic-mapreduce--create--aliveJOBID="j-XXX"#outputfromcreation./elastic-mapreduce-j$JOBID--ssh"hadoopfs-cps3://bucket-id/XXX/XXX"./elastic-mapreduce-j$JOBID--jars3://bucket-id/jars/h