草庐IT

reduced_bitmap

全部标签

hadoop - MapReduce 中 1 个任务的 reducer 数量

在典型的MapReduce设置(如Hadoop)中,有多少reducer用于1个任务,例如,计算单词?我对Google的MapReduce的理解意味着只涉及1个reducer。对吗?例如,wordcount会将输入分成N个chunk,N个Map会运行,产生(word,#)列表。我的问题是,一旦Map阶段完成,是否只有一个reducer实例运行来计算结果?或者会有reducer并行运行? 最佳答案 简单的答案是,reducer的数量不必为1,是的,reducer可以并行运行。正如我上面提到的,这是用户定义或派生的。为了保持上下文相关性

java - hadoop map reduce程序中的InstantiationException

我是Hadoop框架的新手。我试图编写一个程序,从hdfs读取XML文件,使用JDOM解析它并将它发送到数据库。以下是Java文件packageJDOMprs;importjava.io.IOException;importjava.util.ArrayList;importjava.util.List;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.conf.Configured;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.D

hadoop - Amazon Elastic Map Reduce - 创建工作流程

我对亚马逊服务还很陌生。我在创建工作流程时遇到问题。每次我创建任何作业流程时,它都会失败或关闭。我不清楚输入、输出或映射器函数上传技术。我关注了开发人员部分,但事情并不清楚。任何建议都会有所帮助。提前致谢。错误日志是LastStateChange:Noactivekeysfoundforuseraccount 最佳答案 这是对我有用的修复,如果您的工作流程报告以下错误,您可能需要它:LastStateChange:Noactivekeysfoundforuseraccount当您创建AWS账户时,默认情况下,必须为您创建安全访问ke

java - 使用 hadoop 和 java 命令执行 map-reduce 作业有什么区别

找到许多运行map-reduce程序的选项。任何人都可以解释以下命令之间的区别。以及对Map-reduce作业的影响(如果有的话)。java-jarMyMapReduce.jar[args]hadoopjarMyMapReduce.jar[args]yarnjarMyMapReduce.jar[args]在这些命令中,哪一个最好?是否可以在以下命令中使用Web服务8088(YARN)端口使Web服务正常使用Yarn和JobHistory(如显示Hadoop和yarn命令)显示有关作业的所有信息?java-jarMyMapReduce.jar[args] 最佳

amazon-web-services - Amazon MapReduce 无 reducer 作业

我正在尝试通过AWS(流式作业)创建仅映射器作业。reducer字段是必需的,因此我提供了一个虚拟可执行文件,并将-jobconfmapred.map.tasks=0添加到ExtraArgs框中。在我安装的hadoop环境(版本0.20)中,不会启动reducer作业,但在AWS中,虚拟可执行文件启动并失败。如何在AWS中运行一个没有reducer/mapper的作业? 最佳答案 您也可以使用cat或NONE作为reducer参数。 关于amazon-web-services-Amazo

hadoop - Hive 如何决定何时使用 map reduce 何时不使用?

举个简单的例子,select*fromtablename;不会启动mapreduce,而selectcount(*)fromtablename;确实如此。决定何时使用mapreduce(通过hive)的一般原则是什么? 最佳答案 一般来说,任何类型的聚合,例如最小/最大/计数都需要MapReduce作业。这可能不会为您解释一切。Hive,在许多RDBMS的风格中,有一个EXPLAIN关键字将概述您的Hive查询如何转换为MapReduce作业。尝试对您的两个示例查询运行解释,看看它在幕后尝试做什么。

Hadoop 流 - 从 reducer 输出中删除尾随选项卡

我有一个hadoop流作业,其输出不包含键/值对。您可以将其视为仅值对或仅键对。我的streamingreducer(一个php脚本)正在输出由换行符分隔的记录。HadoopStreaming将其视为没有值的键,并在换行符之前插入一个制表符。这个额外的标签是不需要的。如何删除它?我将hadoop1.0.3与AWSEMR结合使用。我下载了hadoop1.0.3的源码,在hadoop-1.0.3/src/contrib/streaming/src/java/org/apache/hadoop/streaming/PipeReducer.java中找到这段代码:reduceOutFieldS

hadoop - 如何使用 Map/Reduce 选择随机(小)数据样本?

我想编写一个map/reduce作业,以根据行级条件从大型数据集中选择一些随机样本。我想尽量减少中间键的数量。伪代码:foreachrowifrowmatchesconditionputtherow.idinthebucketifthebucketisnotalreadylargeenough你做过这样的事吗?有什么众所周知的算法吗?包含连续行的示例也足够好。谢谢。 最佳答案 映射器:输出所有符合条件的值,每个值都有一个随机整数键。单reducer:输出前N个值,丢弃键。排序器将为您随机化映射器输出顺序。您不知道映射器会找到多少个限

Hadoop Map Reduce 读取一个文本文件

我正在尝试编写一个可以读取输入文件并将输出写入另一个文本文件的MapReduce程序。我打算为此使用BufferedReader类。但我真的不知道如何在MapReduce程序中使用它。有人能给我一段代码吗?附言我对Hadoop和MapReduce编程完全陌生。所以请多多包涵。提前谢谢你。 最佳答案 下面的代码可以帮助您从HDFS读取文件并在控制台中显示内容importjava.io.BufferedReader;importjava.io.InputStreamReader;importorg.apache.hadoop.conf.

java - 使用 HDFS 输入和 HBASE 输出的 hadoop map reduce 作业

我是hadoop的新手。我有一个MapReduce作业,它应该从Hdfs获取输入并将reducer的输出写入Hbase。我还没有找到任何好的例子。这是代码,运行这个例子的错误是Typemismatchinmap,expectedImmutableBytesWritablerecievedIntWritable.映射器类publicstaticclassAddValueMapperextendsMapper{/*input*output*/publicvoidmap(LongWritablekey,Textvalue,Contextcontext)throwsIOException,In