草庐IT

Iterator-reducer

全部标签

java - 使用 hadoop 和 java 命令执行 map-reduce 作业有什么区别

找到许多运行map-reduce程序的选项。任何人都可以解释以下命令之间的区别。以及对Map-reduce作业的影响(如果有的话)。java-jarMyMapReduce.jar[args]hadoopjarMyMapReduce.jar[args]yarnjarMyMapReduce.jar[args]在这些命令中,哪一个最好?是否可以在以下命令中使用Web服务8088(YARN)端口使Web服务正常使用Yarn和JobHistory(如显示Hadoop和yarn命令)显示有关作业的所有信息?java-jarMyMapReduce.jar[args] 最佳

amazon-web-services - Amazon MapReduce 无 reducer 作业

我正在尝试通过AWS(流式作业)创建仅映射器作业。reducer字段是必需的,因此我提供了一个虚拟可执行文件,并将-jobconfmapred.map.tasks=0添加到ExtraArgs框中。在我安装的hadoop环境(版本0.20)中,不会启动reducer作业,但在AWS中,虚拟可执行文件启动并失败。如何在AWS中运行一个没有reducer/mapper的作业? 最佳答案 您也可以使用cat或NONE作为reducer参数。 关于amazon-web-services-Amazo

hadoop - Hive 如何决定何时使用 map reduce 何时不使用?

举个简单的例子,select*fromtablename;不会启动mapreduce,而selectcount(*)fromtablename;确实如此。决定何时使用mapreduce(通过hive)的一般原则是什么? 最佳答案 一般来说,任何类型的聚合,例如最小/最大/计数都需要MapReduce作业。这可能不会为您解释一切。Hive,在许多RDBMS的风格中,有一个EXPLAIN关键字将概述您的Hive查询如何转换为MapReduce作业。尝试对您的两个示例查询运行解释,看看它在幕后尝试做什么。

Hadoop 流 - 从 reducer 输出中删除尾随选项卡

我有一个hadoop流作业,其输出不包含键/值对。您可以将其视为仅值对或仅键对。我的streamingreducer(一个php脚本)正在输出由换行符分隔的记录。HadoopStreaming将其视为没有值的键,并在换行符之前插入一个制表符。这个额外的标签是不需要的。如何删除它?我将hadoop1.0.3与AWSEMR结合使用。我下载了hadoop1.0.3的源码,在hadoop-1.0.3/src/contrib/streaming/src/java/org/apache/hadoop/streaming/PipeReducer.java中找到这段代码:reduceOutFieldS

hadoop - 如何使用 Map/Reduce 选择随机(小)数据样本?

我想编写一个map/reduce作业,以根据行级条件从大型数据集中选择一些随机样本。我想尽量减少中间键的数量。伪代码:foreachrowifrowmatchesconditionputtherow.idinthebucketifthebucketisnotalreadylargeenough你做过这样的事吗?有什么众所周知的算法吗?包含连续行的示例也足够好。谢谢。 最佳答案 映射器:输出所有符合条件的值,每个值都有一个随机整数键。单reducer:输出前N个值,丢弃键。排序器将为您随机化映射器输出顺序。您不知道映射器会找到多少个限

Hadoop Map Reduce 读取一个文本文件

我正在尝试编写一个可以读取输入文件并将输出写入另一个文本文件的MapReduce程序。我打算为此使用BufferedReader类。但我真的不知道如何在MapReduce程序中使用它。有人能给我一段代码吗?附言我对Hadoop和MapReduce编程完全陌生。所以请多多包涵。提前谢谢你。 最佳答案 下面的代码可以帮助您从HDFS读取文件并在控制台中显示内容importjava.io.BufferedReader;importjava.io.InputStreamReader;importorg.apache.hadoop.conf.

java - 使用 HDFS 输入和 HBASE 输出的 hadoop map reduce 作业

我是hadoop的新手。我有一个MapReduce作业,它应该从Hdfs获取输入并将reducer的输出写入Hbase。我还没有找到任何好的例子。这是代码,运行这个例子的错误是Typemismatchinmap,expectedImmutableBytesWritablerecievedIntWritable.映射器类publicstaticclassAddValueMapperextendsMapper{/*input*output*/publicvoidmap(LongWritablekey,Textvalue,Contextcontext)throwsIOException,In

hadoop - 在 cygwin 中运行简单的 map-reduce hadoop 示例时出现问题

我只是想让Hadoop在我的笔记本电脑上以独立模式运行64位Windows7。我已经在默认文件夹(c:\cygwin)中安装了Cygwin1.7。我在文件夹c:\jdk1.7.0_03中有最新的JDK,并设置了JAVA_HOME环境变量。当我尝试从cygwin提示符运行以下命令时:$bin/hadoopjarhadoop-examples-*.jargrepinputoutput'dfs[a-z.]+'这是我得到的错误:12/03/1719:08:43WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourpla

hadoop - 默认 reducer 数量

在Hadoop中,如果我们没有设置reducer的数量,那么会创建多少个reducer?像映射器的数量取决于(总数据大小)/(输入拆分大小),例如。如果数据大小为1TB,输入拆分大小为100MB。那么映射器的数量将为(1000*1000)/100=10000(万)。reducer的数量取决于哪些因素?为一个作业创建了多少个reducer? 最佳答案 减少了多少?(来自officialdocumentation)reduce的正确数量似乎是0.95或1.75乘以(节点数)*(每个节点的最大容器数)。With0.95allofthere

hadoop - Hive 上的自定义 Map Reduce 程序,规则是什么?输入和输出如何?

我卡住了几天,因为我想根据我在hive上的查询创建一个自定义的mapreduce程序,谷歌搜索后我发现的例子不多,我仍然对规则感到困惑。创建自定义mapreduce程序的规则是什么,mapper和reducer类如何?谁能提供解决方案?我想用Java开发这个程序,但我仍然卡住了,然后在收集器中格式化输出时,如何在mapper和reducer类中格式化结果?有人想给我一些关于这类东西的例子和解释吗? 最佳答案 基本上有两种方法可以将自定义映射器/缩减器添加到配置单元查询。使用转换SELECTTRANSFORM(stuff1,stuff