Reduce

apache-spark - Apache Spark 中 reduce 和 reduceByKey 的区别

ApacheSpark中的reduce和reduceByKey在功能上有什么区别？为什么reduceByKey是一个转换而reduce是一个Action？最佳答案这接近于myanswerexplainingreduceByKey的副本，但我将详细说明使两者不同的具体部分。但是，请参阅我的回答以了解有关reduceByKey内部结构的更多细节。基本上，reduce必须将整个数据集拉到一个位置，因为它正在减少到一个最终值。另一方面，reduceByKey是每个键的一个值。由于此操作可以首先在每台机器上本地运行，因此它可以保留为RDD

java - 在 Hadoop 中，框架在哪里保存普通 Map-Reduce 应用程序中 Map 任务的输出？

我试图找出Map任务的输出在Reduce任务可以使用之前保存到磁盘的位置。注意:-使用的版本是具有新API的Hadoop0.20.204例如在Map类中覆盖map方法时:publicvoidmap(LongWritablekey,Textvalue,Contextcontext)throwsIOException,InterruptedException{Stringline=value.toString();StringTokenizertokenizer=newStringTokenizer(line);while(tokenizer.hasMoreTokens()){word.s

Map-Reduce Map section code strong java hadoop mapreduce cluster-computing cloudera

hadoop - 在 HDFS 中的特定文件/ block 上运行 Map-Reduce 作业

首先，我是hadoop的新手:)我有一个大的gzip文件数据集(gzip文件中的TB文档，每个文件的大小约为100-500mb)。基本上，我需要对我的map-reduce作业的输入进行某种过滤。我想以各种方式分析这些文件。其中许多作业只需要分析特定格式的文件(特定长度，包含特定单词等-各种任意(倒置)索引)，并且为每个作业处理整个数据集需要不合理的时间。所以我想创建指向HDFS中特定block/文件的索引。我可以手动生成所需的索引，但我如何准确指定我想处理哪些(数千个)特定文件/block作为映射器的输入？我可以在不将源数据读入例如数据的情况下执行此操作吗？数据库？我想要吗？还是我完全

Map-Reduce hadoop code section 的 indexing hdfs

hadoop - 如何调整 mapred.reduce.parallel.copies？

阅读后http://gbif.blogspot.com/2011/01/setting-up-hadoop-cluster-part-1-manual.html我们想尝试使用mapred.reduce.parallel.copies。该博客提到“非常仔细地查看日志”。我们怎么知道我们已经到达最佳点？我们应该寻找什么？我们如何检测到过度并行化？最佳答案为了做到这一点，您基本上应该寻找4个东西:CPU、RAM、磁盘和网络。如果您的设置超过了这些指标的阈值，您可以推断出您正在突破极限。例如，如果您将“mapred.reduce.par

parallel hadoop section mapred 洗牌

多核机器上的 Hadoop 和 map-reduce

我已经阅读了很多有关在机器集群上运行的Hadoop和Map-Reduce的内容。有人知道Apache发行版是否可以在具有多个内核的SMP上运行吗？特别是，可以在同一台机器上运行多个Map-Reduce进程。调度程序将负责将它们分布在多个核心上。谢谢。-公斤最佳答案是的。您在每台机器上有多个map和reduce插槽，这些插槽由RAM和CPU决定(每个JVM实例默认需要1GB，因此具有16个内核的8GB机器仍然应该有7个任务插槽)来自hadoopwikiUsetheconfigurationknob:mapred.tasktrack

多核 map-reduce section tasktracker maximum hadoop multicore

java - hadoop map reduce程序中的InstantiationException

我是Hadoop框架的新手。我试图编写一个程序，从hdfs读取XML文件，使用JDOM解析它并将它发送到数据库。以下是Java文件packageJDOMprs;importjava.io.IOException;importjava.util.ArrayList;importjava.util.List;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.conf.Configured;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.D

InstantiationException hadoop apache java xml jdom

hadoop - Amazon Elastic Map Reduce - 创建工作流程

我对亚马逊服务还很陌生。我在创建工作流程时遇到问题。每次我创建任何作业流程时，它都会失败或关闭。我不清楚输入、输出或映射器函数上传技术。我关注了开发人员部分，但事情并不清楚。任何建议都会有所帮助。提前致谢。错误日志是LastStateChange:Noactivekeysfoundforuseraccount 最佳答案这是对我有用的修复，如果您的工作流程报告以下错误，您可能需要它:LastStateChange:Noactivekeysfoundforuseraccount当您创建AWS账户时，默认情况下，必须为您创建安全访问ke

工作流程 Elastic section strong hadoop amazon-s3 amazon-ec2 elastic-map-reduce emr

java - 使用 hadoop 和 java 命令执行 map-reduce 作业有什么区别

找到许多运行map-reduce程序的选项。任何人都可以解释以下命令之间的区别。以及对Map-reduce作业的影响(如果有的话)。java-jarMyMapReduce.jar[args]hadoopjarMyMapReduce.jar[args]yarnjarMyMapReduce.jar[args]在这些命令中，哪一个最好？是否可以在以下命令中使用Web服务8088(YARN)端口使Web服务正常使用Yarn和JobHistory(如显示Hadoop和yarn命令)显示有关作业的所有信息？java-jarMyMapReduce.jar[args] 最佳

java map-reduce code section jar hadoop mapreduce hdfs hadoop-yarn

hadoop - Hive 如何决定何时使用 map reduce 何时不使用？

举个简单的例子，select*fromtablename;不会启动mapreduce，而selectcount(*)fromtablename;确实如此。决定何时使用mapreduce(通过hive)的一般原则是什么？最佳答案一般来说，任何类型的聚合，例如最小/最大/计数都需要MapReduce作业。这可能不会为您解释一切。Hive，在许多RDBMS的风格中，有一个EXPLAIN关键字将概述您的Hive查询如何转换为MapReduce作业。尝试对您的两个示例查询运行解释，看看它在幕后尝试做什么。

何时 hadoop section code mapreduce hive

hadoop - 如何使用 Map/Reduce 选择随机(小)数据样本？

我想编写一个map/reduce作业，以根据行级条件从大型数据集中选择一些随机样本。我想尽量减少中间键的数量。伪代码:foreachrowifrowmatchesconditionputtherow.idinthebucketifthebucketisnotalreadylargeenough你做过这样的事吗？有什么众所周知的算法吗？包含连续行的示例也足够好。谢谢。最佳答案映射器:输出所有符合条件的值，每个值都有一个随机整数键。单reducer:输出前N个值，丢弃键。排序器将为您随机化映射器输出顺序。您不知道映射器会找到多少个限

hadoop Reduce 射器 section stackoverflow mapreduce hbase random

88 89 909192 93 94