reduce_ex

Hadoop 生态系统 : Map Reduce needed for Pig/Hive

互联网上有很多hadoop生态系统图片，所以我很难理解这些工具是如何协同工作的。例如在附图中，为什么pig和hive是基于mapreduce的，而其他工具如spark或storm基于YARN？你能解释一下吗？谢谢!BRhaddopecosystem 最佳答案图片显示了MapReduce之上的Pig和Hive。这是因为MapReduce是Pig和Hive使用的分布式计算引擎。Pig和Hive查询作为MapReduce作业执行。使用Pig和Hive更容易，因为它们提供了更高级别的抽象来使用MapReduce。现在我们来看一下图中YAR

java - 执行Map-Reduce程序时出错

我使用hadoop3.1.0在Ubuntu上运行MapreduceWordCount程序，但它总是得到这个信息。我看到有人问这个类似question之前，但这行不通。我想知道我应该修改哪个文件，或者我错过了什么。我的java程序来自here.master@kevin-VirtualBox:~/MapReduceTutorial$$HADOOP_HOME/bin/hadoopjarProductSalePerCountry.jar/inputMapReduce/mapreduce_output_sales$HADOOP_HOME/bin/hadoopjarProductSalePerCo

时出 Map-Reduce gt lt property java hadoop mapreduce

java - Map Reduce - 如何在单个作业中分组和聚合多个属性

我目前在MapReduce方面遇到了一些困难。我有以下数据集:1,John,Computer2,Anne,Computer3,John,Mobile4,Julia,Mobile5,Jack,Mobile6,Jack,TV7,John,Computer8,Jack,TV9,Jack,TV10,Anne,Mobile11,Anne,Computer12,Julia,Mobile现在我想应用带分组的MapReduce和聚合此数据集，以便输出不仅显示哪个人购买某物的次数，以及该人订购最多的产品是什么。所以输出应该是这样的:John3ComputerAnne3MobileJack4TVJulia

中分何在 Text String InterruptedException java hadoop mapreduce grouping aggregation

apache - 控制 HDFS 复制、映射器数量和 reducer 识别

我正在尝试以分布式方式(使用3台计算机的集群)运行ApacheHadoop2.65，并且我想决定映射器和缩减器的数量。我正在使用复制数为1的HDFS，我的输入是3个文件(表)。我想调整数据在系统中的流动方式，为此，我想通过以下方式获得一些帮助吗？以及如何以及在哪里可以更改它？HDFS的复制-我可以干扰HDFS的复制方式吗？例如，确保每个文件存储在不同的计算机上？如果可以，我可以选择哪个它将存储在计算机上吗？映射器数量-我可以更改映射器或输入拆分的数量吗？我知道这取决于输入拆分的数量和block大小。它在网上说我可以通过更改以下参数来做到这一点，但我不知道在哪里？-Dmapred.map

射器 reducer section strong apache hadoop hdfs hadoop-yarn

hadoop - 对相同的 reduce 任务的两次尝试是否应该继续并行运行？

我的hadoopreduce任务中的Action有外部效果，而且它们不是幂等的。我在任务跟踪器中观察到，尝试了一个reducer，然后启动了同一组键的另一个reducer，而没有杀死原来的reducer。我配置错了吗？这是这个reduce任务的表: 最佳答案这是由于hadoop中的推测执行。如果Hadoop检测到少数集群节点上有一些慢速任务，它是Hadoop指定备份任务的选项。备份任务将优先安排在速度较快的节点上。重复任务中最先完成的任务将成为用于进一步操作的任务。您可以通过将以下参数设置为false来关闭此功能mapred.re

hadoop reduce section 跟踪器 mapreduce

Hadoop 流式处理使用 shell 脚本 : reducer fails with error : No such file or directory

我正在使用一个10节点HDP集群，我试图在Bash上使用shell脚本运行一个简单的WordCount作业。下面是我正在使用的命令行参数。yarnjar/usr/hdp/2.6.5.0-292/hadoop-mapreduce/hadoop-streaming-2.7.3.2.6.5.0-292.jar\-mapper'wc-l'\-reducer'./reducer_wordcount.sh'\-file/home/pathirippilly/map_reduce_jobs/shell_scripts/reducer_wordcount.sh\-numReduceTasks1\-in

流式 directory java hadoop apache mapreduce hadoop2 hadoop-streaming

hadoop - 创建比 reducer 更多的分区

在我的单机上进行本地开发时，我相信reducer的默认数量是6。在特定的MR步骤中，我实际上将数据分成n个分区，其中n可以大于6。根据我的观察，看起来实际上只有6个分区得到处理，因为我只看到6个特定分区的输出。几个问题:(a)是否需要将reducer的数量设置为大于分区的数量？如果是这样，我可以在运行Mapper之前/期间/之后执行此操作吗？(b)为什么其他分区没有排队？有没有办法等待一个reducer处理完一个分区，然后再处理另一个分区，这样无论reducer的实际数量是否小于分区数量，都可以处理所有分区？最佳答案 (a)不可以

reducer hadoop section 的 hadoop-streaming hadoop-partitioning

java - Hadoop Map/Reduce WARN mapred.LocalJobRunner : job_local_0001 java. io.EOFException？

在Eclipse6.91中运行Hadoop0.20.2M/R应用。我在执行后收到这些错误和警告:13/07/2416:52:52INFOjvm.JvmMetrics:InitializingJVMMetricswithprocessName=JobTracker,sessionId=13/07/2416:52:52WARNmapred.JobClient:UseGenericOptionsParserforparsingthearguments.ApplicationsshouldimplementToolforthesame.13/07/2416:52:52WARNmapred.Jo

java LocalJobRunner mapred apache hadoop mapreduce

hadoop - Cassandra Hadoop map reduce with wide rows ignores slice predicate

我有一个宽行列族，我正在尝试对其运行map缩减作业。CF是按时间顺序排列的事件集合，其中列名本质上是时间戳。我需要针对CF中的特定日期范围运行MR作业。当我在widerow属性设置为false的情况下运行作业时，预期的列切片将传递到映射器类中。但是当我将widerow设置为true时，整个列族都会被处理，而忽略切片谓词。问题是我必须使用widerow支持，因为如果一次加载，切片中的列数会变得非常大并消耗所有内存。我找到了概述问题的这个JIRA任务，但由于“无法重现”而被关闭-https://issues.apache.org/jira/browse/CASSANDRA-4871?pag

Cassandra predicate section https hadoop mapreduce thrift

hadoop - 使用hadoop map reduce获取最高薪水员工姓名

我是M/R程序的新手..我在HDFS中有一个包含这种结构数据的文件EmpId,EmpName,Dept,Salary,1231,用户名1,部门1,50001232，用户名2，部门2，60001233，用户名3，部门3，7000.......................现在我想找到工资最高的员工的姓名我写了一个mapreduce来找到最高的薪水。在我的映射器类中，我发出了这样的输出output.collect("最大值",员工工资);在reducer中，我找到了键“maxvalue”的最大值。现在我想在映射器中使用这个值，并找到赚取最高薪水的员工的名字。我如何发送reducer输出映

hadoop 薪水 section 射器 mapreduce hadoop-partitioning

13 14 151617 18 19