reducing

Hadoop - map-reduce 任务如何知道要处理文件的哪一部分？

我已经开始学习hadoop，目前我正在尝试处理结构不太好的日志文件-因为我通常用于M/R键的值通常位于文件(一次)。所以基本上我的映射函数将该值作为键，然后扫描文件的其余部分以聚合需要减少的值。因此，[假]日志可能如下所示:##log.1SOME-KEY2012-01-0110:00:011002012-01-0208:48:562502012-01-0311:01:56212....manymorerows##log.2A-DIFFERENT-KEY2012-01-0110:05:011112012-01-0216:46:202412012-01-0311:01:56287....m

map-reduce Hadoop 射器 block 2012 mapreduce filesystems hdfs

Hadoop:如何将 Reduce 的输出收集到 Java HashMap 中

我正在使用Hadoop来计算单词之间的共现相似度。我有一个包含共现词对的文件，如下所示:abacbcbd我正在使用一种基于图的方法，该方法将单词视为节点，同时出现的单词在它们之间有一条边。我的算法需要计算所有节点的度数。我已经成功编写了一个Map-Reduce作业来计算输出以下内容的总度数:a2b3c2d1目前，输出被写回一个文件，但我想要的是将结果捕获到比方说java.util.HashMap中。然后，我想在另一个Reduce作业中使用这个HashMap来计算最终的相似度。这是我的问题:是否可以在内存中捕获reduce作业的结果(List、Map)。如果是，怎么办？这是最好的方法吗？

HashMap Hadoop code section strong mapreduce bigdata similarity cascading

hadoop - 为 Amazon EMR 应用程序设置 Reducer 的数量

我正在尝试在AmazonEMR下运行wordcount示例。-1-首先，我使用以下命令创建集群:./elastic-mapreduce--create--name"MyTest"--alive这将创建一个具有单个实例的集群并返回一个jobID，假设为j-12NWUOKABCDEF-2-其次，我使用以下命令启Action业:./elastic-mapreduce--jobflowj-12NWUOKABCDEF--jars3n://mybucket/jar-files/wordcount.jar--main-classabc.WordCount--args3n://mybucket/输入数

Reducer hadoop section mybucket elastic-mapreduce amazon-emr reducers mappers

java - hadoop 将 int 数组从 map 传递到 reducer 并作为输出

我正在学习如何使用hadoop并遇到了以下问题:我需要将一个int数组从map函数传递到reducer，然后作为输出。所以它看起来像这样:publicvoidmap(LongWritablekey,Textvalue,OutputCollectoroutput,Reporterreporter)throwsIOException{..snip..int[]output={0,0,1,1};//orsomethinglikeitoutput.collect(word,output);}andpublicstaticclassreduceextedsmapReduceBaseimpleme

并作传递 section code hadoop java arrays int cloudera

java - 在 Map Reduce 中计算数据集的线性回归

假设我有如下输入:60,3.161,3.662,3.863,465,4.1预期输出如下:预期输出:y=-8.098+0.19x。我知道如何在java中执行此操作。但不知道这如何与mapreduce模型一起工作。任何人都可以提供有关此问题的想法或示例MapReduce代码吗？我会很感激的。这个简单的数学例子:RegressionFormula:RegressionEquation(y)=a+bxSlope(b)=(NΣXY-(ΣX)(ΣY))/(NΣX2-(ΣX)2)Intercept(a)=(ΣY-b(ΣX))/Nwherexandyarethevariables.b=Theslope

中计 Reduce section X.t code java hadoop mapreduce

hadoop - 将大量 reducer 输出写入 HBase

我有一个HadoopMapReduce作业，其输出是一个row-id以及对该row-id的Put/Delete操作。由于问题的性质，输出量相当大。我们尝试了几种方法将这些数据取回HBase，但都失败了...表格reducer这是减慢速度的方式，因为它似乎必须对每一行进行一次完整的往返。由于我们的reducer步骤的键排序方式，row-id不太可能与reducer在同一节点上。完成批量加载这似乎需要很长时间(永远不会完成)并且没有真正说明原因。IO和CPU使用率都非常低。我是否漏掉了一些明显的东西？最佳答案我从你对自己的回答中看到

reducer hadoop section strong hbase

Hadoop:在hadoop 2.0.0中编写Map reduce程序的主要区别是什么

在Hadoop2.0.0中编写mapreduce程序与之前的版本相比有哪些主要变化。最佳答案 API现已更改。新包，新类。因此，如果您打算采用新的API，强烈建议为您的map和reduce方法使用@Override注释。否则，您将面临一些奇怪的行为。这是OldAPI的示例这是NewAPI的示例.请记住，这与新的YARN运行时无关。关于Hadoop:在hadoop2.0.0中编写Mapreduce程序的主要区别是什么，我们在StackOverflow上找到一个类似的问题：

别是编写 section strong noreferrer hadoop mapreduce

hadoop - MR reducer 中的输出 HBase 增量

我有一个写入HBase的mapreduce作业。我知道您可以使用TableMapReduceUtil从reducer输出Put和Delete。是否可以发出Increment来增加HBase表中的值，而不是发出Puts和Gets？如果是，怎么做，如果不是，那为什么？我正在使用CDH3publicstaticclassTheReducerextendsTableReducer{publicvoidreduce(Textkey,Iterablevalues,Contextcontext)throwsIOException,InterruptedException{///....DOSOMES

reducer hadoop code section 射器 mapreduce hbase counter increment

python-2.7 - java.io.IOException : Broken pipe on increasing number of mappers/reducers, 很多

我在6个节点的hadoop集群上运行MapReduce作业，配置了4个映射任务和10个缩减任务。Mapper/Reducer在增加map/reduce任务数量时失败很多，如下所示，我遇到以下错误:标准错误日志java.lang.RuntimeException:PipeMapRed.waitOutputThreads():subprocessfailedwithcode143atorg.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(PipeMapRed.java:362)atorg.apache.hadoop.streamin

IOException increasing hadoop java apache python-2.7 hadoop-streaming broken-pipe

sorting - Hadoop - 按键正确排序并按 reducer 分组

我有一些数据来自reducer，它们是这样的:9,235,722,301,536,304,227,11我想根据第二列的数字对它们进行排序。像这样:2,306,307,115,724,221,539,23当我在本地运行我的程序时，我使用:sort-k2,2n但我不知道如何在Hadoop上做同样的事情。我尝试了几个不起作用的选项，例如:-Dmapreduce.partition.keycomparator.options=-k2,2n而且，我希望所有具有相同key的数据都可以在同一个reducer上运行。所以在这种情况下:2,30和6,30应该由同一个reducer处理。关于我应该放在ha

按键 sorting code section reducer hadoop mapreduce mapper

111 112 113114115 116 117