mapreduce_shuffle

java - 在另一个 Java 程序中运行 mapreduce 类

我编写了一个mapreduce类并从该类创建了一个jar文件。现在我想在另一个java程序中使用这个jar。谁能帮我，我怎么能这样做？谢谢这是我的MapReduce程序:packageorg.apache.cassandra.com;importjava.io.IOException;importjava.nio.ByteBuffer;importjava.util.Map;importjava.util.Map.Entry;importorg.apache.cassandra.hadoop.ConfigHelper;importorg.apache.cassandra.hadoop.

中运 mapreduce import apache hadoop java

hadoop - 有没有开源的内存MapReduce技术

我正在尝试寻找使hadoop更快的技术。是否有像gridgain这样的“开源”中的任何“inmemoryhadoopmapreduce”技术？对于gridgain，我只能下载评估版。最佳答案您可能正在寻找ApacheSpark.Torunprogramsfaster,Sparkoffersageneralexecutionmodelthatcanoptimizearbitraryoperatorgraphs,andsupportsin-memorycomputing,whichletsitquerydatafasterthand

MapReduce hadoop code Integer section

hadoop - Mapreduce 为大输入文件抛出 OutOfMemoryError

您好，我有一个mapreducejar，它可以很好地处理小输入文件。当我说小的时候，我指的是我用少于10行输入创建的示例输入文件。但是，当我尝试对大小为1.8GB的输入文件运行mapreduce时，我得到了OutOfMemoryError。我不确定我应该做什么。无论如何，我可以限制生成的任务数量吗？很少有任务运行时间更长吗？在我收到此错误之前，在大型输入文件上生成了大约20个任务。这是为前两个任务生成的日志的一部分。13/12/1312:00:22INFOmapreduce.Job:Theurltotrackthejob:http://localhost:8080/13/12/13

OutOfMemoryError Mapreduce mapred 13 12 hadoop

python - 合并 MapReduce 作业的输出文件

我用Python编写了Mapper和Reducer，并使用HadoopStreaming在Amazon的ElasticMapReduce(EMR)上成功执行了它。最终结果文件夹包含三个不同文件part-00000、part-00001和part-00002中的输出。但我需要将输出作为一个文件。有什么办法可以做到吗？这是我的映射器代码:#!/usr/bin/envpythonimportsysforlineinsys.stdin:line=line.strip()words=line.split()forwordinwords:print'%s\t%s'%(word,1)这是我的Redu

MapReduce python current count word hadoop hadoop-streaming elastic-map-reduce

java - 使用 hadoop mapreduce 进行矩阵计算

我有一个大约有10000行的矩阵。我写了一个代码，它应该在每次迭代中取一行，做一些长矩阵计算，并为矩阵的每一行返回一个double。由于每一行的操作数太多，运行代码需要很长时间。我正在考虑使用MapReduce来实现它，但我不确定它是否可能。主要思想是将矩阵行拆分为不同的节点，独立运行作业并将输出组合在一起并返回一个数字列表。根据我的理解，只有映射器才能完成这项工作。我对吗？可能吗？或者有更好的主意吗？提前致谢。顺便说一句，代码是用Java编写的。最佳答案这似乎是可能的-需要考虑的几点:您可能想要运行一个身份映射器(将每个输入记

mapreduce hadoop 射器 section 缩减 java

java - 运行 Hipi mapreduce 程序

我正在尝试运行HIPImapreduce示例(下载程序)。我已将hipijar添加到构建路径，但在执行时出现以下错误。我的命令看起来像，hadoopjarDownloader.jarDownloader./hipi/hipi.txt./hipi/output.hib1我的输入文件hipi.txt包含三个URL错误日志:>OutputHIB:./hipi/14/01/1202:39:08WARNmapred.JobClient:Use>GenericOptionsParserforparsingthearguments.Applicationsshould>implementToolfo

mapreduce java hadoop gt apache

hadoop - 为什么 MapReduce 进度报告不是单调递增的？

我向Hadoop提交了一个MapReduce作业并在屏幕上观看进度报告。map任务和reduce任务的进度报告应该单调递增(例如0%、10%、25%、60%、78%、95%和100%)。但事实上，报告的进展并不是单调递增的:14/01/2111:05:37INFOmapred.JobClient:Runningjob:job_201401201555_003614/01/2111:05:38INFOmapred.JobClient:map0%reduce0%14/01/2111:06:07INFOmapred.JobClient:map11%reduce0%14/01/2111:06:

单调 MapReduce JobClient mapred reduce hadoop report task

hadoop - 使用自定义输入格式时 MapReduce 性能降低

我在使用MapReduce时遇到问题。我不得不阅读多个CSV文件。1个CSV文件输出1行。我无法以自定义输入格式拆分CSV文件，因为CSV文件中的行格式不同。例如:第1行包含A、B、C第2行包含D、E、F我的输出值应该是A,B,D,F我有1100个CSV文件，因此创建了1100个拆分，因此创建了1100个映射器。映射器非常简单，处理起来不会花费太多时间。但是1100个输入文件需要大量时间来处理。任何人都可以指导我看什么，或者如果我在这种方法中做错了什么？最佳答案与处理大量小文件相比，Hadoop在处理少量大文件时表现更好。(这里

自定 MapReduce section 射器 hadoop

java - hadoop - 我们可以在完成 mapreduce 作业后检查状态多长时间？

我有3个mapreduce作业要并行执行，因此，我做了这样的事情Job[]job=newJob[3];...job[0].submit();job[1].submit();job[2].submit();因此，为了检查所有作业是否成功，我对这3个作业进行了一些轮询。booleanisAllFinished=false;while(!isAllFinished){for(inti=0;i>"+job[i].isComplete());isAllFinished=isAllFinished&job[i].isComplete();}Thread.sleep(1000);}虽然，这产生了积极

多长 mapreduce code job section java hadoop

java - Hadoop/Mapreduce Reducer 不工作

我从GitHub下载了有关K-MEANS算法(在hadoop中)的信息。但是，这仅适用于映射器。(因为输出文件名为“part-m-00000”)我希望减少输出文件。我的HDFS命令:./bin/hadoopjarKmeans.jar主要输入输出plz..一些人帮助我!!!!这里是Main.classimportjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;importo

Mapreduce Reducer centroidInputJob class job java hadoop k-means

114 115 116117118 119 120