reducing

eclipse - 使用运行对话框 (F11) 在 Eclipse 中的远程集群上启动 Hadoop Map Reduce 作业

是否可以使用EclipseRunDialog(F11)在远程集群上启动MapReduce作业？目前我必须使用外部工具链对话框和Maven来运行它。注意:要在本地集群上执行它与RunDialog没什么大不了的。但是对于远程连接，必须有一个已编译的JAR。否则你会得到一个ClassNotFoundException(如果设置了Jar-By-Class)我们当前的设置是:Spring-Data-Hadoop1.0.0STS-Springsource工具套件专家CDH4这是我们在applicationContext.xml上设置的(这是您在vanillahadoop上的*-site.xml中指

使用 Java Mapper/Reducer 的 Hadoop Streaming

我正在尝试使用javaMapper/Reducer在一些维基百科转储(压缩的bz2形式)上运行hadoop流作业。我正在尝试使用WikiHadoop，这是维基媒体最近发布的一个界面。WikiReader_Mapper.javapackagecourseproj.example;//Mapper:emits(token,1)foreveryarticleoccurrence.publicclassWikiReader_MapperextendsMapReduceBaseimplementsMapper{//Reuseobjectstosaveoverheadofobjectcreatio

Streaming Reducer hadoop java IntWritable jar hadoop-streaming wikimedia

java - 同一文件中两个不同键的 Reducer 输出值

您好，我写了一个一般解析XML文件的mapreduce作业。我能够解析XML文件并正确生成所有键值对。我有6个不同的键和相应的值。所以我并行运行了6个不同的reducer。现在我面临的问题是reducer将两个不同的键值对放在同一个文件中，并将剩余的4个键值对放在单独的文件中。所以简而言之，在reducer输出的6个文件中，我得到4个具有单键值对的文件和1个具有两个键值对的文件和1个什么都没有的文件。我尝试在Google和各种论坛上进行研究，唯一得出的结论是我需要一个分区程序来解决这个问题。我是hadoop新手，所以有人可以阐明这个问题并帮助我解决这个问题。我正在研究一个伪节点集群并使

Reducer java section hadoop mapreduce hadoop-partitioning

java - Hadoop 只从 reducer 产生一个输出

虽然我知道Hadoop通常不用于图像处理，但作为概念证明，我一直在尝试使用Hadoop实现图像处理。在这样做的过程中，我成功地实现了Sobel边缘检测算法，以使用MapReduce模型并在Hadoop下运行。我的程序应该从HDFS获取一个文件夹作为输入并处理文件夹中的文件并将输出写入HDFS。但是，它正在考虑输入文件夹中的单个文件并将单个文件写入输出。这里是文件的源代码https://gist.github.com/ardahal/f0046e50e04fadc28a96 最佳答案这将是半自动的，但聊胜于无。比方说，您的输入目录是

reducer Hadoop section java image-processing mapreduce hdfs

hadoop - 如何在 mapper 或 reducer 中运行外部程序，将 HDFS 文件作为输入并将输出文件存储在 HDFS 中？

我有一个将文件作为输入并给出输出文件的外部程序//forexampleinputfile:IN_FILEoutputfile:OUT_FILE//RunExternalprogram./vx${OUT_FILE}我想要HDFS中的输入和输出文件我有8个节点的集群。我有8个输入文件，每个文件有1行//1inputfile:1.txt1:0,0,0//2inputfile:2.txt2:0,0,128//3inputfile:3.txt3:0,128,0//5inputfile:4.txt4:0,128,128//5inputfile:5.txt5:128,0,0//6inputfile:

中运并将 34 code pre hadoop mapreduce

Hadoop - map task 在 reduce task 完成后继续

我在大约500个节点的集群上运行Hadoop版本1.0.0。我的工作有大约3000个map任务和10个reduce任务。maptask在大约4小时后完成(如预期)。每个reduce任务都很快完成，结果都在我的输出目录中。然而，jobtracker然后认为某些map任务失败并开始重新执行它们。正在执行和挂起的reduce任务的数量保持为零。最终大约8小时后，这些maptask中的最后一个终于成功完成，作业被标记为成功完成。有什么想法吗？？？以下是部分jobtracker日志文件的摘录://maptasksallcomplete,eg:2013-05-2010:50:59,742INFOo

task Hadoop 201305131710 attempt apache

hadoop - Hive 作业在 cassandra 集群上无法正常运行，reducer 卡住

我有6个节点的datastaxcassandra集群(3个cassandra-3个分析)。我正在使用配置单元生成报告。问题是当我使用count(*)或按查询分组运行配置单元作业时，映射器完成但缩减器卡在特定百分比。而且它们永远不会改变。(所有节点都有60GB的数据。我运行hive的列族在每个节点上有大约40GB并且有15列，每列的数据大小为50,60个字符。我使用的是默认的hive设置。)还有他们的信息可用时间与配置单元作业(正常查询)的数据大小。我可以在网上找到。是这样的查询非常简单——selectcount(*)fromtable;它有30万行。StartingJob=job_20

卡住 cassandra 34 Cumulative Stage hadoop hive datastax-enterprise

hadoop - 获取当前运行的reduce任务数

我正在使用AmazonAWS、DynamoDB和EMR集群进行hadoop流式传输。我的reduce任务写入Dynamo表。我需要建立并遵守写入表的上限，比如写入吞吐量的50%。我可以查询表的写入吞吐量设置，除以mapred.reduce.tasks，然后乘以50%以获得每个任务的表写入吞吐量的下限。更好的是，我想查询此刻正在处理的reduce任务的数量，以获得每个reduce任务的准确写入吞吐量上限，但我不知道如何获得该数字。我在jobtracker中看到它显示了任务总数、待处理任务和正在处理的任务。一种不太灵活的替代方法是使用hadoop流参数“-numReduceTasks”设置

hadoop reduce section code amazon-web-services mapreduce amazon-dynamodb hadoop-streaming

java - Hadoop Map/Reducer 类无法显示任何内容

我真的卡住了。为什么我的Map/Reducer类无法显示任何内容？我将以下代码放入我的Reducer类中:@Overridepublicvoidreduce(Textkey,Iterablevalues,Contextcontext){//Standardalgorithmforfindingthemaxvaluelongsum=0;for(LongWritablevalue:values){sum++;}try{context.write(key,newLongWritable(sum));System.out.println("Reducerexits...");}catch(Ex

Reducer Hadoop section LongWritable java hdfs

Hadoop cdh4 : reducers finish before mappers are complete

我发现hadoopcdh4有一个奇怪的行为。在所有映射器完成之前，一些reducer已经完成。我认为所有的reducer(调用reduce())都必须等到映射器完成。这是一个hadoop错误吗？在他们的某些情况下，工作可能会以这种状态结束吗？我在这里缺少什么？最佳答案有时，当作业趋于失败时，您会看到HadoopUI出现奇怪的行为。我认为你看到这个是因为你有一个任务失败或者可能更多，这是一些未能在UI中反射(reflect)出来。可能是由于tasktracker和jobtacker或内部计算之间的网络通信有些延迟(我不是很确定)。

reducers complete section 射器 Hadoop cloudera

77 78 798081 82 83