草庐IT

reducing

全部标签

eclipse - 使用运行对话框 (F11) 在 Eclipse 中的远程集群上启动 Hadoop Map Reduce 作业

是否可以使用EclipseRunDialog(F11)在远程集群上启动MapReduce作业?目前我必须使用外部工具链对话框和Maven来运行它。注意:要在本地集群上执行它与RunDialog没什么大不了的。但是对于远程连接,必须有一个已编译的JAR。否则你会得到一个ClassNotFoundException(如果设置了Jar-By-Class)我们当前的设置是:Spring-Data-Hadoop1.0.0STS-Springsource工具套件专家CDH4这是我们在applicationContext.xml上设置的(这是您在vanillahadoop上的*-site.xml中指

使用 Java Mapper/Reducer 的 Hadoop Streaming

我正在尝试使用javaMapper/Reducer在一些维基百科转储(压缩的bz2形式)上运行hadoop流作业。我正在尝试使用WikiHadoop,这是维基媒体最近发布的一个界面。WikiReader_Mapper.javapackagecourseproj.example;//Mapper:emits(token,1)foreveryarticleoccurrence.publicclassWikiReader_MapperextendsMapReduceBaseimplementsMapper{//Reuseobjectstosaveoverheadofobjectcreatio

java - 同一文件中两个不同键的 Reducer 输出值

您好,我写了一个一般解析XML文件的mapreduce作业。我能够解析XML文件并正确生成所有键值对。我有6个不同的键和相应的值。所以我并行运行了6个不同的reducer。现在我面临的问题是reducer将两个不同的键值对放在同一个文件中,并将剩余的4个键值对放在单独的文件中。所以简而言之,在reducer输出的6个文件中,我得到4个具有单键值对的文件和1个具有两个键值对的文件和1个什么都没有的文件。我尝试在Google和各种论坛上进行研究,唯一得出的结论是我需要一个分区程序来解决这个问题。我是hadoop新手,所以有人可以阐明这个问题并帮助我解决这个问题。我正在研究一个伪节点集群并使

java - Hadoop 只从 reducer 产生一个输出

虽然我知道Hadoop通常不用于图像处理,但作为概念证明,我一直在尝试使用Hadoop实现图像处理。在这样做的过程中,我成功地实现了Sobel边缘检测算法,以使用MapReduce模型并在Hadoop下运行。我的程序应该从HDFS获取一个文件夹作为输入并处理文件夹中的文件并将输出写入HDFS。但是,它正在考虑输入文件夹中的单个文件并将单个文件写入输出。这里是文件的源代码https://gist.github.com/ardahal/f0046e50e04fadc28a96 最佳答案 这将是半自动的,但聊胜于无。比方说,您的输入目录是

hadoop - 如何在 mapper 或 reducer 中运行外部程序,将 HDFS 文件作为输入并将输出文件存储在 HDFS 中?

我有一个将文件作为输入并给出输出文件的外部程序//forexampleinputfile:IN_FILEoutputfile:OUT_FILE//RunExternalprogram./vx${OUT_FILE}我想要HDFS中的输入和输出文件我有8个节点的集群。我有8个输入文件,每个文件有1行//1inputfile:1.txt1:0,0,0//2inputfile:2.txt2:0,0,128//3inputfile:3.txt3:0,128,0//5inputfile:4.txt4:0,128,128//5inputfile:5.txt5:128,0,0//6inputfile:

Hadoop - map task 在 reduce task 完成后继续

我在大约500个节点的集群上运行Hadoop版本1.0.0。我的工作有大约3000个map任务和10个reduce任务。maptask在大约4小时后完成(如预期)。每个reduce任务都很快完成,结果都在我的输出目录中。然而,jobtracker然后认为某些map任务失败并开始重新执行它们。正在执行和挂起的reduce任务的数量保持为零。最终大约8小时后,这些maptask中的最后一个终于成功完成,作业被标记为成功完成。有什么想法吗???以下是部分jobtracker日志文件的摘录://maptasksallcomplete,eg:2013-05-2010:50:59,742INFOo

hadoop - Hive 作业在 cassandra 集群上无法正常运行,reducer 卡住

我有6个节点的datastaxcassandra集群(3个cassandra-3个分析)。我正在使用配置单元生成报告。问题是当我使用count(*)或按查询分组运行配置单元作业时,映射器完成但缩减器卡在特定百分比。而且它们永远不会改变。(所有节点都有60GB的数据。我运行hive的列族在每个节点上有大约40GB并且有15列,每列的数据大小为50,60个字符。我使用的是默认的hive设置。)还有他们的信息可用时间与配置单元作业(正常查询)的数据大小。我可以在网上找到。是这样的查询非常简单——selectcount(*)fromtable;它有30万行。StartingJob=job_20

hadoop - 获取当前运行的reduce任务数

我正在使用AmazonAWS、DynamoDB和EMR集群进行hadoop流式传输。我的reduce任务写入Dynamo表。我需要建立并遵守写入表的上限,比如写入吞吐量的50%。我可以查询表的写入吞吐量设置,除以mapred.reduce.tasks,然后乘以50%以获得每个任务的表写入吞吐量的下限。更好的是,我想查询此刻正在处理的reduce任务的数量,以获得每个reduce任务的准确写入吞吐量上限,但我不知道如何获得该数字。我在jobtracker中看到它显示了任务总数、待处理任务和正在处理的任务。一种不太灵活的替代方法是使用hadoop流参数“-numReduceTasks”设置

java - Hadoop Map/Reducer 类无法显示任何内容

我真的卡住了。为什么我的Map/Reducer类无法显示任何内容?我将以下代码放入我的Reducer类中:@Overridepublicvoidreduce(Textkey,Iterablevalues,Contextcontext){//Standardalgorithmforfindingthemaxvaluelongsum=0;for(LongWritablevalue:values){sum++;}try{context.write(key,newLongWritable(sum));System.out.println("Reducerexits...");}catch(Ex

Hadoop cdh4 : reducers finish before mappers are complete

我发现hadoopcdh4有一个奇怪的行为。在所有映射器完成之前,一些reducer已经完成。我认为所有的reducer(调用reduce())都必须等到映射器完成。这是一个hadoop错误吗?在他们的某些情况下,工作可能会以这种状态结束吗?我在这里缺少什么? 最佳答案 有时,当作业趋于失败时,您会看到HadoopUI出现奇怪的行为。我认为你看到这个是因为你有一个任务失败或者可能更多,这是一些未能在UI中反射(reflect)出来。可能是由于tasktracker和jobtacker或内部计算之间的网络通信有些延迟(我不是很确定)。