作业组

java - Hadoop 上次 map 作业卡住 - 需要帮助

我正在使用hadoopmap-reduce作业进行一些文本处理。我的工作已完成99.2%，并停留在上一个map工作上。map输出的最后几行如下所示。上次发生此问题时，我尝试打印出从map发出的键值，并注意到其中一个键具有大量与之关联的值，我认为它在对这些值进行排序时似乎卡住了。然后，我停止从map作业中发出该键，它工作正常。我想，同样的问题又发生了，打印出键值对是一项乏味的工作，因为这项工作很费时间。有更好的选择吗？如果他们在排序上花费太多时间，就像配置hadoop忘记几个键一样。有没有这样的。2010-10-2014:43:32,274INFOorg.apache.hadoop.ma

卡住 Hadoop MapTask apache java algorithm distributed mapreduce

java - Mapreduce作业运行，出现异常

这是我的代码:importjava.io.DataInput;importjava.io.DataOutput;importjava.io.IOException;importjava.util.Iterator;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.conf.Configured;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.DoubleWritable;importorg.apache.hadoop.io.LongW

Mapreduce java apache hadoop code

hadoop - 如何在成功时保留 PIG 作业日志文件。

我注意到当运行PIG脚本时出现错误时，会生成并保存日志。但是当没有错误时，日志文件被删除。有没有办法在作业成功时保留日志文件？最佳答案默认情况下，错误(例如:脚本解析错误)记录到pig.logfile中，可以在$PIG_HOME/conf/pig.properties中设置。如果您还想记录状态消息，请准备一个有效的log4j.properties文件并将其设置在log4jconf属性中。例如:将$PIG_HOME/conf中的log4j.properties.template重命名为log4j.properties并设置以下内容

何在 hadoop log4j log4 log apache-pig

r - 运行简单的 rhadoop 作业时出现问题 - 管道损坏错误

我有一个安装了rmr2和rhdfs包的hadoop集群设置。我已经能够通过CLI和rscripts运行一些示例MR作业。例如，这有效:#!/usr/bin/envRscriptrequire('rmr2')small.ints=to.dfs(1:1000)out=mapreduce(input=small.ints,map=function(k,v)keyval(v,v^2))df=as.data.frame(from.dfs(out))colnames(df)=c('n','n2')str(df)最终输出:DEPRECATED:Useofthisscripttoexecutehdfs

时出 rhadoop hadoop streaming StreamJob r

java - 从另一个 Java 程序运行 Hadoop 作业

我正在编写一个程序来接收映射器/缩减器的源代码，动态编译映射器/缩减器并从中生成一个JAR文件。然后它必须在hadoop集群上运行这个JAR文件。对于最后一部分，我通过我的代码动态设置了所有必需的参数。但是，我现在面临的问题是代码在编译时需要编译的mapper和reducer类。但是在编译时，我没有这些类，它们稍后会在运行时接收(例如，通过从远程节点接收到的消息)。如果有任何关于如何解决此问题的想法/建议，我将不胜感激？在下面，您可以找到我最后一部分的代码，问题在于job.setMapperClass(Mapper_Class.class)和job.setReducerClass(Re

Hadoop java class 34 job mapreduce

hadoop - 启动 hadoop 流作业的替代方法

我可以从终端成功启动hadoop流作业，但我正在寻找通过api、eclipse或其他方式启动流作业的方法。我找到的最接近的是这篇文章https://stackoverflow.com/questions/11564463/remotely-execute-hadoop-streaming-job但它没有答案!欢迎提出任何想法或建议。最佳答案有趣的问题，我找到了一种方法，希望这对你也有帮助。第一种方法应该适用于Hadoop0.22:Configurationconf=newConfiguration();conf.set("fs.

hadoop 启动 34 section hadoop-streaming

java - MapReduce 作业的 Reducer 中的奇怪行为

以下是我在MapReduce作业中使用的Reducer函数的代码。它应该返回附加到每个值的迭代器+自定义字符串("*---")的值。但它会两次附加自定义字符串。例如如果值为abc那么而不是打印abc***---正在打印abc***---***---为什么会这样？代码:publicstaticclassReduceextendsMapReduceBaseimplementsReducer{publicvoidreduce(Textkey,Iteratorvalues,OutputCollectoroutput,Reporterreporter)throwsIOException{whil

MapReduce Reducer section Text code java hadoop

hadoop - Mapreduce 作业 : combiner without reducer

我注意到如果我将reducer的数量设置为0，组合器将无法工作。是否可以在没有reducer的情况下使用组合器？谢谢。最佳答案不，不是。即使使用指定的Reducer，也不能保证使用组合器。因此组合器是严格的优化，可以但不一定在Reducers之前调用。如果没有reducer，这些将永远不会被调用。关于hadoop-Mapreduce作业:combinerwithoutreducer，我们在StackOverflow上找到一个类似的问题： https://

Mapreduce combiner section reducer stackoverflow hadoop reducers combiners

sql-server - Oozie Sqoop 作业

我正在尝试将sqoop作业作为oozie操作运行。我将MySQL作为jobtracker节点上的元存储。我在某处读到ooziesqoop无法通过导入创建配置单元表。所以我试图将数据转储到hdfs中。现在还是这样吗？我检查了共享库。我正在尝试从MSSQL数据库中获取Sqoop。当我运行不需要来自shell的元存储的sqoop命令时，它可以工作。sqoopimport--connect'jdbc:sqlserver://host;username=sqoopimport;password=password;database=db1'--tablet1--target-dir/user/ro

sql-server server sqoop apache java hadoop oozie

java - Mapreduce Hadoop作业异常输出目录已存在

我正在使用以下运行代码运行mapreduce作业，它一直给我以下异常。我确保在开始工作之前删除了该文件夹，但它不起作用。代码:JobConfjobConf=newJobConf(getConf(),MPTU.class);jobConf.setJobName("MPTU");AvroJob.setMapperClass(jobConf,MPTUMapper.class);AvroJob.setReducerClass(jobConf,MPTUReducer.class);longmilliSeconds=1000*60*60;jobConf.setLong("mapred.task.t

Mapreduce Hadoop JobClient jobConf java output avro

53 54 555657 58 59