作业队

hadoop - 为 map-only 作业运行 Hadoop Map Reduce 时出错

我想在HadoopMapReduce中运行一个仅限map的作业，这是我的代码:Configurationconf=newConfiguration();Jobjob=newJob(conf);job.setJobName("import");job.setMapperClass(Map.class);//CustomMapperjob.setInputFormatClass(TextInputFormat.class);job.setNumReduceTasks(0);TextInputFormat.setInputPaths(job,newPath("/home/jonathan/i

时出 map-only hadoop code apache mapreduce

hadoop - 使用 MR1 CDH4 运行简单的 MapReduce Streaming 作业失败

我有一个最近从CDH3升级到CDH4的集群。Hive目前运行良好。然而，我似乎无法让它运行简单的MRStreaming作业(版本1)。Yarn已安装但未使用。下面是命令行输入输出$/usr/lib/hadoop/bin/hadoopjar/usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.0.0-mr1-cdh4.0.0.jargrep-input/input-output/output/'dfs[a-z.]+'检查日志显示:packageJobJar:[/tmp/hadoop-hdfs/hadoop-

MapReduce Streaming hadoop StreamJob hadoop-streaming

hadoop - 使用 jar 选项将作业提交到不同的公平调度程序池

我是Hadoop的新手，尝试在运行时使用hadoopjar选项将同一用户的不同作业提交到公平调度程序的不同池。基于http://osdir.com/ml/hive-user-hadoop-apache/2009-03/msg00162.html中的解决方案，我在运行作业时使用了-D选项。具体来说，我运行了命令:bin/hadoopjarhadoop-examples-1.0.4.jargrepinputoutput'dfs[a-z.]+'-Dpool.name=sample_pool我可以在作业跟踪器调度程序页面中看到池，但作业仍提交给用户池。我发现jar选项不支持-D选项:http:

交到 hadoop code 跟踪器 mapreduce

hadoop - 关于 Pig 作业 Jar 文件

我正在使用嵌入式Pig来实现图形算法。它在本地模式下工作正常。但是在一个完全分布式的Hadoop集群中，总是有如下错误信息:(请看最后几行)2012-11-2322:00:00,651[main]INFOorg.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler-creatingjarfileJob4116346741117365374.jar2012-11-2322:00:09,418[main]INFOorg.apache.pig.backend.hadoop.executionen

hadoop Pig apache executionengine apache-pig

http - hadoop 映射作业中的 HTTP 请求问题

我有一个过程，我在其中聚合数据并通过map作业中的httpPOST发送请求。我必须等待结果。不幸的是，我在使用这种方法时遇到了问题。这样做时，发送过程中会丢失数据。我们设法调查了这个问题，以至于我们知道通信“破坏”了套接字，因此数据丢失了。有没有人有通过映射器执行httpPOST请求的经验以及需要注意什么？一些示例代码；映射器:publicvoidmap(finalLongWritablekey,finalTextvalue,Contextcontext)throwsIOException{StringsomeData=value.toString();buffer.add(someD

hadoop http urlConn section 射器 sockets

hadoop如何从 map 作业生成输入

我需要Map作业生成一组输入记录，这些记录应该被馈送到Map作业(通过JobTracker？)。我想不出解决办法，需要你的帮助。更多详情:我打算写网络爬虫。初始根级网页将输入到mapreduce作业。Mapper/reducer将获取网页并从该页面收集链接。这些链接应被视为mapreduce作业的输入。所以我想将这些链接推送到jobtracker，以便可以像对第一个根节点所做的那样处理它们。我们可以添加一些终止条件(例如链接正则表达式匹配)。如果正则表达式匹配，则它不会通过map(或reduce)任务返回到jobtracker。最佳答案

hadoop map 射器 section 爬虫

java - 使用 Hadoop，如何更改给定作业的映射器数量？

因此，我有两个作业，作业A和作业B。对于作业A，我希望每个节点最多有6个映射器。但是，工作B有点不同。对于作业B，我只能在每个节点上运行一个映射器。这样做的原因并不重要——我们只是说这个要求是没有商量余地的。我想告诉Hadoop，“对于作业A，每个节点最多安排6个映射器。但是对于作业B，每个节点最多安排1个映射器。”这可能吗？我能想到的唯一解决办法是:1)在hadoop主文件夹之外有两个文件夹，conf.JobA和conf.JobB。每个文件夹都有自己的mapred-site.xml副本。conf.JobA/mapred-site.xml的mapred.tasktracker.map.

射器给定 mapred section java hadoop mapreduce hdfs mappers

hadoop - 减少 HFileOutputFormat 中挂起的作业

我正在使用Hbase:0.92.1-cdh4.1.2,和Hadoop:2.0.0-cdh4.1.2我有一个mapreduce程序，它将在集群模式下使用HFileOutputFormat将数据从HDFS加载到HBase。在那个mapreduce程序中，我使用HFileOutputFormat.configureIncrementalLoad()批量加载800000条记录7.3GB大小的数据集运行良好，但900000条记录的8.3GB数据集无法运行。在8.3GB数据的情况下，我的mapreduce程序有133个maps和一个reducer，所有maps都成功完成。我的reducer状态一直

HFileOutputFormat hadoop code section hbase hfile

hadoop - 如何从 Java 代码在 hadoop yarn 上运行字数统计作业？

我有如下要求:有一个30节点的hadoopYARN集群和一个用于提交作业的客户端机器。让我们使用wordcountMR示例，因为它是世界著名的。我想从java方法提交并运行wordcountMR作业。那么提交作业所需的代码是什么？有什么特定于客户端机器上的配置吗？最佳答案 Hadoop应该存在于您的客户端机器上，其配置与您的hadoop集群中的其他机器相同。要从java方法提交MR作业，请引用javaProcessBuilder并传递hadoop命令以启动您的wordcount示例。可以找到wordcount的命令和必要的应用程序

hadoop Java section wordcount hadoop-yarn

hadoop - 在 Oozie 工作流中的 MapReduce 作业中设置 Reducer 的数量

我有一个五节点集群，其中三个节点包含DataNodes和TaskTrackers。我已经通过Sqoop从Oracle导入了大约1000万行，并在Oozie工作流中通过MapReduce对其进行了处理。MapReduce作业大约需要30分钟，并且只使用了一个reducer。编辑-如果我单独运行MapReduce代码，与Oozie分开，job.setNumReduceTasks(4)正确地建立了4个reducer。我尝试了以下方法手动将reducer的数量设置为四个，但没有成功:在Oozie中，在mapreduce节点的tag中设置如下属性:mapred.reduce.tasks4在Map

中设 MapReduce code Number bytes hadoop reducers

179 180 181182183 184 185