草庐IT

作业队

全部标签

hadoop - 为 map-only 作业运行 Hadoop Map Reduce 时出错

我想在HadoopMapReduce中运行一个仅限map的作业,这是我的代码:Configurationconf=newConfiguration();Jobjob=newJob(conf);job.setJobName("import");job.setMapperClass(Map.class);//CustomMapperjob.setInputFormatClass(TextInputFormat.class);job.setNumReduceTasks(0);TextInputFormat.setInputPaths(job,newPath("/home/jonathan/i

hadoop - 使用 MR1 CDH4 运行简单的 MapReduce Streaming 作业失败

我有一个最近从CDH3升级到CDH4的集群。Hive目前运行良好。然而,我似乎无法让它运行简单的MRStreaming作业(版本1)。Yarn已安装但未使用。下面是命令行输入输出$/usr/lib/hadoop/bin/hadoopjar/usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.0.0-mr1-cdh4.0.0.jargrep-input/input-output/output/'dfs[a-z.]+'检查日志显示:packageJobJar:[/tmp/hadoop-hdfs/hadoop-

hadoop - 使用 jar 选项将作业提交到不同的公平调度程序池

我是Hadoop的新手,尝试在运行时使用hadoopjar选项将同一用户的不同作业提交到公平调度程序的不同池。基于http://osdir.com/ml/hive-user-hadoop-apache/2009-03/msg00162.html中的解决方案,我在运行作业时使用了-D选项。具体来说,我运行了命令:bin/hadoopjarhadoop-examples-1.0.4.jargrepinputoutput'dfs[a-z.]+'-Dpool.name=sample_pool我可以在作业跟踪器调度程序页面中看到池,但作业仍提交给用户池。我发现jar选项不支持-D选项:http:

hadoop - 关于 Pig 作业 Jar 文件

我正在使用嵌入式Pig来实现图形算法。它在本地模式下工作正常。但是在一个完全分布式的Hadoop集群中,总是有如下错误信息:(请看最后几行)2012-11-2322:00:00,651[main]INFOorg.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler-creatingjarfileJob4116346741117365374.jar2012-11-2322:00:09,418[main]INFOorg.apache.pig.backend.hadoop.executionen

http - hadoop 映射作业中的 HTTP 请求问题

我有一个过程,我在其中聚合数据并通过map作业中的httpPOST发送请求。我必须等待结果。不幸的是,我在使用这种方法时遇到了问题。这样做时,发送过程中会丢失数据。我们设法调查了这个问题,以至于我们知道通信“破坏”了套接字,因此数据丢失了。有没有人有通过映射器执行httpPOST请求的经验以及需要注意什么?一些示例代码;映射器:publicvoidmap(finalLongWritablekey,finalTextvalue,Contextcontext)throwsIOException{StringsomeData=value.toString();buffer.add(someD

hadoop如何从 map 作业生成输入

我需要Map作业生成一组输入记录,这些记录应该被馈送到Map作业(通过JobTracker?)。我想不出解决办法,需要你的帮助。更多详情:我打算写网络爬虫。初始根级网页将输入到mapreduce作业。Mapper/reducer将获取网页并从该页面收集链接。这些链接应被视为mapreduce作业的输入。所以我想将这些链接推送到jobtracker,以便可以像对第一个根节点所做的那样处理它们。我们可以添加一些终止条件(例如链接正则表达式匹配)。如果正则表达式匹配,则它不会通过map(或reduce)任务返回到jobtracker。 最佳答案

java - 使用 Hadoop,如何更改给定作业的映射器数量?

因此,我有两个作业,作业A和作业B。对于作业A,我希望每个节点最多有6个映射器。但是,工作B有点不同。对于作业B,我只能在每个节点上运行一个映射器。这样做的原因并不重要——我们只是说这个要求是没有商量余地的。我想告诉Hadoop,“对于作业A,每个节点最多安排6个映射器。但是对于作业B,每个节点最多安排1个映射器。”这可能吗?我能想到的唯一解决办法是:1)在hadoop主文件夹之外有两个文件夹,conf.JobA和conf.JobB。每个文件夹都有自己的mapred-site.xml副本。conf.JobA/mapred-site.xml的mapred.tasktracker.map.

hadoop - 减少 HFileOutputFormat 中挂起的作业

我正在使用Hbase:0.92.1-cdh4.1.2,和Hadoop:2.0.0-cdh4.1.2我有一个mapreduce程序,它将在集群模式下使用HFileOutputFormat将数据从HDFS加载到HBase。在那个mapreduce程序中,我使用HFileOutputFormat.configureIncrementalLoad()批量加载800000条记录7.3GB大小的数据集运行良好,但900000条记录的8.3GB数据集无法运行。在8.3GB数据的情况下,我的mapreduce程序有133个maps和一个reducer,所有maps都成功完成。我的reducer状态一直

hadoop - 如何从 Java 代码在 hadoop yarn 上运行字数统计作业?

我有如下要求:有一个30节点的hadoopYARN集群和一个用于提交作业的客户端机器。让我们使用wordcountMR示例,因为它是世界著名的。我想从java方法提交并运行wordcountMR作业。那么提交作业所需的代码是什么?有什么特定于客户端机器上的配置吗? 最佳答案 Hadoop应该存在于您的客户端机器上,其配置与您的hadoop集群中的其他机器相同。要从java方法提交MR作业,请引用javaProcessBuilder并传递hadoop命令以启动您的wordcount示例。可以找到wordcount的命令和必要的应用程序

hadoop - 在 Oozie 工作流中的 MapReduce 作业中设置 Reducer 的数量

我有一个五节点集群,其中三个节点包含DataNodes和TaskTrackers。我已经通过Sqoop从Oracle导入了大约1000万行,并在Oozie工作流中通过MapReduce对其进行了处理。MapReduce作业大约需要30分钟,并且只使用了一个reducer。编辑-如果我单独运行MapReduce代码,与Oozie分开,job.setNumReduceTasks(4)正确地建立了4个reducer。我尝试了以下方法手动将reducer的数量设置为四个,但没有成功:在Oozie中,在mapreduce节点的tag中设置如下属性:mapred.reduce.tasks4在Map