GetScheduled-Job

hadoop - Apache Hadoop 中的 job.submit 和 job.waitForComplete 有什么区别？

我已经阅读了文档，所以我知道其中的区别。但我的问题是，如果我想在集群上并行运行多个Hadoop作业，使用.submit而不是.waitForComplete是否有任何风险？我主要使用ElasticMapReduce。当我尝试这样做时，我注意到只有第一个作业被执行。最佳答案如果您的目标是并行运行作业，那么使用job.submit()肯定没有风险。job.waitForCompletion存在的主要原因是它的方法调用仅在作业完成时返回，并且返回成功或失败状态，可用于确定要运行的进一步步骤或不是。现在，回过头来看，您只看到第一个作业正

java - 在 Mapreduce 中设置 job.setInputFormatClass 时出错

我正在运行一个MapReduce程序。我需要以KEYVALUE对的格式提供输入文本文件。这样如果我写job.setInputFormatClass(KeyValueTextInputFormat.class);eclipse编译器显示错误，我无法使用InputFormat。无论如何我需要将输入的格式设置为KeyValueTextInputFormat我该怎么做呢？？有什么想法吗？？？？？我的代码是`packagecom.iot.dictionary;importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;

java - 第一次使用Hadoop，MapReduce Job没有运行Reduce Phase

我编写了一个简单的mapreduce作业，它会从DFS中读取数据并在其上运行一个简单的算法。在尝试调试它时，我决定简单地让映射器输出一组键和值，而缩减器输出一组完全不同的键和值。我在单节点Hadoop20.2集群上运行这个作业。作业完成后，输出仅包含映射器输出的值，让我相信reducer没有运行。如果有人对我的代码产生这种输出的原因提供任何见解，我将不胜感激。我已经尝试将outputKeyClass和outputValueClass设置为不同的东西，以及将setMapOutputKeyClass和setMapOutputValueClass设置为不同的东西。目前注释我们的代码部分是我正

java - 如何优雅地终止 hadoop 作业/拦截 `hadoop job -kill`

我的Java应用程序在映射器上运行，并使用QuboleAPI创建子进程。应用程序存储子qubolequeryID。我需要在退出前拦截终止信号并关闭子进程。hadoopjob-killjobId和yarnapplication-killapplicationId命令正在以SIGKILL方式杀死作业，我不知道如何拦截关机。是否有可能以某种方式拦截作业终止或配置hadoop以使应用程序有机会正常关闭？应用程序在本地运行时使用ShutdownHook成功拦截关闭，而不是在映射器容器中，并且能够杀死它的子进程。请建议在映射器中运行时如何拦截关机，或者我做错了什么？最

Hadoop MapReduce log4j - 将消息记录到 userlogs/job_ 目录中的自定义文件？

我不清楚应该如何在作业级别配置HadoopMapReducelog4j。谁能帮我回答这些问题。1)如何从客户端计算机添加对log4j日志记录的支持。即我想在客户端机器上使用log4j属性文件，因此不想干扰集群中的Hadooplog4j设置。我认为在项目/jar中拥有属性文件就足够了，hadoop的分布式缓存应该完成其余的传输map-reducejar。2)如何将消息记录到$HADOOP_HOME/logs/userlogs/job_/目录中的自定义文件中。3)mapreduce任务会同时使用log4j属性文件吗？一个由客户端作业提供，一个存在于hadoop集群中？如果是，那么log4j

java - Hadoop mapreduce : Driver for chaining mappers within a MapReduce job

我有mapreduce工作:我的代码map类:publicstaticclassMapClassextendsMapper{@Overridepublicvoidmap(Textkey,Textvalue,Contextcontext)throwsIOException,InterruptedException{}}我想使用ChainMapper:1.Jobjob=newJob(conf,"Jobwithchainedtasks");2.job.setJarByClass(MapReduce.class);3.job.setInputFormatClass(TextInputForma

Hadoop MapReduce : Possible to define two mappers and reducers in one hadoop job class?

我有两个单独的java类来执行两个不同的mapreduce作业。我可以独立运行它们。对于这两个作业，它们所操作的输入文件是相同的。所以我的问题是是否可以在一个java类中定义两个映射器和两个缩减器，例如mapper1.classmapper2.classreducer1.classreducer2.class然后点赞job.setMapperClass(mapper1.class);job.setmapperClass(mapper2.class);job.setCombinerClass(reducer1);job.setCombinerClass(reducer2);job.set

hadoop - 启动 hadoop Job Tracker 时出错

我尝试使用Windows-Cygwin在hadoop中运行一个简单的程序。我可以启动名称节点了。然而，jobtracker启动失败并出现异常:FATALmapred.JobTracker:java.lang.IllegalArgumentException:Doesnotcontainavalidhost:portauthority:localatorg.apache.hadoop.net.NetUtils.createSocketAddr(NetUtils.java:162)atorg.apache.hadoop.net.NetUtils.createSocketAddr(NetUt

hadoop - 无法初始化集群。请检查你配置的mapreduce.framework.name和对应的服务器地址-提交job2remoteClustr

我最近将我的集群从ApacheHadoop1.0升级到CDH4.4.0。我在另一台机器上有一个weblogic服务器，我从那里通过mapreduce客户端将作业提交到这个远程集群。我仍然想使用MR1而不是Yarn。我已经针对CDH安装中的客户端jar编译了我的客户端代码(/usr/lib/hadoop/client/*)创建JobClient实例时出现以下错误。有很多帖子与同一问题相关，但所有解决方案都涉及将作业提交到本地集群而不是远程的场景，特别是在我的情况下是从wls容器提交。JobClientjc=newJobClient(conf);无法初始化集群。请检查您的配置中的mapre

Hadoop Datanode、namenode、secondary-namenode、job-tracker 和 task-tracker

我是hadoop的新手，所以我有一些疑问。如果主节点发生故障，hadoop集群会发生什么？我们能否在没有任何损失的情况下恢复该节点？是否可以保留一个辅助主节点在当前主节点发生故障时自动切换为主节点？我们有namenode(Secondarynamenode)的备份，所以我们可以在Secondarynamenode发生故障时从中恢复namenode。这样，当datanode发生故障时，我们如何恢复datanode中的数据呢？Secondarynamenode只是namenode的备份而不是datenode，对吧？如果一个节点在作业完成之前发生故障，那么作业跟踪器中有待处理的作业，该作业是