草庐IT

作业队

全部标签

python - 我们可以在 Hadoop Streaming 中级联多个 MapReduce 作业吗(lang : Python)

我正在使用Python,并且必须使用HadoopStreaming处理以下场景:a)Map1->Reduce1->Map2->Reduce2b)我不想存储中间文件c)我不想安装Cascading、Yelp、Oozie等软件包。我将它们保留为最后的选择。我已经在SO和其他地方进行过相同类型的讨论,但找不到关于Python的答案。能否请您提出建议。 最佳答案 b)Idontwanttostoreintermediatefilesc)IdontwanttoinstallpackageslikeCascading,Yelp,Oozie.有什

hadoop - 在特定队列上运行 sqoop 作业

我正在尝试创建一个在特定队列中运行的Sqoop作业,但它不起作用。我试过两件事:1st:在作业创建中声明队列sqoopjob\--createmyjob\--import\--connectjdbc:teradata://RCT/DATABASE=MYDB\-Dmapred.job.queue.name=shortduration\--drivercom.teradata.jdbc.TeraDriver\--usernameDBUSER-P\--query"$query"\--target-dir/data/source/dest/$i\--check-columnDAT_CRN_AG

hadoop - 如何在hadoop中安排作业

我是hadoop的新手,我写了一些作业并将它们导出为jar文件。我可以使用hadoopjar命令运行它们,我想每隔一小时运行一次这些作业。我该怎么做呢?提前致谢。 最佳答案 Hadoop本身没有像您建议的那样安排作业的方法。所以你有两个主要选择,Java的时间和调度功能,或者从操作系统运行作业,我建议Cron.我个人会使用cron来执行此操作,它简单且非常灵活,并且默认安装在大多数服务器上。还有很多教程。在每小时的第一分钟运行的Cron示例。0****/bin/hadoopjarmyJar.jar如果您想将它保留在Java本身中,我

hadoop - 在 mapreduce 作业中恢复黑名单 tasktrackers

我有5个节点的hadoop集群。我为每个节点配置了10个映射器。当MR作业正在运行时,其中一个hdfs节点死亡。这最终导致该任务跟踪器被列入黑名单。在它被列入黑名单之后和MR作业完成之前,如果我修复受影响的hdfs节点,是否可以从黑名单中恢复任务跟踪器?我在ubuntu上使用clouderacdh4.2。 最佳答案 我正在阅读有关tasktracker失败的“Hadoop权威指南”。我找到了这个说法“列入黑名单的tasktracker没有分配任务,但它们会继续与jobtracker通信。故障会随着时间的推移而过期(以每天一个的速度)

带有 RHadoop 作业的 R + Hadoop 在单机集群上失败

作为新手,可能会问一些愚蠢的问题,在此先表示歉意。我已经在单机集群(Ubuntu14.04)上安装了Hadoop,并成功测试了Apache安装指南中指定的非常基本的程序。随后,我安装了R、RStudio以及软件包rhdfs、rmr2和所有依赖项。然后我尝试运行以下程序:Sys.setenv(HADOOP_CMD="/usr/local/hadoop/bin/hadoop")Sys.setenv(HADOOP_STREAMING="/usr/local/hadoop/contrib/streaming/hadoop-streaming-1.2.1.jar")library('rhdfs'

java - Hadoop 作业执行所花费的时间

是否有一个API可以计算出Hadoop作业执行的时间(完全正确->没有hack。)? 最佳答案 我认为最简单的方法是在您的驱动程序类中测量时间。你可以吗?我的意思是这样的:longstart=newDate().getTime();booleanstatus=job.waitForCompletion(true);longend=newDate().getTime();System.out.println("Jobtook"+(end-start)+"milliseconds"); 关于

java - 如何在触发时在java代码中为hadoop作业设置优先级?

这就是我的jobrunner的样子。如何在触发此作业时设置低优先级?publicintrun(String[]args)throwsException{this.initJob();PathoutputPath=newPath(args[2]);FileInputFormat.setInputPaths(job,args[0]);FileOutputFormat.setOutputPath(job,outputPath);job.getConfiguration().set("FREQUENCY",args[3]);job.getConfiguration().set("TIMEZON

java - 未设置作业 jar 文件。 Hadoop 中可能找不到用户类

我正在尝试运行MRwordcount作业。但我没有设置作业jar文件集。我正在发布堆栈跟踪,有人可以帮助我吗?14/01/2716:52:26WARNmapred.JobClient:UseGenericOptionsParserforparsingthearguments.ApplicationsshouldimplementToolforthesame.14/01/2716:52:26WARNmapred.JobClient:Nojobjarfileset.Userclassesmaynotbefound.SeeJobConf(Class)orJobConf#setJar(Stri

java - 配置 MapReduce 作业时使用多个 InputFormat 类

我想编写一个可以处理文本和zip文件的MapReduce应用程序。为此,我想使用不同的输入格式,一种用于文本,另一种用于zip。有可能吗? 最佳答案 从@ChrisWhite的回答中扩展一点,您需要使用自定义InputFormat和RecordReader来处理ZIP文件。你可以在这里找到asampleZipFileInputFormat在这里asampleZipFileRecordReader.鉴于此,Chris建议您应该使用MultipleInputs,如果您不需要为每种类型的文件自定义映射器,我会这样做:MultipleInp

hadoop - 如何从程序中获取 Spark 作业状态?

我知道hadoopRESTAPI通过程序提供对作业状态的访问。同样有什么方法可以获取程序中的spark作业状态吗? 最佳答案 它与RESTAPI不同,但您可以通过注册SparkListener从应用程序内部跟踪作业的状态。使用SparkContext.addSparkListener。它是这样的:sc.addSparkListener(newSparkListener{overridedefonStageCompleted(event:SparkListenerStageCompleted)={if(event.stageInfo.