草庐IT

Elastic-Job

全部标签

eclipse - 在Mapreduce中做job chaining时,如何解决chainmapper is not applicable for the arguments错误?

我正在使用Hadoop1.2.1,eclipsejuno。我正在尝试在单个Mapreduce作业中链接三个maptask。在Eclipse中编写Mapreduce代码时,出现错误,例如chainmapper不适用于参数,而且我无法设置输入路径。以下是我的mapreduce代码,packageorg.myorg;importjava.io.IOException;importjava.net.URI;importjava.nio.file.FileSystem;importjava.util.StringTokenizer;importjavax.security.auth.login.

java - map reduce 程序在线程 "main"java.io.IOException : Job failed 中显示错误异常

我正在尝试运行我的mapreduce程序。在我尝试运行它之后,输出如下。(我只显示输出的最后一部分)FileSystemCountersFILE:Numberofbytesread=3052FILE:Numberofbyteswritten=224295FILE:Numberofreadoperations=0FILE:Numberoflargereadoperations=0FILE:Numberofwriteoperations=0HDFS:Numberofbytesread=0HDFS:Numberofbyteswritten=0HDFS:Numberofreadoperatio

hadoop - 如何在MapReduce 框架中编写JOB1 和JOB2 之间的顺序代码?

我有一个包含2个作业的MapReduce应用程序。我需要在Job1和Job2之间运行一小段代码。换句话说,一个小代码在Job1的最终输出上运行,Job2中的所有映射器都能够使用这个小代码的输出。这段小代码不需要并行运行。它是一个顺序代码,应该在单台机器上运行并在HDFS中写入输出。我想知道如何在我的应用程序代码中编写Job1和Job2之间的顺序代码,它将在一台机器上运行并读取的输出Job1来自HDFS,并将其自己的输出也写入HDFS。 最佳答案 在您的驱动程序(主)类中,在执行Job1之后(通常是JobClient.runJob(c

hadoop - CDH5 中的 Oozie 不获取 mapreduce.job.counters.max

当我运行一个oozie工作流,该工作流运行创建超过120个计数器的mapreduce-action(120是允许的默认最大计数器数)时,我收到一条错误消息,提示“计数器太多”。我已将mapreduce.job.counters.max设置为高于120的数字,但oozie似乎没有接受它。我在CDH5.1上使用hadoop2.3有没有人遇到过这种情况? 最佳答案 解决方案是将以下内容添加到YARNServiceMapReduceAdvancedConfigurationSnippet(SafetyValve):mapreduce.job

java - Mahout 在行动 : Chapter 06: Wikipedia job fails with java. lang.ArrayIndexOutOfBoundsException

我使用的hadoop版本是$hadoopversionHadoop2.5.0-cdh5.2.0Subversionhttp://github.com/cloudera/hadoop-re1f20a08bde76a33b79df026d00a0c91b2298387Compiledbyjenkinson2014-10-11T21:00ZCompiledwithprotoc2.5.0Fromsourcewithchecksum309bccd135b199bdfdd6df5f3f4153dThiscommandwasrunusing/DCNFS/applications/cdh/5.2/ap

java - 如何在hadoop Job类中设置Map任务的数量

这个问题在这里已经有了答案:Settingthenumberofmaptasksandreducetasks(15个答案)关闭6年前。我在通过Java将映射器的数量设置为一个时遇到问题。我正在使用作业和配置类。我知道我们可以使用旧的已弃用API通过mapred.map.tasks设置reducer的数量。有什么方法可以指定使用作业和配置类。我尝试使用FileInputFormat.setMinInputSplitSize(FullFilesize)增加输入文件拆分大小但是,我想知道我们是否有任何与新API中的mapred.map.tasks等效的东西,或者您如何通过其他方式指定

hadoop - sqoop import Job期间如何保持故障恢复

我们计划创建Oozie作业,该作业运行Sqoop命令以每小时为基础将数据从SQL服务器导入HDFS。但我们面临着挑战,如果该作业在此期间失败,如何发出警报,以及sqoop将如何检查哪些数据导入成功,哪些数据仍在等待中。sqoop导入时是否有维护事务和重试机制的流程。我们也会对他们的失败发出警报。 最佳答案 您可以将Oozie的工作流程配置为在失败时发送电子邮件。您可以通过将错误标记从任何操作重定向到发送电子邮件操作来实现此目的。电子邮件配置的示例如下。${emailToAddress}Failedtoimporttable.Thef

hadoop - Oozie Job(Cloudera VM)在抛出错误时执行 shell 脚本——错误=2,没有这样的文件或目录

我在尝试执行shell脚本时出现以下错误。如果我在这里做错了,请告诉我。我已将所有文件复制到Hdfs中。Oozie文件夹包含脚本文件夹,我在该文件夹中有sample.sh。Cannotrunprogram"sample.sh"(indirectory"/var/lib/hadoop-yarn/cache/yarn/nm-local-dir/usercache/cloudera/appcache/application_1468541187565_0011/container_1468541187565_0011_01_000002"):error=2,Nosuchfileordirec

scala - Apache Spark : how to cancel job in code and kill running tasks?

我在客户端模式下使用Yarn(版本2.6.0)在Hadoop集群上运行Spark应用程序(版本1.6.0)。我有一段运行长时间计算的代码,如果它花费的时间太长,我想终止它(然后运行一些其他函数)。这是一个例子:valconf=newSparkConf().setAppName("TIMEOUT_TEST")valsc=newSparkContext(conf)vallst=List(1,2,3)//settingupaninfiteactionvalfuture=sc.parallelize(lst).map(while(true)_).collectAsync()try{Await.

hadoop - Druid 批量索引 inputSpec 类型粒度,错误为 "no input paths specified in job"

我正在按照此处编写的说明进行操作:http://druid.io/docs/0.9.2/ingestion/batch-ingestion.html(滚动到“InputSpecspecification”,寻找“granularity”)。我的索引任务JSON中有:"inputSpec":{"type":"granularity","dataGranularity":"DAY","inputPath":"hdfs://hadoop:9000/druid/events/interview","filePattern":".*","pathFormat":"'y'=yyyy/'m'=MM/