草庐IT

作业队

全部标签

java - 如何终止(或杀死)Java 中的 Hadoop 作业?

假设我们有一个MapReduce作业,我们希望将作业的终止/终止写入到我们的JavaMapReduce中——比如在特定时间范围后,我该怎么做?例如,在指定的时间段后杀死作业 最佳答案 您可以获得Job使用作业ID,然后使用Job.killJob() 关于java-如何终止(或杀死)Java中的Hadoop作业?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/24152843/

java - 运行 Giraph 作业显示以下错误

信息zookeeper.ClientCnxn:打开与服务器debashis-Pseudo-Hadoop/127.0.1.1:22181的套接字连接。不会尝试使用SASL进行身份验证(未知错误)14/06/1713:07:28警告zookeeper.ClientCnxn:服务器空session0x0,意外错误,关闭套接字连接并尝试重新连接java.net.ConnectException:连接被拒绝在sun.nio.ch.SocketChannelImpl.checkConnect(native方法)在sun.nio.ch.SocketChannelImpl.finishConnect(

hadoop - sqoop import - 数据导入之间的作业失败

如果sqoop在大型数据导入作业之间失败,将会发生什么。它会在作业失败发生之前将一些数据保存到hdfs上吗? 最佳答案 我相信import/export按照类似的交易原则运作。由于Sqoop将导出过程分解为多个事务,失败的导出作业可能会导致部分数据被提交到数据库。在某些情况下,这可能会进一步导致后续作业因插入冲突而失败,或者在其他情况下导致重复数据。解决方案您可以通过--staging-table选项指定暂存表来解决此问题,该选项充当用于暂存导出数据的辅助表。暂存数据最终在单个事务中移动到目标表。

hadoop - 如何配置 Avro MapReduce 作业以将结果输出到单个文件中?

我有一个三节点集群,当Avro作业完成时,它会创建三个输出文件(拆分文件),但是,我只想输出一个文件。有什么建议吗? 最佳答案 设置mapred.reduce.tasks=1,但这可能会增加执行时间。您也可以在作业结束后使用hadoop-getmerge命令获取单个文件。 关于hadoop-如何配置AvroMapReduce作业以将结果输出到单个文件中?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com

hadoop - 如何为 Avro MapReduce 作业传入多个输入目录

我可以使用逗号“,”分隔处理多个.avro文件,但不能处理文件夹。我需要使用AvroMapReduce处理多个文件夹/子文件夹。请告诉我如何解决此问题。 最佳答案 这个变体对我有用:/{dir1/subdir1,dir2/subdir2,dir3/subdir3} 关于hadoop-如何为AvroMapReduce作业传入多个输入目录,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions

hadoop - Oozie Pig Action 更改作业 jar 的 Guava 依赖性

如何配置ooziepig操作以优先考虑user.classpath?pig版本0.10.0-cdh4.2.1都试过了mapreduce.task.classpath.user.precedencemapreduce.task.classpath.firstmapreduce.job.user.classpath.firstmapreduce.user.classpath.first作为pig操作配置设置的一部分。mapreduce.job.user.classpath.firsttrue但它们似乎都不起作用。问题是pig(不知何故)依赖于Guava11而我的工作依赖于Guava13。我

hadoop - Job 实例在 Hadoop 的构造函数中获取作业列表吗?

Here是Hadoop的代码片段:权威指南;ArrayListmergeDependencies=newArrayList();mergeDependencies.add(listenersJob);mergeDependencies.add(sumJob);JobConfmergeConf=getMergeConf(outputDir,sumOutputDir,listenersOutputDir);JobmergeJob=newJob(mergeConf,mergeDependencies);正如您所注意到的,Job的构造函数获取了一个jobs列表。我浏览了documentatio

java - Hadoop作业控制

我正在尝试在Hadoop中运行多个Map/Reduce任务。在谷歌上搜索后,我按照http://cloudcelebrity.wordpress.com/2012/03/30/how-to-chain-multiple-mapreduce-jobs-in-hadoop/中描述的方法2进行了操作。:使用作业控制。我收到以下错误:/examples2/format/Dictionary.java:100:error:nosuitablemethodfoundforaddJob(org.apache.hadoop.mapreduce.Job)jbcntrl.addJob(job);^meth

java - 从 eclipse 提交 hadoop 作业时出现 ConnectException

我正在尝试从Windows上的eclipse向hadoop-2.5.0(安装在虚拟机上运行的ubuntu14.04.1服务器上)提交作业(简单的字数统计)。在作业配置中,我将“fs.defaultFS”设置为“hdfs://192.168.2.216:8020”(如本thread中所建议)但是当我运行主程序时出现以下异常:WARN-NativeCodeLoader-Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicableERROR-Shell-Failedtoloc

Hadoop Streaming Job 与 Hadoop 管道作业

我正在尝试使用以下命令运行hadoop作业hadoop-jarmyjob.jar在这种情况下,我无法使用网页(在端口50030)看到提交的jar及其状态但如果我这样做hadoopjarmyjob.jar我可以在同一个端口(50030)上看到进度这两个命令有什么区别,我搜索了一下发现hadoop-jar提交管道作业用于提交流作业的hadoopjar任何见解都会有很大帮助。 最佳答案 没有hadoop-jar来自thedocs:用法:hadoopjar[mainClass]args...Thestreamingjobsarerunvia