作业队

java - 如何终止(或杀死)Java 中的 Hadoop 作业？

假设我们有一个MapReduce作业，我们希望将作业的终止/终止写入到我们的JavaMapReduce中——比如在特定时间范围后，我该怎么做？例如，在指定的时间段后杀死作业最佳答案您可以获得Job使用作业ID，然后使用Job.killJob() 关于java-如何终止(或杀死)Java中的Hadoop作业？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/24152843/

杀死 Hadoop section stackoverflow https java mapreduce kill-process

java - 运行 Giraph 作业显示以下错误

信息zookeeper.ClientCnxn:打开与服务器debashis-Pseudo-Hadoop/127.0.1.1:22181的套接字连接。不会尝试使用SASL进行身份验证(未知错误)14/06/1713:07:28警告zookeeper.ClientCnxn:服务器空session0x0，意外错误，关闭套接字连接并尝试重新连接java.net.ConnectException:连接被拒绝在sun.nio.ch.SocketChannelImpl.checkConnect(native方法)在sun.nio.ch.SocketChannelImpl.finishConnect(

Giraph java section ClientCnxn zookeeper sockets hadoop apache-zookeeper

hadoop - sqoop import - 数据导入之间的作业失败

如果sqoop在大型数据导入作业之间失败，将会发生什么。它会在作业失败发生之前将一些数据保存到hdfs上吗？最佳答案我相信import/export按照类似的交易原则运作。由于Sqoop将导出过程分解为多个事务，失败的导出作业可能会导致部分数据被提交到数据库。在某些情况下，这可能会进一步导致后续作业因插入冲突而失败，或者在其他情况下导致重复数据。解决方案您可以通过--staging-table选项指定暂存表来解决此问题，该选项充当用于暂存导出数据的辅助表。暂存数据最终在单个事务中移动到目标表。

hadoop import section strong stackoverflow sqoop

hadoop - 如何配置 Avro MapReduce 作业以将结果输出到单个文件中？

我有一个三节点集群，当Avro作业完成时，它会创建三个输出文件(拆分文件)，但是，我只想输出一个文件。有什么建议吗？最佳答案设置mapred.reduce.tasks=1，但这可能会增加执行时间。您也可以在作业结束后使用hadoop-getmerge命令获取单个文件。关于hadoop-如何配置AvroMapReduce作业以将结果输出到单个文件中？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com

MapReduce hadoop section stackoverflow questions bigdata avro

hadoop - 如何为 Avro MapReduce 作业传入多个输入目录

我可以使用逗号“,”分隔处理多个.avro文件，但不能处理文件夹。我需要使用AvroMapReduce处理多个文件夹/子文件夹。请告诉我如何解决此问题。最佳答案这个变体对我有用:/{dir1/subdir1,dir2/subdir2,dir3/subdir3} 关于hadoop-如何为AvroMapReduce作业传入多个输入目录，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions

传入何为 section subdir stackoverflow hadoop mapreduce bigdata avro

hadoop - Oozie Pig Action 更改作业 jar 的 Guava 依赖性

如何配置ooziepig操作以优先考虑user.classpath？pig版本0.10.0-cdh4.2.1都试过了mapreduce.task.classpath.user.precedencemapreduce.task.classpath.firstmapreduce.job.user.classpath.firstmapreduce.user.classpath.first作为pig操作配置设置的一部分。mapreduce.job.user.classpath.firsttrue但它们似乎都不起作用。问题是pig(不知何故)依赖于Guava11而我的工作依赖于Guava13。我

依赖性 hadoop classpath mapreduce section apache-pig oozie

hadoop - Job 实例在 Hadoop 的构造函数中获取作业列表吗？

Here是Hadoop的代码片段:权威指南；ArrayListmergeDependencies=newArrayList();mergeDependencies.add(listenersJob);mergeDependencies.add(sumJob);JobConfmergeConf=getMergeConf(outputDir,sumOutputDir,listenersOutputDir);JobmergeJob=newJob(mergeConf,mergeDependencies);正如您所注意到的，Job的构造函数获取了一个jobs列表。我浏览了documentatio

hadoop section code mapreduce jobs hadoop2

java - Hadoop作业控制

我正在尝试在Hadoop中运行多个Map/Reduce任务。在谷歌上搜索后，我按照http://cloudcelebrity.wordpress.com/2012/03/30/how-to-chain-multiple-mapreduce-jobs-in-hadoop/中描述的方法2进行了操作。:使用作业控制。我收到以下错误:/examples2/format/Dictionary.java:100:error:nosuitablemethodfoundforaddJob(org.apache.hadoop.mapreduce.Job)jbcntrl.addJob(job);^meth

Hadoop java mapreduce apache job-control

java - 从 eclipse 提交 hadoop 作业时出现 ConnectException

我正在尝试从Windows上的eclipse向hadoop-2.5.0(安装在虚拟机上运行的ubuntu14.04.1服务器上)提交作业(简单的字数统计)。在作业配置中，我将“fs.defaultFS”设置为“hdfs://192.168.2.216:8020”(如本thread中所建议)但是当我运行主程序时出现以下异常:WARN-NativeCodeLoader-Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicableERROR-Shell-Failedtoloc

时出 ConnectException hadoop java apache eclipse mapreduce hadoop-yarn

Hadoop Streaming Job 与 Hadoop 管道作业

我正在尝试使用以下命令运行hadoop作业hadoop-jarmyjob.jar在这种情况下，我无法使用网页(在端口50030)看到提交的jar及其状态但如果我这样做hadoopjarmyjob.jar我可以在同一个端口(50030)上看到进度这两个命令有什么区别，我搜索了一下发现hadoop-jar提交管道作业用于提交流作业的hadoopjar任何见解都会有很大帮助。最佳答案没有hadoop-jar来自thedocs:用法:hadoopjar[mainClass]args...Thestreamingjobsarerunvia

Hadoop Streaming section jar mapreduce hadoop-streaming

138 139 140141142 143 144