作业队_草庐IT

java - 分布式作业调度、管理和报告

我最近玩了一次Hadoop并对其MapReduce作业的调度、管理和报告印象深刻。它似乎使新工作的分配和执行变得非常无缝，使开发人员能够专注于他们工作的实现。我想知道在Java领域中是否存在用于分布式执行作业的不容易表示为MapReduce问题的东西？例如:需要任务协调和同步的工作。例如，它们可能涉及任务的顺序执行，但并发执行某些任务是可行的:.--B--..--A--||--.|'--C--'|Start--||--Done||'--D-------------'您想要分配但不提供任何输出以减少的CPU密集型任务-例如图像转换/调整大小。那么有没有Java框架/平台提供这样的分布式计

hadoop - 在没有输出文件的情况下运行 Hadoop 作业

是否可以在不指定输出文件的情况下运行hadoop作业？当我尝试运行hadoop作业时，未抛出指定输出文件的异常。任何人都可以使用Java给出任何程序吗？我正在将reduce处理的数据写入非关系数据库，因此我不再需要它写入HDFS。最佳答案不幸的是，你不能真正做到这一点。编写输出是框架的一部分。当您在框架之外工作时，您基本上只需要处理后果。您可以使用NullOutputFormat，它不会将任何数据写入HDFS。不过，我认为它仍然会创建文件夹。您总是可以让Hadoop创建文件夹，然后deleteit.

scala - Spark 在大型洗牌作业上失败，出现 java.io.IOException : Filesystem closed

我经常发现spark在处理大型作业时失败，并出现无用的无意义异常。工作日志看起来正常，没有错误，但它们的状态为“KILLED”。这对于大型随机播放非常常见，因此像.distinct这样的操作。问题是，我如何诊断出了什么问题，理想情况下，我该如何修复它？考虑到这些操作中有很多是幺半群的，我一直在通过将数据分成例如10个block，在每个block上运行应用程序，然后在所有结果输出上运行应用程序来解决这个问题。换句话说-元映射减少。14/06/0412:56:09ERRORclient.AppClient$ClientActor:Masterremovedourapplication:FA

hadoop - (Hadoop) MapReduce - 链式作业 - JobControl 不会停止

我需要链接两个MapReduce作业。我使用JobControl将job2设置为依赖于job1。它有效，输出文件已创建!但它不会停止!在shell中它保持这种状态:12/09/1119:06:24WARNmapred.JobClient:UseGenericOptionsParserforparsingthearguments.ApplicationsshouldimplementToolforthesame.12/09/1119:06:25INFOinput.FileInputFormat:Totalinputpathstoprocess:112/09/1119:06:25INFOu

java - Hadoop 没有在作业跟踪器中显示我的作业，即使它正在运行

问题:当我向我的hadoop2.2.0集群提交作业时，它没有显示在作业跟踪器中但作业成功完成。通过这个我可以看到输出并且它正在正确运行并在运行时打印输出。我已经尝试了多个选项，但工作跟踪器没有看到该工作。如果我使用2.2.0hadoop运行流作业，它会显示在任务跟踪器中，但是当我通过hadoop-clientapi提交它时，它不会显示在作业跟踪器中。我在8088端口上查看ui界面验证作业环境OSXMavericks、Java1.6、Hadoop2.2.0单节点集群、Tomcat7.0.47代码try{configuration.set("fs.defaultFS","hdfs://12

amazon-web-services - Amazon MapReduce 无 reducer 作业

我正在尝试通过AWS(流式作业)创建仅映射器作业。reducer字段是必需的，因此我提供了一个虚拟可执行文件，并将-jobconfmapred.map.tasks=0添加到ExtraArgs框中。在我安装的hadoop环境(版本0.20)中，不会启动reducer作业，但在AWS中，虚拟可执行文件启动并失败。如何在AWS中运行一个没有reducer/mapper的作业？最佳答案您也可以使用cat或NONE作为reducer参数。关于amazon-web-services-Amazo

hadoop - MapReduce 作业输出排序顺序

我可以在我的mapreduce作业中看到reducer部分的输出是按键排序的..因此，如果我将reducer的数量设置为10，则输出目录将包含10个文件，并且每个输出文件都有一个排序数据。我把它放在这里的原因是即使所有文件都有排序数据但这些文件本身没有排序..例如:在某些情况下，part-000*文件从0开始并在zzzz结束，假设我使用文本作为键。我假设即使在文件中也应该对文件进行排序，即文件1应该有a，最后一个文件部分--00009应该有带有zzzz或atleaset>a的条目假设我有所有字母表均匀分布的键。有人能解释一下为什么会这样吗最佳答案

hadoop - Hadoop、Oozie 中作业、应用程序、任务、任务尝试日志之间的区别

我正在运行一个包含多个操作的Oozie作业，但有一部分我无法让它工作。在故障排除过程中，我被大量日志淹没了。在YARNUI中(yarn-site.xml中的yarn.resourcemanager.webapp.address，通常在端口8088上)，有application_日志。在JobHistoryServer(yarn-site.xml中的yarn.log.server.url，我们的端口19888)中，有job_日志。(这些作业日志也应该显示在Hue的作业浏览器上，对吧？)在Hue的Oozie工作流编辑器中，有task和task_attempt(不确定它们是否相同，对我来说

hadoop - Oozie 作业错误 - java.io.IOException : configuration is not specified

我已经为配置单元脚本创建了一个oozie工作流来将数据加载到表中。我的workflow.xml包含-${jobTracker}${nameNode}${workflowRoot}/hive-site.xmloozie.hive.defaults${workflowRoot}/hive-site.xmlload_data.hqlHivefailed,errormessage[${wf:errorMessage(wf:lastErrorNode())}]我的job.properties文件包含-nameNode=hdfs://localhost:8020jobTracker=localho

java - 从集群中获取现有的 mapreduce 作业(作业可能正在运行或已完成)

以前，我使用org.apache.hadoop.mapred.JobClient#getJob(org.apache.hadoop.mapred.JobID)来获取RunningJob。此调用是从作业完成回调方法进行的，但是，在我看来，存在时间问题，如果作业已经完成，则上述getJob()方法找不到它并返回null。我可以从集群UI确认作业已完成。保持RunningJob分开，有没有办法在给定org.apache.hadoop.mapreduce.JobID，无论作业当前是正在运行还是已完成？我试着编写类似这样的代码:集群cluster=jobClient.getClusterHand