草庐IT

oozie-anth-W

全部标签

hadoop - Oozie 作业使用 fork 而不是使用 join

我正在创建一个工作流,我需要在其中fork3个独立执行的作业。我没有加入的必要。有什么办法可以在oozie中实现这一目标吗?必须使用fork加入吗?? 最佳答案 来自documentationTheforkandjoinnodesmustbeusedinpairs.Thejoinnodeassumesconcurrentexecutionpathsarechildrenofthesameforknode.'文档还指出,Oozie对fork的工作流执行一些验证,如果违反则不允许作业运行。但是,如果您想要这种行为,您可以禁用forkjo

hadoop - Oozie 重试间隔中使用的时间单位是什么

在为Oozie操作设置配置时,有可能允许重试的最大次数retry-max,Oozie将在预定义的时间retry-interval。在Oozie文档中,我找不到用于此间隔的时间单位。是秒/分/...? 最佳答案 来源:User-RetryforWorkflowActionsSinceOozie4.3,User-retryallowsusertomentionretrypolicy.Thevalueforpolicycanbeperiodicorexponential,periodicbeingthedefault.Oozieadmin

hadoop - 你如何跟踪 oozie 作业日志?

我通常使用这个命令检查日志:$ooziejob-ooziehttp://localhost:8080/oozie-log14-20090525161321-oozie-joe这将打印所有内容。但是我只想看到最后几行。我如何跟踪oozie作业日志?谢谢 最佳答案 正如Chris上面建议的那样,使用它来打印最后10行$ooziejob-oozieoozie_URL-logjob_ID|tail-n10 关于hadoop-你如何跟踪oozie作业日志?,我们在StackOverflow上找到一

hadoop - 如何停止 Oozie 协调器?

我运行了一个Oozie协调器,它每小时运行一个工作流。我没有它的ID,当我运行命令ooziejobs-ooziehttp://localhost:11000/oozie时,它只显示工作流作业,没有协调器。我想阻止此协调员进一步处理,我该怎么做? 最佳答案 首先是避免在每个命令中定义oozieURL的建议exportOOZIE_URL=http://localhost:11000/oozie你可以列出正在运行的协调器ooziejobs-jobtypecoordinator-filterstatus=RUNNING这将返回一个显示协调器

hadoop - 通过 Jenkins 部署 Oozie 作业

我正在编写Oozie作业,我想将它们部署到hadoop集群。但是,我不想手动执行它们,而是想使用Jenkins为我执行此部署。我在网上搜索过,但没有找到oozie的任何插件....所以如果你在hadoop集群上使用oozie,你能告诉我什么是我可以进行自动构建和部署的最佳方式吗使用Jenkins? 最佳答案 Oozie工作流的部署只是将集群上不可用的xml文件和所需的依赖项放到HDFS目录中。link假设您有两个Jenkins作业,一个用于构建、测试等第二个用于部署,在成功构建第一个作业后触发您可以在第二个作业中编写将文件放在HDF

hadoop - 一个目录下可以有两个oozie workflow.xml文件吗?

一个目录下可以有两个oozieworkflow.xml文件吗?如果是这样,我如何指示oozierunner运行哪一个? 最佳答案 您可以有两个工作流文件(只需给它们唯一的名称),然后您可以通过在配置文件中设置oozie.wf.application.path值来选择要调用的文件:oozie.wf.application.path=hdfs://namenode:9000/path/to/job/wf-1.xml#oozie.wf.application.path=hdfs://namenode:9000/path/to/job/wf

hadoop - 使用 Apache Oozie 编排 Apache Spark

我们正在考虑将apachespark集成到我们的计算过程中,我们最初想使用apacheoozie和标准MR或MO(仅限map)作业。经过一些研究后,仍然存在几个问题:是否可以使用apacheoozie编排apachespark进程?如果是,怎么做?oozie是否不再必要,或者spark可以自行处理编排?(统一似乎是spark的主要关注点之一)请在回答时考虑以下场景:每4小时执行一次工作流程在特定数据可访问时执行工作流触发工作流并使用参数配置提前感谢您的回答。 最佳答案 Oozie4.2支持Spark作为操作类型,请参阅docs.您提

hadoop - Oozie 协调员。如何将过去的数据提供给 mapreduce 作业?

我正在尝试创建Ooize协调器。问题是我已经有了等待使用oozie处理的暂存数据。想象一下这样的情况。当前日期是:01.03.2013(2013年3月1日)我确实有这些输入目录:/staging/landing/source/xvlr/2013/02/01/00(2013年二月一日,一天的第一个小时)/staging/landing/source/xvlr/2013/02/01/01/staging/landing/source/xvlr/2013/02/01/02/staging/landing/source/xvlr/2013/02/01/03/staging/landing/so

hadoop - 如何使用 oozie.launcher.action.main.class 将参数传递给 Oozie 操作?

Oozie有一个名为oozie.launcher.action.main.class的配置属性,您可以在其中为map-reduce操作(或shell操作)传入“主类”的名称,如下所示:oozie.launcher.action.main.classcom.company.MyCascadingClass但是我需要将参数传递给我的主类,但找不到实现它的方法。有什么想法吗?我问这个问题是因为我正尝试从Oozie中启动一个级联类/流,但到目前为止我尝试过的所有选项都失败了。如果有人从Oozie获得了Cascading功能,请告诉我,我会发布另一个问题来特别询问这个问题。

testing - Oozie:在本地测试工作流程

基于OoozieXML的工作流定义容易出错,并且在运行时难以调试。此外,在生产环境中运行它们存在一定风险。1)是否有一种简单的方法来测试基于oozie的工作流/应用程序;通过嵌入式服务器或其他模拟环境?2)关于oozie开发是否有任何完善的IDE/TDD习语? 最佳答案 MiniOozie可能会有所帮助。还使用-dryrun允许打印1个具体化的已解析xml并进行语法检查-http://oozie.apache.org/docs/3.3.2/DG_CommandLineTool.html#Dryrun_of_Coordinator_J