草庐IT

协调者

全部标签

hadoop - Oozie 每小时协调员对 future 的行动超时

在每小时的5分钟标记处,我将过去一小时的数据加载到hdfs中。我想我可以设置一个协调器作业,使其在每小时10分钟标记处运行以处理此数据,同时检查该小时的目录是否存在。最终发生的事情是协调器将在提交时对过去一小时的数据执行正常,在接下来的2小时内继续正常工作,然后future的操作将从“等待”变为“超时”。我的猜测是对于一个Action可以停留在“等待”状态的时间有一个默认的最大限制。将超时限制应用于绝对future时间的所有操作似乎有点违反直觉。不管怎样,这是coordinator.xml的示例。我正在寻找关于如何以更有意义的方式设计它或如何提高默认超时的任何建议。hdfs://use

hadoop - 如果协调器操作失败,如何暂停 Oozie 协调器?

在我的用例中,下一次迭代使用协调器操作的输出,因此如果其中一个失败,未完成/损坏的数据将被输入到下一个协调器操作。如果协调器操作中的工作流步骤之一失败,是否有任何方法可以暂停Oozie协调器?例如代替:我们可以这样做吗:因此可以在其输出被下一个协调器操作覆盖之前诊断出错误?PS:fs>delete不是这里的实际用例,只是一个例子。 最佳答案 您不能基于工作流失败(来自协调器操作)暂停协调器。如果工作流的输出具有特定模式,那么您可以使用它并在工作流开始时检查它。否则,只要文件成功,您始终可以触摸文件作为工作流中的最后一个操作,如果失败

hadoop - Oozie 协调器调度使用 cron 表达式给出错误

我已经使用cron表达式安排了一个协调器frequency="203**2-4"但它给出了错误。oozie协调器日志显示“java.lang.IllegalArgumentException”:paramter[frequency]=[203**2-4]mustbeaninteger。输入字符串的解析错误:“203**2-4”HDP版本:2.5.3Oozie客户端构建版本:4.2.0.2.5.3.0-37.... 最佳答案 您正在请求Oozie为协调器应用XML模式...在该模式的0.2版本中。文档暗示CRONsyntaxworke

java - Hadoop Oozie 工作流没有获得协调器属性

我有一个简单的Oozie协调器和工作流程。我正在尝试将协调器的dataIn属性传递给工作流,如下所述:https://oozie.apache.org/docs/3.2.0-incubating/CoordinatorFunctionalSpec.html#a6.7.1._coord:dataInString_name_EL_Function由于某种原因,在以下示例中,工作流属性中的值为空并且EL变量${inputDir}为空。实际错误是:variable[inputDir]cannotberesolved配置协调器.xml13801LIFO${s3DataPath}/${YEAR}-

hadoop - Oozie 协调器如何对底层工作流更改使用react?

我有一个关于ApacheOozie的问题,更具体地说是关于CDH发行版的问题。当协调器使用的工作流被修改时会发生什么?例如,工作流现在使用一个由变量自动填充的额外参数。这在理论上不需要对协调器进行任何更改。正在运行的协调器是否仍然使用初始工作流的配置,或者他们是否动态适应新工作流。如果他们仍然使用旧配置,那么我需要定义一个新的协调器还是重新提交相同的协调器? 最佳答案 它是这样工作的:每个提交的协调器都有一组固定的变量和参数(配置文件)。-change选项允许您更改协调器的以下属性:endtime:协调器作业的结束时间。并发性:协调

hadoop - 杀死协调器后如何让 oozie 工作流运行?

我已经使用oozie工作了一段时间,我想终止协调器,但我不想终止由协调器启动的工作流。我为什么要这样做?我有一个场景,我的工作必须每15分钟运行一次,但第一个工作花费了3个多小时,因为历史数据正在加载到当前正在运行的实例中,而且其余的工作堆积如山。下图就是一个例子。OozieSnapshotfortheexplainedquestion在此先致谢,如需任何其他信息,请随时询问。 最佳答案 与其杀死协调器,不如挂起它。如果协调器暂停,工作流也将暂停,但您可以恢复工作流。第一个大工作流完成后,您可以恢复协调器,以便它继续安排工作流。

hadoop - 查找从 Oozie 协调器启动的工作流作业的堆栈跟踪

我有一个符合此规范的基本Oozie协调器:${timeout}${workflow}它在计划的标称开始时间附近启动了工作流作业。但后来,日志显示工作流作业进入了失败状态。为了检索工作信息,我运行了:ooziejob-info0000909-190113225141152-oozie-oozi-W它提供了有用的信息,包括以下异常跟踪:]Launcherexception:org.apache.spark.SparkException:Applicationapplication_1547448533998_26676finishedwithfailedstatusorg.apache.o

hadoop - 如何在 oozie 协调器中使用一天的旧数据集

我正在寻找实现以下目标的正确方法:场景:连接器正在提供数据,并且正在将数据存储在hdfs中的路径/data/2015/09/15/csvfile.csv中。(按天存储)我的协调员工作在一天结束时在2015-09-15T23:59上运行,并使用来自上述路径的当天数据并将其存储到分区day=下的配置单元表中16.基本上,如果数据可用,我想让每个分区都保存最后一天的数据,如果数据不可用,则不应创建分区。例如第15个收集的数据应类似地存储到第16个分区中第16个数据放入第17个分区,依此类推。假设喂食从2015-09-15T00:00开始直到2015-09-16T00:00满一天并存储在路径/

hadoop - 基于 Oozie 文件的协调器

我正在尝试创建一个具有基于文件的依赖项的协调器。我的目标是只有在创建了指定的文件时,协调器才应该执行工作流。如果文件未创建,协调器应等待文件创建。我试过以下代码:hdfs://localhost:9000/tmp/revenue_feed/${YEAR}/${MONTH}/${DAY}/${HOUR}trigger.dat${coord:current(-23)}${coord:current(0)}hdfs://localhost:9000/tmp/workflows我启动了Oozie作业,它处于WAITING状态。我已经执行了将在HDFS的指定目录结构中创建文件(trigger.d

hadoop - 如何使用简单的输入事件设置 Oozie 协调器?

如何设置可以存在或不存在的Oozie协调器输入事件?请填写???对于以下内容:-130FIFO/time-independent/path/that/may/or/maynot/be/there???${myAppPath}myInput${coord:dataIn('myInput')}谢谢,阿尔瓦罗 最佳答案 数据集频率值将为${coord:days(1)},因为您希望将其安排在每天。starttime将是您要开始作业时的值。例如。2017-01-22T12:00Z.因此,更新后的协调器xml将如下所示:-130FIFO/tim