oozie-anth-W

java - 从 Oozie shell 运行的 jar 写入文件

我有jar在运行我们的mapreduce过程之前需要运行的文件。这将处理稍后输入到mapreduce过程的数据。jar文件在没有oozie的情况下工作正常，但我喜欢自动化工作流程。jar如果运行应该接受两个输入:和并且应该期望输出两个文件,在下指定。这是工作流程:${jobTracker}${nameNode}java-jarRI-Sequencer.jarlog.csv/tmp/user/root/algo/RI-Sequencer.jar#RI-Sequencer.jar/user/root/algo/log.csv#log.csvActionfailed,errormessage

Oozie shell code gt lt java hadoop cloudera hue

java - Hadoop Oozie 工作流没有获得协调器属性

我有一个简单的Oozie协调器和工作流程。我正在尝试将协调器的dataIn属性传递给工作流，如下所述:https://oozie.apache.org/docs/3.2.0-incubating/CoordinatorFunctionalSpec.html#a6.7.1._coord:dataInString_name_EL_Function由于某种原因，在以下示例中，工作流属性中的值为空并且EL变量${inputDir}为空。实际错误是:variable[inputDir]cannotberesolved配置协调器.xml13801LIFO${s3DataPath}/${YEAR}-

协调器 Hadoop gt lt 34 java oozie

hadoop - Oozie 使用一个映射器处理多个目录中的输入

我正在尝试设置一个Ooziemap-reduce工作流操作来处理分布在多个目录中的输入文件。具体来说，假设我的输入分布在以下目录中/data/d_20150629-2200/data/d_20150630-2210/data/d_20150530-2220/data/d_20150531-2230/data/d_20150701-2240/data/d_20150702-2250一般来说，没有一个简单的glob模式来捕获我在运行时期望的文件列表。我的workflow.xml中的输入规范是:mapred.input.dir${inputFile}而我的workflow.propertie

射器 hadoop code section workflow oozie

java - Oozie 可以暂停工作流直到某个文件生成/存在吗？

我正在使用Oozie第一次发现解析规范有点困难。我正在尝试创建一个简单的工作流程，在其中我在Hive中运行一些查询,然后执行shell为了用不同的程序做一些分析，最后我想执行一个Java通过Oozie工作.虽然我了解如何单独执行所有这些操作，但如何设置我的工作流程以便最终Java作业在开始之前等待生成文件？谷歌搜索，我看到了制作Oozie的方法工作流在开始之前等待生成数据集，但我不希望整个工作流等待，因为我只希望工作流中的一个特定操作等待输入文件生成。输入文件会很简单-很可能我只会执行第二个操作，即shell一，执行一些命令，如touch$(date-u"+%Y-%m-%d-%H").

Oozie java code 34 gt hadoop mapreduce hive

hadoop - 找不到 oozie 共享库

我的oozie工作的详细信息如下:我收到以下错误:57-oozie-oozi-W@MR]Errorstartingaction[MR].ErrorType[FAILED],ErrorCode[EJ001],Message[CouldnotlocateOoziesharelib]org.apache.oozie.action.ActionExecutorException:CouldnotlocateOoziesharelibatorg.apache.oozie.action.hadoop.JavaActionExecutor.addSystemShareLibForAction(Jav

hadoop oozie JavaActionExecutor apache

hadoop - oozie中的xmlns有什么用？

我是Oozie的新手，想了解在oozie工作流程中，下一行中的xmlns究竟意味着什么？我知道xmlns是什么，但在这种情况下，有些uri以某个数字结尾。它指的是什么？最佳答案这个数字指的是oozie工作流架构版本。Schema定义了xml模式来定义工作流中的任何操作。目前有以下模式可用:OozieSchemaVersion0.5OozieSchemaVersion0.4.5OozieSchemaVersion0.4OozieSchemaVersion0.3OozieSchemaVersion0.2.5OozieSchemaVe

hadoop oozie Version Schema

hadoop - Oozie 协调器如何对底层工作流更改使用react？

我有一个关于ApacheOozie的问题，更具体地说是关于CDH发行版的问题。当协调器使用的工作流被修改时会发生什么？例如，工作流现在使用一个由变量自动填充的额外参数。这在理论上不需要对协调器进行任何更改。正在运行的协调器是否仍然使用初始工作流的配置，或者他们是否动态适应新工作流。如果他们仍然使用旧配置，那么我需要定义一个新的协调器还是重新提交相同的协调器？最佳答案它是这样工作的:每个提交的协调器都有一组固定的变量和参数(配置文件)。-change选项允许您更改协调器的以下属性:endtime:协调器作业的结束时间。并发性:协调

协调器底层 section Updating_coordinator_definition_a hadoop oozie cloudera-cdh oozie-coordinator

hadoop - 使用 jar 文件在 oozie 中运行 hadoop 作业

我有一个jar文件，它有sqoop作业来读取数据并将数据写入mysql。我想使用oozie工作流运行jar，下面是运行jar的命令。yarnjaraa-datalake.jarrootrootOrdersavroaa-dl-rawzone为此我需要使用哪个操作？最佳答案在您的Sqoop作业上创建一个额外的java包装器可能不是最好的主意。您可以通过使用Sqoopaction直接从Oozie使用Sqoop.您可以在您的Java应用程序中设置您正在使用的相同参数。如果您仍想使用包装器，可以使用Javaaction为了这。但我个人认为

中运 hadoop section noreferrer jar workflow hadoop-yarn sqoop oozie

hadoop - Spark 应用程序报告内存不足的 Oozie 工作流

我尝试使用spark程序作为单步执行Oozie工作流。我使用了通过spark-submit或spark-shell成功执行的jar(相同的代码):spark-submit--packagescom.databricks:spark-csv_2.10:1.5.0--masteryarn-client--class"SimpleApp"/tmp/simple-project_2.10-1.1.jar应用程序不应需要大量资源——使用spark将单个csv(星火版本:1.6.0Oozie版本:4.1.0工作流是使用Hue、Oozie工作流编辑器创建的:Actionfailed,errormes

hadoop Spark gt lt apache-spark memory workflow oozie

hadoop - 杀死协调器后如何让 oozie 工作流运行？

我已经使用oozie工作了一段时间，我想终止协调器，但我不想终止由协调器启动的工作流。我为什么要这样做？我有一个场景，我的工作必须每15分钟运行一次，但第一个工作花费了3个多小时，因为历史数据正在加载到当前正在运行的实例中，而且其余的工作堆积如山。下图就是一个例子。OozieSnapshotfortheexplainedquestion在此先致谢，如需任何其他信息，请随时询问。最佳答案与其杀死协调器，不如挂起它。如果协调器暂停，工作流也将暂停，但您可以恢复工作流。第一个大工作流完成后，您可以恢复协调器，以便它继续安排工作流。

协调器杀死 section stackoverflow hadoop cloudera oozie hortonworks-data-platform oozie-coordinator

19 20 212223 24 25