草庐IT

oozie-anth-W

全部标签

java - 从 Oozie shell 运行的 jar 写入文件

我有jar在运行我们的mapreduce过程之前需要运行的文件。这将处理稍后输入到mapreduce过程的数据。jar文件在没有oozie的情况下工作正常,但我喜欢自动化工作流程。jar如果运行应该接受两个输入:和并且应该期望输出两个文件,在下指定。这是工作流程:${jobTracker}${nameNode}java-jarRI-Sequencer.jarlog.csv/tmp/user/root/algo/RI-Sequencer.jar#RI-Sequencer.jar/user/root/algo/log.csv#log.csvActionfailed,errormessage

java - Hadoop Oozie 工作流没有获得协调器属性

我有一个简单的Oozie协调器和工作流程。我正在尝试将协调器的dataIn属性传递给工作流,如下所述:https://oozie.apache.org/docs/3.2.0-incubating/CoordinatorFunctionalSpec.html#a6.7.1._coord:dataInString_name_EL_Function由于某种原因,在以下示例中,工作流属性中的值为空并且EL变量${inputDir}为空。实际错误是:variable[inputDir]cannotberesolved配置协调器.xml13801LIFO${s3DataPath}/${YEAR}-

hadoop - Oozie 使用一个映射器处理多个目录中的输入

我正在尝试设置一个Ooziemap-reduce工作流操作来处理分布在多个目录中的输入文件。具体来说,假设我的输入分布在以下目录中/data/d_20150629-2200/data/d_20150630-2210/data/d_20150530-2220/data/d_20150531-2230/data/d_20150701-2240/data/d_20150702-2250一般来说,没有一个简单的glob模式来捕获我在运行时期望的文件列表。我的workflow.xml中的输入规范是:mapred.input.dir${inputFile}而我的workflow.propertie

java - Oozie 可以暂停工作流直到某个文件生成/存在吗?

我正在使用Oozie第一次发现解析规范有点困难。我正在尝试创建一个简单的工作流程,在其中我在Hive中运行一些查询,然后执行shell为了用不同的程序做一些分析,最后我想执行一个Java通过Oozie工作.虽然我了解如何单独执行所有这些操作,但如何设置我的工作流程以便最终Java作业在开始之前等待生成文件?谷歌搜索,我看到了制作Oozie的方法工作流在开始之前等待生成数据集,但我不希望整个工作流等待,因为我只希望工作流中的一个特定操作等待输入文件生成。输入文件会很简单-很可能我只会执行第二个操作,即shell一,执行一些命令,如touch$(date-u"+%Y-%m-%d-%H").

hadoop - 找不到 oozie 共享库

我的oozie工作的详细信息如下:我收到以下错误:57-oozie-oozi-W@MR]Errorstartingaction[MR].ErrorType[FAILED],ErrorCode[EJ001],Message[CouldnotlocateOoziesharelib]org.apache.oozie.action.ActionExecutorException:CouldnotlocateOoziesharelibatorg.apache.oozie.action.hadoop.JavaActionExecutor.addSystemShareLibForAction(Jav

hadoop - oozie中的xmlns有什么用?

我是Oozie的新手,想了解在oozie工作流程中,下一行中的xmlns究竟意味着什么?我知道xmlns是什么,但在这种情况下,有些uri以某个数字结尾。它指的是什么? 最佳答案 这个数字指的是oozie工作流架构版本。Schema定义了xml模式来定义工作流中的任何操作。目前有以下模式可用:OozieSchemaVersion0.5OozieSchemaVersion0.4.5OozieSchemaVersion0.4OozieSchemaVersion0.3OozieSchemaVersion0.2.5OozieSchemaVe

hadoop - Oozie 协调器如何对底层工作流更改使用react?

我有一个关于ApacheOozie的问题,更具体地说是关于CDH发行版的问题。当协调器使用的工作流被修改时会发生什么?例如,工作流现在使用一个由变量自动填充的额外参数。这在理论上不需要对协调器进行任何更改。正在运行的协调器是否仍然使用初始工作流的配置,或者他们是否动态适应新工作流。如果他们仍然使用旧配置,那么我需要定义一个新的协调器还是重新提交相同的协调器? 最佳答案 它是这样工作的:每个提交的协调器都有一组固定的变量和参数(配置文件)。-change选项允许您更改协调器的以下属性:endtime:协调器作业的结束时间。并发性:协调

hadoop - 使用 jar 文件在 oozie 中运行 hadoop 作业

我有一个jar文件,它有sqoop作业来读取数据并将数据写入mysql。我想使用oozie工作流运行jar,下面是运行jar的命令。yarnjaraa-datalake.jarrootrootOrdersavroaa-dl-rawzone为此我需要使用哪个操作? 最佳答案 在您的Sqoop作业上创建一个额外的java包装器可能不是最好的主意。您可以通过使用Sqoopaction直接从Oozie使用Sqoop.您可以在您的Java应用程序中设置您正在使用的相同参数。如果您仍想使用包装器,可以使用Javaaction为了这。但我个人认为

hadoop - Spark 应用程序报告内存不足的 Oozie 工作流

我尝试使用spark程序作为单步执行Oozie工作流。我使用了通过spark-submit或spark-shell成功执行的jar(相同的代码):spark-submit--packagescom.databricks:spark-csv_2.10:1.5.0--masteryarn-client--class"SimpleApp"/tmp/simple-project_2.10-1.1.jar应用程序不应需要大量资源——使用spark将单个csv(星火版本:1.6.0Oozie版本:4.1.0工作流是使用Hue、Oozie工作流编辑器创建的:Actionfailed,errormes

hadoop - 杀死协调器后如何让 oozie 工作流运行?

我已经使用oozie工作了一段时间,我想终止协调器,但我不想终止由协调器启动的工作流。我为什么要这样做?我有一个场景,我的工作必须每15分钟运行一次,但第一个工作花费了3个多小时,因为历史数据正在加载到当前正在运行的实例中,而且其余的工作堆积如山。下图就是一个例子。OozieSnapshotfortheexplainedquestion在此先致谢,如需任何其他信息,请随时询问。 最佳答案 与其杀死协调器,不如挂起它。如果协调器暂停,工作流也将暂停,但您可以恢复工作流。第一个大工作流完成后,您可以恢复协调器,以便它继续安排工作流。