草庐IT

hadoop - oozie中的xmlns有什么用?

我是Oozie的新手,想了解在oozie工作流程中,下一行中的xmlns究竟意味着什么?我知道xmlns是什么,但在这种情况下,有些uri以某个数字结尾。它指的是什么? 最佳答案 这个数字指的是oozie工作流架构版本。Schema定义了xml模式来定义工作流中的任何操作。目前有以下模式可用:OozieSchemaVersion0.5OozieSchemaVersion0.4.5OozieSchemaVersion0.4OozieSchemaVersion0.3OozieSchemaVersion0.2.5OozieSchemaVe

hadoop - Oozie 协调器如何对底层工作流更改使用react?

我有一个关于ApacheOozie的问题,更具体地说是关于CDH发行版的问题。当协调器使用的工作流被修改时会发生什么?例如,工作流现在使用一个由变量自动填充的额外参数。这在理论上不需要对协调器进行任何更改。正在运行的协调器是否仍然使用初始工作流的配置,或者他们是否动态适应新工作流。如果他们仍然使用旧配置,那么我需要定义一个新的协调器还是重新提交相同的协调器? 最佳答案 它是这样工作的:每个提交的协调器都有一组固定的变量和参数(配置文件)。-change选项允许您更改协调器的以下属性:endtime:协调器作业的结束时间。并发性:协调

hadoop - 使用 jar 文件在 oozie 中运行 hadoop 作业

我有一个jar文件,它有sqoop作业来读取数据并将数据写入mysql。我想使用oozie工作流运行jar,下面是运行jar的命令。yarnjaraa-datalake.jarrootrootOrdersavroaa-dl-rawzone为此我需要使用哪个操作? 最佳答案 在您的Sqoop作业上创建一个额外的java包装器可能不是最好的主意。您可以通过使用Sqoopaction直接从Oozie使用Sqoop.您可以在您的Java应用程序中设置您正在使用的相同参数。如果您仍想使用包装器,可以使用Javaaction为了这。但我个人认为

hadoop - Spark 应用程序报告内存不足的 Oozie 工作流

我尝试使用spark程序作为单步执行Oozie工作流。我使用了通过spark-submit或spark-shell成功执行的jar(相同的代码):spark-submit--packagescom.databricks:spark-csv_2.10:1.5.0--masteryarn-client--class"SimpleApp"/tmp/simple-project_2.10-1.1.jar应用程序不应需要大量资源——使用spark将单个csv(星火版本:1.6.0Oozie版本:4.1.0工作流是使用Hue、Oozie工作流编辑器创建的:Actionfailed,errormes

hadoop - 杀死协调器后如何让 oozie 工作流运行?

我已经使用oozie工作了一段时间,我想终止协调器,但我不想终止由协调器启动的工作流。我为什么要这样做?我有一个场景,我的工作必须每15分钟运行一次,但第一个工作花费了3个多小时,因为历史数据正在加载到当前正在运行的实例中,而且其余的工作堆积如山。下图就是一个例子。OozieSnapshotfortheexplainedquestion在此先致谢,如需任何其他信息,请随时询问。 最佳答案 与其杀死协调器,不如挂起它。如果协调器暂停,工作流也将暂停,但您可以恢复工作流。第一个大工作流完成后,您可以恢复协调器,以便它继续安排工作流。

hadoop - 查找从 Oozie 协调器启动的工作流作业的堆栈跟踪

我有一个符合此规范的基本Oozie协调器:${timeout}${workflow}它在计划的标称开始时间附近启动了工作流作业。但后来,日志显示工作流作业进入了失败状态。为了检索工作信息,我运行了:ooziejob-info0000909-190113225141152-oozie-oozi-W它提供了有用的信息,包括以下异常跟踪:]Launcherexception:org.apache.spark.SparkException:Applicationapplication_1547448533998_26676finishedwithfailedstatusorg.apache.o

hadoop - 使用 oozie 运行多个 mapreduce 作业?

作为解决方法的一部分,我想使用两个mapreduce作业(而不是一个),它们应该按顺序运行以提供所需的效果。每个作业中的映射函数只是简单地发出每个键值对而不进行处理。每个作业中的reduce函数都不同,因为它们进行不同类型的处理。我偶然发现了oozie,它似乎直接写入后续作业的输入流(或者不是吗?)——这很好,因为中间数据很大(I/O操作会成为瓶颈).如何使用oozie(工作流程中的2个mr作业)实现此目的?我确实浏览了以下资源,但它们只是将单个作业作为工作流运行:https://cwiki.apache.org/confluence/display/OOZIE/Map+Reduce+

hadoop - Oozie 工作流导入色调失败

我无法在hue编辑器中导入oozie工作流,hue版本2.5.0错误:无法导入工作流,节点终止尚未定义${jobTracker}${nameNode}WordCount/data/input/data/temptest@test.comTestTESTActionfailed,errormessage[${wf:errorMessage(wf:lastErrorNode())}]如果我更改Java操作错误以终止它的工作。这是异常行为还是有任何解决方法 最佳答案 目前不支持。您确实需要让每个操作错误节点指向终止节点,然后导入工作流,然

hadoop - 使用 Cloudera VM 问题运行 Oozie

我在vmware中使用clouderaquickstart来运行示例Oozie。我正在尝试运行Cloudera中的一些Oozie示例。我正在关注此链接:http://archive.cloudera.com/cdh/3/oozie/DG_Examples.html我解压缩了“oozie-examples.tar.gz”并获得了示例目录。运行oozie时,我收到一条错误消息:[cloudera@localhostoozie-3.3.2+92]$ooziejob-ooziehttp://localhost:11000/oozie-configexamples/apps/map-reduce

hadoop - 错误 : org. 找不到 apache.oozie.action.hadoop.PigMain

我正在尝试通过oozie工作流执行一个简单的pig脚本,该工作流导入一个pythonjar以及其他一些jar并最终得到如下错误:FailingOozieLauncher,Mainclass[org.apache.oozie.action.hadoop.PigMain],exceptioninvokingmain(),java.lang.ClassNotFoundException:Classorg.apache.oozie.action.hadoop.PigMainnotfoundjava.lang.RuntimeException:java.lang.ClassNotFoundExc