草庐IT

oozie-workflow

全部标签

hadoop - Oozie 服务未启动

我有一个运行Map-ReduceV1的CDH4集群。当我尝试从tarball安装oozieCDh4并按照给出的说明进行配置时https://ccp.cloudera.com/display/CDH4DOC/Oozie+Installation#OozieInstallation-Configuringthehadoopversion在启动服务时,我在日志中收到以下错误INFO:StartingServletEngine:ApacheTomcat/6.0.3211Oct,201211:51:57PMorg.apache.catalina.startup.HostConfigdeployD

hadoop - 在 HDP-1.3.3 上使用 kerberos 的 Oozie 配置单元操作

我正在尝试在启用kerberos的环境中从oozie配置单元操作执行配置单元脚本。这是我的workflow.xml${jobTracker}${nameNode}hive-site.xmlmapred.job.queue.name${queueName}script.qHIVE_EXPORT_TIME=${hiveExportTime}我在尝试连接到HiveMetastore时遇到问题。6870[main]INFOhive.metastore-TryingtoconnecttometastorewithURIthrift://10.0.0.242:9083HeartbeatHeartb

shell - Oozie 电子邮件操作附件

我正在尝试获取一个hdfs位置并将其作为电子邮件附件提供给oozie电子邮件操作。我的hdfs位置只能使用shell操作找到。现在我如何传递我的shell操作的输出,这将是我的oozie电子邮件操作的hdfs路径。这可以使用oozie实现吗?...[COMMA-SEPARATED-TO-ADDRESSES][SUBJECT][BODY][CONTENT-TYPE]**[COMMA-SEPARATED-HDFS-FILE-PATHS]**... 最佳答案 查看我的评论,但对于检查此问题的其他人,答案是:捕获shell操作的输出并将其作

shell - 无法使用 getopts 将选项传递给 oozie shell 操作

我在shell中创建了一个脚本,并在我的脚本中使用getopts方法传递参数,如下所示:shmy_code.sh-F"file_name"其中my_code.sh是我的unix脚本名称,file_name是我使用getopts传递给我的脚本的文件。当我从命令行调用我的脚本时,这工作正常。我想使用oozie调用相同的脚本,但我不确定该怎么做。我尝试将参数传递给xml中的“exec”和“file”标签当我尝试在exec标记中传递参数时,它给出了“JavaNullPoint”预期执行标签my_code.sh-Ffile_name文件标签$/user/oozie/my_code.sh#$my_

hadoop - 无法通过 -kill 命令终止 oozie 作业

我试图像这样杀死oozie协调员工作:$ooziejob-ooziehttp://10.0.3.2:11000/oozie-kill0003288-130913181709024-oozie-oozi-C没有任何错误出现。但是在我检查oozieUI之后,作业仍然存在。我熟练了几个工作,然后在oozie上部署了新的代码更新,开始了新的工作。由于无法杀死旧作业,因此现在Oozie上有许多具有相同项目'RUNNING'的作业。我以前可以杀死工作,但现在不能杀死它。那么,如何强制终止正在运行的作业呢?您知道是什么导致了这一切吗?非常感谢。 最佳答案

hadoop - Oozie 协调器未以指定的频率间隔运行

我定义了一个Oozie协调员工作,如下所示:1${nameNode}/user/${user}/oozie/apps/DFE/queryGenerator-wfnameNode${nameNode}jobTracker${jobTracker}如您所见,我将频率定义为15分钟,并发为1。但是,作业每5分钟运行一次,它会同时启动我的工作流的4个实例,如下面的屏幕截图所示:我不明白为什么会这样,非常感谢您提供一些见解! 最佳答案 在这种情况下,我想您的开始时间是过去-如果您查看物化实例列,您会看到它们之间有15分钟的间隔。OOZIE在开

hadoop - OOZIE 中的多输入路径配置

我正在尝试在oozie中配置Mapreduce作业。此作业有两种不同的输入格式和两个输入数据文件夹。我用了这个帖子Howtoconfigureoozieworkflowformulti-inputpathwithmultiplemappers并将这些属性添加到我的workflow.xml中:mapred.input.dir.formatsfolder/data/*;org.apache.hadoop.mapred.SequenceFileInputFormat\,data/*;org.apache.hadoop.mapred.TextInputFormatmapred.input.di

java - 我们可以在 oozie 决策节点中使用参数吗?

我正在尝试在oozie3.3.2中执行一个决策控制节点,但出现javax.servlet.jsp.el.E​​LException遇到“{”${fs:fileSize(${OutputDir}/000000_0)gt100}我应该如何传递字符串格式的参数,因为上面提到的FS方法需要字符串输入? 最佳答案 来自document看来,您需要通过硬编码,即包含在'中就像在${fs:fileSize('/usr/foo/myinputdir'/1000)gt10}或只是参数名${fs:fileSize(OutputDir/1000)gt10

hadoop - 使用 Oozie for Hadoop 的最佳实践

我使用Hadoop已有一段时间了。一段时间后,我意识到我需要链接Hadoop作业,并拥有某种类型的工作流。我决定使用Oozie,但找不到太多关于最佳实践的信息。我想听听更有经验的人的意见。最好的问候 最佳答案 学习oozie的最好方法是下载发行版附带的示例tar文件并运行它们中的每一个。它有一个mapreduce、pig、流式工作流示例以及示例协调器xml。首先运行正常的工作流,调试后,转为使用协调器运行工作流,以便您可以逐步执行。最后一个最佳实践是使工作流和协调器中的大部分变量可配置并通过component.properties文

hadoop - 我应该永远使用 oozie 运行 MapReduce 任务吗?

我有一个mapReduce任务(https://github.com/flopezluis/testing-hadoop),它读取文件夹中的文件并将它们附加到zip。我需要永远运行这个任务,所以当它完成处理它们时,它应该再次运行。我正在阅读有关oozie的信息,但我不确定它是否最合适,因为它可能对我的问题来说太大了。如果oozie是最好的解决方案。如果我编写一个协调器每10分钟运行一次,如果任务耗时超过10分钟,协调器等待再次运行该任务会怎样?任务说明文件夹总是一样的。有不同的zip文件,一个是关键。这个想法是逐步创建zip文件。我认为这比处理完所有文件后创建zip文件要快。这些文件包