草庐IT

oozie-workflow

全部标签

hadoop - Oozie Job(Cloudera VM)在抛出错误时执行 shell 脚本——错误=2,没有这样的文件或目录

我在尝试执行shell脚本时出现以下错误。如果我在这里做错了,请告诉我。我已将所有文件复制到Hdfs中。Oozie文件夹包含脚本文件夹,我在该文件夹中有sample.sh。Cannotrunprogram"sample.sh"(indirectory"/var/lib/hadoop-yarn/cache/yarn/nm-local-dir/usercache/cloudera/appcache/application_1468541187565_0011/container_1468541187565_0011_01_000002"):error=2,Nosuchfileordirec

shell - 使用 OOZIE 将文件从 HDFS 一个目录移动到 HDFS 中的另一个目录?

我正在尝试将文件从HDFS的一个目录复制到HDFS中的其他目录,借助shell脚本作为oozie作业的一部分,但我无法通过oozie复制它。我们可以使用oozie将文件从HDFS一个目录复制到HDFS中的另一个目录吗?wheniamrunningtheooziejob,iamnotanygettingerror.itisshowingstatusSUCCEEDEDbutfileisnotcopyingtodestinationdirectory.oozie文件如下。测试.sh#!/bin/bashecho"listingfilesinthecurrentdirectory,$PWD"s

hadoop - 如何在全局配置中从 Oozie 设置配置单元属性

我想将配置单元设置命令传递到Oozie脚本中的所有hql调用中。我有很多hql,我想将配置单元参数传递给每个hql。我过去常常在每个hql文件中编写所有设置命令,现在我想保持工作流级别。任何人都可以建议如果我做错了什么。我已经把我的工作流程的一部分。执行作业时,我没有看到配置单元参数未传播,因此作业失败。${jobTracker}${nameNode}hive.exec.paralleltruehive.execution.enginesparkhive.exec.dynamic.partitiontruehive.exec.dynamic.partition.modenonstric

shell - 我如何根据其他工作的成功编写 oozie 工作?

我的场景:我有一个通过shell脚本运行的spark提交,这个spark作业会将7个表从oracle拉到hive。我有一个其他脚本,它将根据从oracle导入的数据生成.dat文件。我的问题是:在oozie中是否有任何机会,如果第一个作业成功,只有第二个作业应该运行。如果您对问题有任何疑问,请提出。提前致谢 最佳答案 您可以在Oozie中构建依赖项。请在下面找到伪代码:......${EXEC}AB${EXEC}#${EXEC}... 关于shell-我如何根据其他工作的成功编写oozi

hadoop - 用于 sqoop 导入的 Oozie 工作流在 Amazon emr hue 中失败

我创建了一个oozie工作流来执行从mysql到hive系统的sqoop导入。我用于创建sqoop作业的Sqoop作业成功运行,但是当我尝试执行作业以从MySQL导入Hive时,它​​失败了。这里我附上了日志sqoop--hive-import(失败的sqoop操作所做的)分两步发生。首先将sqoop导入到HDFS目录(我的xml中引用了targetDir)。然后将此sqoop导入的输出移动并导入到Hive中。当我通过oozie运行我的sqoop作业时,我在targetDir中看到一个_SUCCESS文件,表明sqoop导入成功。只有后期(第2步)失败了。我以hue用户身份运行Oozi

hadoop - 每天重新运行 oozie 工作流

我有一个Oozie协调器,它在启动时将其开始时间设置为365天前,然后以每天的频率运行其工作流,直到到达具有输入数据的最新日期。所以coordinator.xml看起来像这样:-130FIFO${outputPath}/${YEAR}${MONTH}${DAY}${coord:current(-1)}${appPath}myInput${coord:dataIn('myInput')}date${coord:formatTime(coord:dateOffset(coord:nominalTime(),-1,'DAY'),'yyyyMMdd')}启动时,此协调器会触发365工作流。然后

xml - 当aws S3中存在成功文件时如何触发oozie作业

我正在使用oozie执行HDFS数据传输操作,要求是只要awsS3存储桶中有可用数据就触发oozie工作流作业。我正在考虑在我的S3存储桶中保留一个成功文件和数据文件,但我不确定如何让oozie协调器定期从S3读取以检查成功文件是否可用。如果有人可以提供相同的示例coordinator.xml,那就太好了。 最佳答案 你能试试下面的吗:-s3n://mybucket/a/b/${YEAR}/${MONTH}/${DAY}${coord:current(0)}fileDirectory${coord:dataIn('coorddata

hadoop - oozie REST api POST 新配置单元作业获取 "This request requires HTTP authentication."

我正在使用RESTapi将HIVE作业提交给oozie。我尝试使用postman和curl发送请求,但收到一条错误消息:“此请求需要HTTP身份验证。”我尝试在我的Clouderaquickstart和Hortonworks上运行它,但遇到了同样的错误。config.xml是:fs.default.namehdfs://localhost:8020mapred.job.trackerlocalhost:8021user.nameclouderaoozie.hive.scriptselect*fromtest;oozie.libpathhdfs://localhost:8020/user

hadoop - 无法在 HDP 2.5.0 中对 Oozie 运行 Spark 操作(java.lang.IllegalArgumentException : Invalid ContainerId)

我正在尝试运行一个简单的sparkJava应用程序。我可以在我们的集群中通过spark提交来运行应用程序我的job.properties文件如下:nameNode=hdfs://auper01-01-20-01-0.prod.vroc.com.au:8020jobTracker=auper01-02-10-01-0.prod.vroc.com.au:8050master=yarn-clusterqueueName=default#examplesRoot=examplesoozie.use.system.libpath=trueoozie.wf.application.path=${n

hadoop - 无法找到 oozie 作业的尝试日志飞行位置(stderr 和 stdout)

我正在从事一个项目,该项目需要使用任何oozie工作流和YARN中的任何作业的所有日志。我能够在hdfstmp/logs中找到yarn日志,并通过其API找到一些oozie日志文件,但我无法找到Mapreduce作业的尝试日志文件https://i.imgur.com/KL0HhVT.png你们知道这些文件保存在哪里吗?谢谢!我已经搜索过oozieapi,在它的服务器和hdfs的tmp/logs中,它似乎不在那里。 最佳答案 您可以通过两种方式获取整个YARN应用程序日志。通过YARNURL>应用程序>搜索感兴趣的应用程序ID>单击