我创建了一个名为TeamMemsImportJob的sqoop作业,它基本上将数据从sqlserver拉入hive。我可以通过运行以下命令通过unix命令行执行sqoop作业:sqoopjob–execTeamMemsImportJob如果我创建一个oozie作业,其中包含实际的scoopimport命令,它可以正常运行。但是,如果我创建oozie作业并通过它运行sqoop作业,我会收到以下错误:ooziejob-configTeamMemsImportJob.properties-run>>>InvokingSqoopcommandlinenow>>>4273[main]WARNor
我正在使用keytab文件绕过kerberos以通过oozie运行shell脚本。Shell脚本包括hbaseshell命令,因此我需要在运行hbaseshell命令之前执行kinit。这对我来说很好。因此,如果我使用协调器启Action业并在使用keytab(服务帐户)的工作流中有多个shell脚本,oozie中是否会发生冲突?因为我使用oozie协调器启Action业但有keytab服务帐户工作流程中的文件。谢谢, 最佳答案 key表文件需要存在于所有hadoop数据节点上。当作为oozie作业/映射任务运行时,您的shell脚
我正在尝试创建一个具有基于文件的依赖项的协调器。我的目标是只有在创建了指定的文件时,协调器才应该执行工作流。如果文件未创建,协调器应等待文件创建。我试过以下代码:hdfs://localhost:9000/tmp/revenue_feed/${YEAR}/${MONTH}/${DAY}/${HOUR}trigger.dat${coord:current(-23)}${coord:current(0)}hdfs://localhost:9000/tmp/workflows我启动了Oozie作业,它处于WAITING状态。我已经执行了将在HDFS的指定目录结构中创建文件(trigger.d
我正在运行一个包含四个子工作流的Oozie作业。出于测试目的,我使用的是ClouderaVM。虽然作业输出很好,但我在Oozie日志中收到以下XException:2015-02-2602:26:58,934警告org.apache.oozie.service.CallableQueueService$CallableWrapper:服务器[quickstart.cloudera]USER[-]GROUP[-]TOKEN[-]APP[-]JOB[-]ACTION[-]异常可调用[回调],E0800:操作未在[PREP]状态下运行,操作[0000003-150226014822163
我正在尝试在HDP集群上运行简单的oozie作业。执行oozie后,job保持Running状态。这是我的Workflow.xml${jobTracker}${nameNode}sqoopimport--connectjdbc:mysql://localhost:3306/test--tabletesting--split-byerr_dt--hive-import--hive-tabletesting-m1hive-site.xmlmysql-connector-java.jarActionfailed以下是正在生成的日志..2015-04-0714:33:32,792INFOAct
在Oozie中创建工作流时,我有一个第一个Java步骤,它生成一个文件,其中包含下一步(map-reduce)所需的文件列表。我如何使用该文件提供该map-reduce作业?我知道我可以勾选java步骤的Captureoutput框,然后在map-reduce步骤中使用mapred.input.dir来使用捕获的输出作为输入。但我想摆脱它。仅作记录,我的文件内容如下:/data/kafka/4/camus/DATA.TRADE.ORDERHISTORY/daily/2015/07/18,/data/kafka/4/camus/DATA.TRADE.ORDERHISTORY/daily/
当我使用oozie运行shell脚本时,我注意到在yarn日志中,“user.name=yarn”,所以它会导致权限问题,当oozie提交作业到yarn时如何将帐户切换到我的hadoop帐户? 最佳答案 我不确定user.name=yarn是什么意思,日志是否反射(reflect)了jobooziejob的用户名???oozieUI或通过在控制台中执行作业信息反射(reflect)了什么。oozie工作-ooziehttp://localhost:8080/oozie-信息14-20090525161321-oozie-乔输出应该是
我写了一个将本地文件复制到HDFS的python脚本。在集群的所有节点中将python版本2.6升级到2.7。安装pydoop-1.0版本并使用CDH5.4如果我在命令行中运行py脚本,它运行良好。当我在oozie中运行时,同样的脚本抛出以下错误。错误:importpydoop.hdfsashdfsImportError:Nomodulenamedpydoop.hdfsFailingOozieLauncher,Mainclass[org.apache.oozie.action.hadoop.ShellMain],exitcode[1]Oozie工作流${jobTracker}${nam
我有多个数据源需要在oozie协调工作流中加以考虑。数据集是不定期生成的,也就是有几天数据可能出不来。例如:data_set1:ds1-1-Sept-1-2015-Dataavailableds1-2-Sept-2-2015-NoDatads1-3-Sept-3-2015-NoDatads1-4-Sept-4-2015-Dataavailableds1-5-Sept-5-2015-Dataavailableds1-6-Sept-6-2015-NoDatads1-7-Sept-7-2015-Dataavailable.Data_set2ds2-1-Sept-1-2015-Dataavai
我有一个oozie工作流,它运行sqoop命令以根据上次更新日期从表中增量加载数据。如何设置--last-value以便我们获取从上次运行作业到现在的记录? 最佳答案 如果您正在将数据导入到配置单元表中,您可以从配置单元表中查询最后更新的值并将该值传递给sqoop导入查询。基于检索逻辑的选择查询的Hive操作最后更新的值。Sqoop操作用于从捕获的输出中增加负载以前的hiveAction。PFBsudo工作流程:${jobTracker}${nameNode}mapred.job.queue.name${queueName}scri