OOZIE_草庐IT

hadoop - 通过 oozie 进行 Sqoop 作业

我创建了一个名为TeamMemsImportJob的sqoop作业，它基本上将数据从sqlserver拉入hive。我可以通过运行以下命令通过unix命令行执行sqoop作业:sqoopjob–execTeamMemsImportJob如果我创建一个oozie作业，其中包含实际的scoopimport命令，它可以正常运行。但是，如果我创建oozie作业并通过它运行sqoop作业，我会收到以下错误:ooziejob-configTeamMemsImportJob.properties-run>>>InvokingSqoopcommandlinenow>>>4273[main]WARNor

hadoop - 使用 keytab 提交 oozie 作业

我正在使用keytab文件绕过kerberos以通过oozie运行shell脚本。Shell脚本包括hbaseshell命令，因此我需要在运行hbaseshell命令之前执行kinit。这对我来说很好。因此，如果我使用协调器启Action业并在使用keytab(服务帐户)的工作流中有多个shell脚本，oozie中是否会发生冲突？因为我使用oozie协调器启Action业但有keytab服务帐户工作流程中的文件。谢谢，最佳答案 key表文件需要存在于所有hadoop数据节点上。当作为oozie作业/映射任务运行时，您的shell脚

hadoop keytab section 协调器 hbase kerberos oozie

hadoop - 基于 Oozie 文件的协调器

我正在尝试创建一个具有基于文件的依赖项的协调器。我的目标是只有在创建了指定的文件时，协调器才应该执行工作流。如果文件未创建，协调器应等待文件创建。我试过以下代码:hdfs://localhost:9000/tmp/revenue_feed/${YEAR}/${MONTH}/${DAY}/${HOUR}trigger.dat${coord:current(-23)}${coord:current(0)}hdfs://localhost:9000/tmp/workflows我启动了Oozie作业，它处于WAITING状态。我已经执行了将在HDFS的指定目录结构中创建文件(trigger.d

协调器 hadoop lt gt 34 oozie oozie-coordinator

hadoop - 在 Oozie 日志中获取 E0800

我正在运行一个包含四个子工作流的Oozie作业。出于测试目的，我使用的是ClouderaVM。虽然作业输出很好，但我在Oozie日志中收到以下XException:2015-02-2602:26:58,934警告org.apache.oozie.service.CallableQueueService$CallableWrapper:服务器[quickstart.cloudera]USER[-]GROUP[-]TOKEN[-]APP[-]JOB[-]ACTION[-]异常可调用[回调]，E0800:操作未在[PREP]状态下运行，操作[0000003-150226014822163

hadoop Oozie section midso-chat-data-Decrypt bigdata cloudera

shell - Oozie Job 仍处于 RUNNING 状态

我正在尝试在HDP集群上运行简单的oozie作业。执行oozie后，job保持Running状态。这是我的Workflow.xml${jobTracker}${nameNode}sqoopimport--connectjdbc:mysql://localhost:3306/test--tabletesting--split-byerr_dt--hive-import--hive-tabletesting-m1hive-site.xmlmysql-connector-java.jarActionfailed以下是正在生成的日志..2015-04-0714:33:32,792INFOAct

处于 RUNNING oozie 150407125731126 oozie-oozi-W shell hadoop hive sqoop

hadoop - Oozie 中的 MapReduce 作业可以从文件中读取吗？

在Oozie中创建工作流时，我有一个第一个Java步骤，它生成一个文件，其中包含下一步(map-reduce)所需的文件列表。我如何使用该文件提供该map-reduce作业？我知道我可以勾选java步骤的Captureoutput框，然后在map-reduce步骤中使用mapred.input.dir来使用捕获的输出作为输入。但我想摆脱它。仅作记录，我的文件内容如下:/data/kafka/4/camus/DATA.TRADE.ORDERHISTORY/daily/2015/07/18,/data/kafka/4/camus/DATA.TRADE.ORDERHISTORY/daily/

MapReduce hadoop ORDERHISTORY TRADE daily oozie

hadoop - oozie向hadoop提交作业时如何更改用户帐户

当我使用oozie运行shell脚本时，我注意到在yarn日志中，“user.name=yarn”，所以它会导致权限问题，当oozie提交作业到yarn时如何将帐户切换到我的hadoop帐户？最佳答案我不确定user.name=yarn是什么意思，日志是否反射(reflect)了jobooziejob的用户名？？？oozieUI或通过在控制台中执行作业信息反射(reflect)了什么。oozie工作-ooziehttp://localhost:8080/oozie-信息14-20090525161321-oozie-乔输出应该是

hadoop oozie section gt hadoop-yarn

python-2.7 - Oozie python 工作流中的 ImportError : No module named pydoop. hdfs

我写了一个将本地文件复制到HDFS的python脚本。在集群的所有节点中将python版本2.6升级到2.7。安装pydoop-1.0版本并使用CDH5.4如果我在命令行中运行py脚本，它运行良好。当我在oozie中运行时，同样的脚本抛出以下错误。错误:importpydoop.hdfsashdfsImportError:Nomodulenamedpydoop.hdfsFailingOozieLauncher,Mainclass[org.apache.oozie.action.hadoop.ShellMain],exitcode[1]Oozie工作流${jobTracker}${nam

python ImportError gt lt argument python-2.7 hadoop oozie cloudera-cdh

hadoop - 用Oozie coordinator处理不规则的定时数据

我有多个数据源需要在oozie协调工作流中加以考虑。数据集是不定期生成的，也就是有几天数据可能出不来。例如:data_set1:ds1-1-Sept-1-2015-Dataavailableds1-2-Sept-2-2015-NoDatads1-3-Sept-3-2015-NoDatads1-4-Sept-4-2015-Dataavailableds1-5-Sept-5-2015-Dataavailableds1-6-Sept-6-2015-NoDatads1-7-Sept-7-2015-Dataavailable.Data_set2ds2-1-Sept-1-2015-Dataavai

不规则 coordinator available Sept 2015 hadoop oozie-coordinator

hadoop - 将 oozie 作业上次运行日期传播到最后一个值

我有一个oozie工作流，它运行sqoop命令以根据上次更新日期从表中增量加载数据。如何设置--last-value以便我们获取从上次运行作业到现在的记录？最佳答案如果您正在将数据导入到配置单元表中，您可以从配置单元表中查询最后更新的值并将该值传递给sqoop导入查询。基于检索逻辑的选择查询的Hive操作最后更新的值。Sqoop操作用于从捕获的输出中增加负载以前的hiveAction。PFBsudo工作流程:${jobTracker}${nameNode}mapred.job.queue.name${queueName}scri

hadoop oozie gt lt 34 sqoop