草庐IT

oozie-setup

全部标签

hadoop - 关于Oozie/Sqoop的问题

我有几个问题:1.WhyisthereMapReduceprocessinSqooptoloaddatafromHDFStoMySQL?例如数据在目录中的HDFS中:/foo/barMySQLbar表加载数据,为什么会有MapReduce进程?sqoopexport--connectjdbc:mysql://localhost/hduser--tablefoo-m1--export-dir/foo/bar输入上述命令后,MapReduce进程开始执行。2.HowcanIenable/disablekeyinMySQLusingSqoop/Oozie?由于大量数据正在加载到MySQL,我

hadoop - 修改oozie代码

我想修改Oozie代码以在Hadoop中引入新的调度模式。我是Oozie的新手。我读到有一个名为workflow.xml的文件,其中包含要由Hadoop执行的操作。我想为工作引入一个新字段,比如JOB_TYPE。例如,如果一个作业属于TYPE_1,那么它应该被复制到所有的工作节点中。如果一个作业属于TYPE_2,那么它应该只在一小部分节点中被复制。是否可以修改解析workflow.xml的Oozie解析器?请帮忙 最佳答案 Oozie可用于调度任务,但实际上并没有用于问题中指定的目的。Oozie并不知道Hadoop的集群结构。Ooz

hadoop - 缩短 Oozie 工作流程

我正在使用Oozie将一组MapReduce作业串在一起。由于需要大量属性,每个作业的单个stub大约有400行长。大多数这些属性在作业之间是相同的,并使用config-default.xml中的配置集。我希望能够缩短每个stub并集中公共(public)属性,因为在创建新作业时必须弄清楚哪些属性是公共(public)的变得非常不切实际。显而易见的解决方案是通过将公共(public)属性放在一个job.xml文件中来缩短我的工作流程,该文件在每个带有job-xml标记的stub中调用。但是,job.xml似乎没有读取config-default.xml,因此变量没有在job.xml中解

maven - 奥齐 : Could not resolve dependencies for project org. Apache .奥齐 :oozie-sharelib-oozie:jar:4. 0.1

我在尝试构建oozie时遇到错误。Hadoop版本:Hadoop2.4.0JDK:1.8我使用这个命令来运行oozie:./mkdistro.sh-DskipTests运行上面的代码会出现以下错误:我不确定发生了什么问题。[INFO]ReactorSummary:[INFO][INFO]ApacheOozieMain.................................SUCCESS[3.519s][INFO]ApacheOozieClient...............................SUCCESS[1:27.702s][INFO]ApacheOozie

hadoop - 通过 oozie 进行 Sqoop 作业

我创建了一个名为TeamMemsImportJob的sqoop作业,它基本上将数据从sqlserver拉入hive。我可以通过运行以下命令通过unix命令行执行sqoop作业:sqoopjob–execTeamMemsImportJob如果我创建一个oozie作业,其中包含实际的scoopimport命令,它可以正常运行。但是,如果我创建oozie作业并通过它运行sqoop作业,我会收到以下错误:ooziejob-configTeamMemsImportJob.properties-run>>>InvokingSqoopcommandlinenow>>>4273[main]WARNor

hadoop - 使用 keytab 提交 oozie 作业

我正在使用keytab文件绕过kerberos以通过oozie运行shell脚本。Shell脚本包括hbaseshell命令,因此我需要在运行hbaseshell命令之前执行kinit。这对我来说很好。因此,如果我使用协调器启Action业并在使用keytab(服务帐户)的工作流中有多个shell脚本,oozie中是否会发生冲突?因为我使用oozie协调器启Action业但有keytab服务帐户工作流程中的文件。谢谢, 最佳答案 key表文件需要存在于所有hadoop数据节点上。当作为oozie作业/映射任务运行时,您的shell脚

hadoop - 基于 Oozie 文件的协调器

我正在尝试创建一个具有基于文件的依赖项的协调器。我的目标是只有在创建了指定的文件时,协调器才应该执行工作流。如果文件未创建,协调器应等待文件创建。我试过以下代码:hdfs://localhost:9000/tmp/revenue_feed/${YEAR}/${MONTH}/${DAY}/${HOUR}trigger.dat${coord:current(-23)}${coord:current(0)}hdfs://localhost:9000/tmp/workflows我启动了Oozie作业,它处于WAITING状态。我已经执行了将在HDFS的指定目录结构中创建文件(trigger.d

hadoop - 在 Oozie 日志中获取 E0800

我正在运行一个包含四个子工​​作流的Oozie作业。出于测试目的,我使用的是ClouderaVM。虽然作业输出很好,但我在Oozie日志中收到以下XException:2015-02-2602:26:58,934警告org.apache.oozie.service.CallableQueueService$CallableWrapper:服务器[quickstart.cloudera]USER[-]GROUP[-]TOKEN[-]APP[-]JOB[-]ACTION[-]异常可调用[回调],E0800:操作未在[PREP]状态下运行,操作[0000003-150226014822163

shell - Oozie Job 仍处于 RUNNING 状态

我正在尝试在HDP集群上运行简单的oozie作业。执行oozie后,job保持Running状态。这是我的Workflow.xml${jobTracker}${nameNode}sqoopimport--connectjdbc:mysql://localhost:3306/test--tabletesting--split-byerr_dt--hive-import--hive-tabletesting-m1hive-site.xmlmysql-connector-java.jarActionfailed以下是正在生成的日志..2015-04-0714:33:32,792INFOAct

hadoop - Oozie 中的 MapReduce 作业可以从文件中读取吗?

在Oozie中创建工作流时,我有一个第一个Java步骤,它生成一个文件,其中包含下一步(map-reduce)所需的文件列表。我如何使用该文件提供该map-reduce作业?我知道我可以勾选java步骤的Captureoutput框,然后在map-reduce步骤中使用mapred.input.dir来使用捕获的输出作为输入。但我想摆脱它。仅作记录,我的文件内容如下:/data/kafka/4/camus/DATA.TRADE.ORDERHISTORY/daily/2015/07/18,/data/kafka/4/camus/DATA.TRADE.ORDERHISTORY/daily/