草庐IT

hadoop - 如何使用多个映射器为多输入路径配置 oozie 工作流

任何人都可以帮助我使用Map-Reduce操作配置工作流程,它采用多个输入路径,每个输入路径都与一个映射器相关联,就像MultipleInputs.addInputPathapi采用输入路径和映射器一样。这些映射器的输出将提供给reducer。我用javaAction试过了,但它只会执行一个maptask。但是这里的输入路径包含大量数据,所以在这种情况下不会使用java操作。有什么办法可以处理这种情况吗?问候,克里什。 最佳答案 在工作流程中,您可以在mapred.input.dir中提供逗号分隔的输入目录列表。这将使这些目录中的文

hadoop - 如何从 Oozie 工作流将参数传递给 Hadoop ToolRunner(或任何 MapReduce Action)

从命令行,可以按如下方式将参数传递给ToolRunner:hadoopjarmyJar.jarcom.Main-Dprop1=prop1value-Dprop2=prop2value我想调用我的MapReduce作业作为来自Oozie的MapReduce操作的一部分。我尝试按如下方式在工作流中定义属性:param1HelloWorld编辑这就是我尝试从我的MapReduce作业中读取参数的方式:Jobjob=newJob();Configurationconf=job.getConfiguration();System.out.println(conf.get("param1"));但

hadoop - cloudera 中的默认 Oozie 选项

我正在使用最新的Clouderacdh4。默认情况下oozie的所有默认参数都在/etc/oozie/conf/oozie-default.xml我已将oozie.service.CoordMaterializeTriggerService.lookup.interval更改为30:oozie.service.CoordMaterializeTriggerService.lookup.interval30下一个群集已重新启动。但是在oozie配置的HueUI中,我看到了oozie.service.CoordMaterializeTriggerService.lookup.interva

hadoop - oozie 是否在 I/O 方面提供任何性能优化?

既然oozie是Hadoop平台的工作流引擎,它是否提高了MapReduce作业的DAG依赖的执行性能?我的意思是,由于一个MapReduce作业的输出作为DAG中下一个MapReduce作业的输入,oozie是否提供任何机制将中间结果存储在内存中,从而节省I/O。或者它只是一个工作流管理器,协调一系列依赖的MapReduce?想知道oozie的内部工作原理吗? 最佳答案 它只是一个工作流管理器。它不会改变MapReduce的工作方式,即使它运行M/R作业。你所描述的更像是ApacheSpark做。我还不知道Oozie是否直接与Sp

java - 如何使用 Oozie 运行 MapReduce ToolRunner 作业?

我开发了一个使用ToolRunner的MapReduce应用程序。基于用户传递的参数和配置属性,应用程序以某种方式设置作业:选择特定的输入/输出格式,选择映射器和缩减器类等。此逻辑在run(我的主类中的String[]args)方法,它实现了Configured和Tool。Oozie支持MapReduce操作节点,但问题是我不能将它们用于我的自定义ToolRunner应用程序。MapReduce操作仅允许通过配置输入/输出格式、mapper/reducer类和键/值类来定义静态作业。我的应用程序基于更高级别的业务逻辑动态执行此操作。该操作应该能够执行类似于此命令行的操作:hadoopj

shell - oozie 工作流 shellAction

我正在尝试使用包含以下命令的shell脚本在oozie工作流中运行shell操作:.#!/bin/bashhadoopfs-mkdir/user/mathon_k/shell_dir.#echo"hello"我收到以下错误:Mainclass[org.apache.oozie.action.hadoop.ShellMain],exitcode[1]日志2014-03-2815:11:31,951INFOorg.apache.oozie.command.wf.ActionStartXCommand:USER[mathon_k]GROUP[-]TOKEN[]APP[oo_20140328]

hadoop - 关于Oozie/Sqoop的问题

我有几个问题:1.WhyisthereMapReduceprocessinSqooptoloaddatafromHDFStoMySQL?例如数据在目录中的HDFS中:/foo/barMySQLbar表加载数据,为什么会有MapReduce进程?sqoopexport--connectjdbc:mysql://localhost/hduser--tablefoo-m1--export-dir/foo/bar输入上述命令后,MapReduce进程开始执行。2.HowcanIenable/disablekeyinMySQLusingSqoop/Oozie?由于大量数据正在加载到MySQL,我

hadoop - 修改oozie代码

我想修改Oozie代码以在Hadoop中引入新的调度模式。我是Oozie的新手。我读到有一个名为workflow.xml的文件,其中包含要由Hadoop执行的操作。我想为工作引入一个新字段,比如JOB_TYPE。例如,如果一个作业属于TYPE_1,那么它应该被复制到所有的工作节点中。如果一个作业属于TYPE_2,那么它应该只在一小部分节点中被复制。是否可以修改解析workflow.xml的Oozie解析器?请帮忙 最佳答案 Oozie可用于调度任务,但实际上并没有用于问题中指定的目的。Oozie并不知道Hadoop的集群结构。Ooz

hadoop - 缩短 Oozie 工作流程

我正在使用Oozie将一组MapReduce作业串在一起。由于需要大量属性,每个作业的单个stub大约有400行长。大多数这些属性在作业之间是相同的,并使用config-default.xml中的配置集。我希望能够缩短每个stub并集中公共(public)属性,因为在创建新作业时必须弄清楚哪些属性是公共(public)的变得非常不切实际。显而易见的解决方案是通过将公共(public)属性放在一个job.xml文件中来缩短我的工作流程,该文件在每个带有job-xml标记的stub中调用。但是,job.xml似乎没有读取config-default.xml,因此变量没有在job.xml中解

maven - 奥齐 : Could not resolve dependencies for project org. Apache .奥齐 :oozie-sharelib-oozie:jar:4. 0.1

我在尝试构建oozie时遇到错误。Hadoop版本:Hadoop2.4.0JDK:1.8我使用这个命令来运行oozie:./mkdistro.sh-DskipTests运行上面的代码会出现以下错误:我不确定发生了什么问题。[INFO]ReactorSummary:[INFO][INFO]ApacheOozieMain.................................SUCCESS[3.519s][INFO]ApacheOozieClient...............................SUCCESS[1:27.702s][INFO]ApacheOozie