OOZIE

mysql - 使用 Oozie 永远运行的 Sqoop 作业

我们有两个节点的hadoopyarn集群，它是hadoop2.2，在其上我们使用oozie在单个工作流中安排了两个操作，第一个操作是pythonmap-reduce流操作，第二个是sqoopexport作业，它实际上是将map-reduce流操作的输出传输到mysql数据库。流式操作成功执行，导致sqoop作业启动，并一直运行。stdout结果如下。Sqoopcommandarguments:export--connectjdbc:mysql://localhost/database--usernameroot--passwordroot--tabletableName--direct

mysql Oozie gt lt sqoop hadoop scheduling

hadoop - 如何找出用于 oozie 作业的映射器和缩减器的数量？

我有一组并行运行的oozie作业，有没有办法找到特定oozie作业使用的映射器和缩减器的总数？谢谢最佳答案您可以检查您的mapred-site.xmlmapreduce.job.reduces和mapreduce.job.maps属性。如果您没有看到，则将使用mapred-default.xml中此属性的默认值。如果在mapred-site.xml中找不到，您可以设置这些属性关于hadoop-如何找出用于oozie作业的映射器和缩减器的数量？，我们在StackOverflow上找到

射器缩减 section hadoop hdfs oozie

hadoop - 如何在 Oozie 中使用 MapReduceIndexerTool 包含自定义命令？

我想创建一个使用MapReduceIndexerTool的Oozie工作流获取我的数据并为其编制索引。我已经设法使用Shell操作让它工作，它调用我的脚本来执行以下命令:hadoopjar/opt/cloudera/parcels/CDH/lib/solr/contrib/mr/search-mr-*-job.jar\org.apache.solr.hadoop.MapReduceIndexerTool\-D'mapred.child.java.opts=-Xmx500m'\--morphline-filemorphline.conf\--output-dirhdfs://cloude

自定 MapReduceIndexerTool cloudera section hadoop solr oozie hadoop-yarn

java - Linux 中的 Oozie 4.0.1 构建错误

尝试在linux中为hadoop2构建oozie。[INFO]ApacheOozieExamples.............................SUCCESS[3.476s][INFO]ApacheOozieShareLib............................SUCCESS[7.252s][INFO]ApacheOozieTools................................FAILURE[5.003s][INFO]ApacheOozieMiniOozie............................SKIPPED[INF

Linux Oozie INFO section java apache maven hadoop

date - Oozie 协调员开始日期设置为实际日期

有没有办法将协调员的开始日期设置为实际日期？每次我想运行我的协调器时，我都必须手动设置协调器作业的开始日期:我想使用某种变量，将这个日期设置为我运行协调器的日期:如何设置系统日期的实际时间？我试过使用EL函数timestamp()但它不起作用或者我用错了。也许有办法在.properties文件中设置任何变量？最佳答案一个想法是通过命令行将sysdate从shell脚本传递到协调器作业。查看类似问题的答案是否适合您:Ooziecoordinatorwithsysdateasstarttime

协调员 Oozie 协调器 34 section date hadoop oozie-coordinator

hadoop - Oozie 无法在 Sqoop 中找到 JDBC 驱动程序

引用之前问的问题Oozie+Sqoop:JDBCDriverJarLocation1但无法在HDFS/user/oozie/share/lib/sqoop位置找到jar。我还尝试将驱动程序jar放在我的workFlow应用程序库中。仍未找到驱动程序错误发生。最佳答案您需要在sqoop文件夹内的oozie共享lib文件夹中添加所有lib文件，如jdbc驱动程序等。这应该可以解决您的问题。要检查作业调用/使用的库文件，请转到相应作业的作业跟踪器，在系统日志中您将看到哪些所有jars已被使用。

驱动 hadoop section 跟踪器 sqoop oozie sqoop2

hadoop - oozie 协调员作业未在给定的开始时间开始

我正在使用oozie协调器来安排我的hadoop作业。我给出的开始时间是12:26，但它会在8-9小时后开始，并根据我在作业属性文件中给出的频率完成所有剩余的作业。为什么这8小时停止了，它仍然使用我在job.properties中给出的开始时间完成剩余的工作？nameNode=hdfs://localhost:8020jobTracker=localhost:8021queueName=defaultoozie.libpath=${nameNode}/user/oozie/share/liboozie.use.system.libpath=trueoozie.wf.rerun.fail

协调员给定 section oozie nameNode hadoop oozie-coordinator

hadoop - 是否可以在工作流 oozie 中使用两个 "job.properties"文件？

我的工作流需要使用除job.properties之外的另一个文件。该文件与属性文件具有相同的结构。我有一个创建此文件的结果路径生成器。这个的特殊性在于，每次启动工作流(使用新的输入文件)时它都会发生变化。在我的工作流程中，我需要在执行myspig脚本之前删除这些路径。但是，我不知道如何“告诉”我的工作流我在另一个文件中有其他变量而不是job.properties。你有解决办法吗？谢谢安琪儿最佳答案您可以删除PigitSelf中的路径，或者您可以在执行Pig操作之前在工作流中调用fs操作，两者都可以。Pig在文件开头提到rmf命令

properties amp section 34 gt hadoop workflow oozie properties-file

hadoop - 对于 oozie，如何使用 hadoop 1.3 让用户 jar 优先于 hadoop jar

我正在使用hadoop1.3和oozie。我的java操作引用了一个方法commons-collection1.7。这在以前的版本中不存在。该jar是一个包含所有类的胖jar，我将其放在工作流程下的lib文件夹中。OOzie在启动时我的提交操作引用了类路径上的旧hadoopjar，而不是给予用户jar优先级。有什么办法可以优先考虑用户jar吗？oozie.launcher.mapreduce.task.classpath.user.precedence=true将不起作用，因为这是hadoop1.3而不是hadoop2。最佳答案

hadoop 先于 section jar oozie

hadoop - 如何使用 oozie 启动 N 次脚本 Pig？

我需要处理大量具有特定日期的文件。我只找到一个解决方案，即每次使用不同的数据集启动N次作业。使用的分区基于yyyy、mm、dd。我有一个java操作，它生成用于每个数据的良好分区。我的问题是，如何创建一个循环来启动我的脚本N次？我今天使用oozie工作流。谢谢最佳答案这听起来像是coordinators的用例.可以声明Datasets并让oozie在特定数据集实例可用时自动启动工作流。关于hadoop-如何使用oozie启动N次脚本Pig？，我们在StackOverflow上找到一

hadoop oozie section noreferrer workflow apache-pig

16 17 181920 21 22