草庐IT

oozie-anth-W

全部标签

hadoop - Oozie 无法在 Sqoop 中找到 JDBC 驱动程序

引用之前问的问题Oozie+Sqoop:JDBCDriverJarLocation1但无法在HDFS/user/oozie/share/lib/sqoop位置找到jar。我还尝试将驱动程序jar放在我的workFlow应用程序库中。仍未找到驱动程序错误发生。 最佳答案 您需要在sqoop文件夹内的oozie共享lib文件夹中添加所有lib文件,如jdbc驱动程序等。这应该可以解决您的问题。要检查作业调用/使用的库文件,请转到相应作业的作业跟踪器,在系统日志中您将看到哪些所有jars已被使用。

hadoop - oozie 协调员作业未在给定的开始时间开始

我正在使用oozie协调器来安排我的hadoop作业。我给出的开始时间是12:26,但它会在8-9小时后开始,并根据我在作业属性文件中给出的频率完成所有剩余的作业。为什么这8小时停止了,它仍然使用我在job.properties中给出的开始时间完成剩余的工作?nameNode=hdfs://localhost:8020jobTracker=localhost:8021queueName=defaultoozie.libpath=${nameNode}/user/oozie/share/liboozie.use.system.libpath=trueoozie.wf.rerun.fail

hadoop - 是否可以在工作流 oozie 中使用两个 "job.properties"文件?

我的工作流需要使用除job.properties之外的另一个文件。该文件与属性文件具有相同的结构。我有一个创建此文件的结果路径生成器。这个的特殊性在于,每次启动工作流(使用新的输入文件)时它都会发生变化。在我的工作流程中,我需要在执行myspig脚本之前删除这些路径。但是,我不知道如何“告诉”我的工作流我在另一个文件中有其他变量而不是job.properties。你有解决办法吗?谢谢安琪儿 最佳答案 您可以删除PigitSelf中的路径,或者您可以在执行Pig操作之前在工作流中调用fs操作,两者都可以。Pig在文件开头提到rmf命令

hadoop - 对于 oozie,如何使用 hadoop 1.3 让用户 jar 优先于 hadoop jar

我正在使用hadoop1.3和oozie。我的java操作引用了一个方法commons-collection1.7。这在以前的版本中不存在。该jar是一个包含所有类的胖jar,我将其放在工作流程下的lib文件夹中。OOzie在启动时我的提交操作引用了类路径上的旧hadoopjar,而不是给予用户jar优先级。有什么办法可以优先考虑用户jar吗?oozie.launcher.mapreduce.task.classpath.user.precedence=true将不起作用,因为这是hadoop1.3而不是hadoop2。 最佳答案

hadoop - 如何使用 oozie 启动 N 次脚本 Pig?

我需要处理大量具有特定日期的文件。我只找到一个解决方案,即每次使用不同的数据集启动N次作业。使用的分区基于yyyy、mm、dd。我有一个java操作,它生成用于每个数据的良好分区。我的问题是,如何创建一个循环来启动我的脚本N次?我今天使用oozie工作流。谢谢 最佳答案 这听起来像是coordinators的用例.可以声明Datasets并让oozie在特定数据集实例可用时自动启动工作流。 关于hadoop-如何使用oozie启动N次脚本Pig?,我们在StackOverflow上找到一

security - oozie怎么知道我是谁?

当我运行oozie作业时,它会被提交给某种oozie协调器,稍后作业会以我自己的身份运行(或者在我将作业提交给oozie的linux帐户下运行)。我猜oozie可以使用安全模拟(https://hadoop.apache.org/docs/r1.2.1/Secure_Impersonation.html)来模拟我,但是当在命令行上提交作业时,告诉oozie“提交此作业的用户是XXX”的机制是什么?该机制有多安全?oozie会阻止用户尝试提交作业,就好像他们是另一个用户一样吗?谢谢 最佳答案 具体配置的时候会在oozie-site.x

hadoop - 如何在 Hue v3.7 中导出 Oozie 协调器?

我想知道如何在Hue3.7中导出协调器,因为我认为在该版本中还无法通过UI导出。在Hue节点上是否有存储这些的地方,或者对配置进行一些手动练习?我需要导出一些用于备份/迁移目的。谢谢 最佳答案 3.7只有在数据库级别移动Hue表数据才有可能:http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/cdh_ig_hue_database.html3.8使用Hue命令使其在CLI上更简单:http://gethue.com/export-a

hadoop - 如何通过集群中的oozie工作流将文本文件加载到hdfs

我正在尝试使用oozie在配置单元脚本中加载文本/csv文件并每天安排它。文本文件在本地unix文件系统中。在oozie工作流中执行配置单元脚本之前,我需要将这些文本文件放入hdfs。在实时集群中,我们不知道作业将在哪个节点上运行。它会在集群中的任何一个节点上随机运行。谁能给我解决方案提前致谢。 最佳答案 不确定我明白你想做什么。在我看来,它行不通:Oozie服务器只能访问HDFS文件(与Hive相同)您的数据在某处的本地文件系统上那么为什么不事先将文件加载到HDFS中呢?可以在文件可用时(上游作业中的后处理操作)或在固定时间(使用

hadoop - 在 Oozie 中,如何将查询的输出重定向到文件?

在Oozie中,我在Hue中使用了HiveAction。我想将查询的输出重定向到一个文件。我怎样才能生成这些文件?我的HQL是:从空的中选择*其中day>=${fromdate}和day我的HiveServer操作包含:一种。脚本b.每个日期都有两个参数选项,例如fromdate=,todate=C。添加了文件hive-site.xml。我的问题是如何将查询的输出重定向到文件 最佳答案 您需要执行不推荐的Shell操作,更好的解决方案可能是执行一个INSERTOVERWRITEDIRECTORY'/path'SELECT*FROMT

hadoop - Oozie工作流中Hive action执行参数设置

我正在使用HiveAction通过Oozie执行查询。我将TEZ和MR设置为查询的执行引擎。如何设置最大可能数量的reducer以执行查询?目前,我正在使用mapred.reduce.tasks但它需要一个静态数字。真正的问题是,当我在hiveCLI上执行相同的查询时,Hive选择的reducer数量是最优的,而不是1;那么我的Oozie作业缺少什么设置,它为所有查询选择1个reducer? 最佳答案 通常控制Hive查询的reducer数量的理想方法是使用hive.exec.reducers.bytes.per.reducer属性