草庐IT

hadoop - 外部客户端如何通过 HTTP 回调通知 Oozie 工作流

假设我们有一个Oozie工作流以3个Java操作节点启动的情况。每个Java操作都会对Oozie/Hadoop集群之外的外部Web服务(例如google.com、yahoo.com等公开的某些Web服务)进行异步HTTP调用。我认为这是可行的,因为Oozie支持自定义操作节点。现在,我不想让Oozie不时轮询外部Web服务来检查工作是否在外部Web服务中完成。我想让外部Web服务(让我们假设我们可以自由修改)回调Oozie以通知Oozie外部Web服务的工作已完成,并进一步将一些信息传递回Oozie,让Oozie决定后续操作采取。有维基,比如这个http://www.infoq.com

hadoop - 奥齐 : How to use oozie coodinator properties in corresponding workflow?

我有一个oozie作业作为调用worflow的协调器运行,在协调器中有一些使用协调器EL函数的配置属性,就像这样-${oozieAppDir}/copyLogs.wf.xmlfilename3${coord:formatTime(coord:dateOffset(coord:nominalTime(),-3,'HOUR'),'MM')}-${coord:formatTime(coord:dateOffset(coord:nominalTime(),-3,'HOUR'),'dd')}-${coord:formatTime(coord:dateOffset(coord:nominalTim

hadoop - Oozie Launcher 失败,主类 [org.apache.oozie.action.hadoop.MapReduceMain],main() 抛出异常,未在 JobConf 中设置输出目录

我正在尝试在hue中执行mapreduce作业。我收到以下错误:FailingOozieLauncher,Mainclass[org.apache.oozie.action.hadoop.MapReduceMain],main()threwexception,OutputdirectorynotsetinJobConf.org.apache.hadoop.mapred.InvalidJobConfException:OutputdirectorynotsetinJobConf.atorg.apache.hadoop.mapred.FileOutputFormat.checkOutput

hadoop - 使用 zkcli.sh bash 通过 oozie shell 操作将 solr 配置从 hdfs 发送到 zookeeper

每次我尝试将solr配置发送给zookeeper时,我都会在下面遇到异常。作为confdir,我输入了这个地址:“hdfs://some_address/user/Peter/dir_with_date”。在bash脚本后面的jars中实现时,我看到有一个Paths.get方法,它将我的带有配置的字符串转换为没有双斜杠的字符串(“hdfs:/some_ad...”)。Exceptioninthread"main"java.io.IOException:Pathhdfs:/some_address/user/Peter/dir_with_datedoesnotexistatorg.apa

hadoop - oozie中如何指定多个jar文件

我需要解决以下问题:我的项目有两个jar,其中一个jar包含所有bean类,如Employee等,另一个jar包含使用第一个jarbean类的MR作业,所以当我尝试将MR作业作为一个简单的java程序运行时,我面临找不到类的问题(找不到com.abc.Employee类,因为它在另一个jar中)所以任何人都可以为我提供如何解决问题的解决方案....因为实时可能有很多jar而不是1或2如何指定所有那些jar可以任何人请尽快回复。 最佳答案 在存储Oozie工作流的HDFS目录中应该有一个lib文件夹。你可以将两个jar文件放在这个文件

hadoop - Oozie 作业使用 fork 而不是使用 join

我正在创建一个工作流,我需要在其中fork3个独立执行的作业。我没有加入的必要。有什么办法可以在oozie中实现这一目标吗?必须使用fork加入吗?? 最佳答案 来自documentationTheforkandjoinnodesmustbeusedinpairs.Thejoinnodeassumesconcurrentexecutionpathsarechildrenofthesameforknode.'文档还指出,Oozie对fork的工作流执行一些验证,如果违反则不允许作业运行。但是,如果您想要这种行为,您可以禁用forkjo

hadoop - Oozie 重试间隔中使用的时间单位是什么

在为Oozie操作设置配置时,有可能允许重试的最大次数retry-max,Oozie将在预定义的时间retry-interval。在Oozie文档中,我找不到用于此间隔的时间单位。是秒/分/...? 最佳答案 来源:User-RetryforWorkflowActionsSinceOozie4.3,User-retryallowsusertomentionretrypolicy.Thevalueforpolicycanbeperiodicorexponential,periodicbeingthedefault.Oozieadmin

hadoop - 你如何跟踪 oozie 作业日志?

我通常使用这个命令检查日志:$ooziejob-ooziehttp://localhost:8080/oozie-log14-20090525161321-oozie-joe这将打印所有内容。但是我只想看到最后几行。我如何跟踪oozie作业日志?谢谢 最佳答案 正如Chris上面建议的那样,使用它来打印最后10行$ooziejob-oozieoozie_URL-logjob_ID|tail-n10 关于hadoop-你如何跟踪oozie作业日志?,我们在StackOverflow上找到一

hadoop - 如何停止 Oozie 协调器?

我运行了一个Oozie协调器,它每小时运行一个工作流。我没有它的ID,当我运行命令ooziejobs-ooziehttp://localhost:11000/oozie时,它只显示工作流作业,没有协调器。我想阻止此协调员进一步处理,我该怎么做? 最佳答案 首先是避免在每个命令中定义oozieURL的建议exportOOZIE_URL=http://localhost:11000/oozie你可以列出正在运行的协调器ooziejobs-jobtypecoordinator-filterstatus=RUNNING这将返回一个显示协调器

hadoop - 通过 Jenkins 部署 Oozie 作业

我正在编写Oozie作业,我想将它们部署到hadoop集群。但是,我不想手动执行它们,而是想使用Jenkins为我执行此部署。我在网上搜索过,但没有找到oozie的任何插件....所以如果你在hadoop集群上使用oozie,你能告诉我什么是我可以进行自动构建和部署的最佳方式吗使用Jenkins? 最佳答案 Oozie工作流的部署只是将集群上不可用的xml文件和所需的依赖项放到HDFS目录中。link假设您有两个Jenkins作业,一个用于构建、测试等第二个用于部署,在成功构建第一个作业后触发您可以在第二个作业中编写将文件放在HDF