我按照以下步骤在Linux机器上安装了oozie4.1.0http://gauravkohli.com/2014/08/26/apache-oozie-installation-on-hadoop-2-4-1/hadoopversion-2.6.0maven-3.0.4pig-0.12.0集群设置-主节点运行-名称节点、资源管理器、代理服务器。SLAVENODErunning-Datanode,Nodemanager.当我运行单个工作流作业时意味着它成功了。但是当我尝试运行多个Workflow作业时,即两个作业都处于接受状态检查错误日志,我深入了解问题,014-12-2421:00:3
我编写了一个Oozie工作流,它运行BASHshell脚本来执行一些配置单元查询并对结果执行一些操作。该脚本运行但在访问某些HDFS数据时抛出权限错误。提交Oozie工作流的用户有权限,但脚本以yarn用户身份运行。是否可以让Oozie以提交工作流的用户身份执行脚本?Hive和Java操作都作为提交的用户执行,只是shell的行为不同。这是我的Oozie操作的粗略轮廓${jobTracker}${nameNode}${WorkflowRoot}/hive-site.xmlscript.sh${WorkflowRoot}/script.sh我正在运行Oozie4.1.0和HDP2.1。
我使用Sqoop、Hive和Pig操作创建了一个简单的Oozie工作流。对于其中的每一个Action,Oozie都会启动一个MR启动器,然后由它启动Action(Sqoop/Hive/Pig)。因此,工作流中的3个Action共有6个MR作业。为什么Oozie启动一个MRlauncher来启动action而不是直接启动action? 最佳答案 我在ApacheFlume论坛上发了同样的帖子,这里是回复。It'salsotokeeptheOozieserverfrombeingboggeddownorbecomingunstable.
我正在寻找一种工作流工具来运行复杂的map-reduce作业。我想到了Oozie,但也想探索Cascading。是否有使用级联API链接现有M/R作业的示例代码或示例?另外,您能否提供Oozie与Cascading的比较? 最佳答案 Cascading和Oozie不属于同一范畴。Oozie是一个工作流调度器。Cascading是一种用于创建工作流的API。它与调度程序无关,即它应该与您使用的任何调度程序系统一起运行。可能存在一些混淆,因为Oozie文档提到了“DAG”,并且两者都运行在Hadoop之上。此外,Cascading在检查
我们在oozie中运行一个工作流。它包含两个操作:第一个是在hdfs中生成文件的mapreduce作业,第二个是将文件中的数据复制到数据库的作业。两个部分都成功完成,但oozie在最后抛出一个异常,将其标记为失败的过程。这是异常(exception)情况:2014-05-2017:29:32,242ERRORorg.apache.hadoop.security.UserGroupInformation:PriviledgedActionExceptionas:lpinsight(auth:SIMPLE)cause:java.io.IOException:Filesystemclosed
我正在尝试将一个简单的工作流程转换为oozie。我已经尝试查看oozie示例,但它们有点让人不知所措。实际上我想运行一个查询并将结果输出到一个文本文件。hive-e'select*fromtables'>output.txt如何将其转换为oozie以使其每小时运行一次? 最佳答案 您的工作流程可能看起来像这样......workflow.xmllocalhost:50001hdfs://localhost:50000mapred.job.queue.namedefaultoozie.hive.defaults/user/user1/
我有几个关于oozie2.3共享库的问题:目前,我在我们的coordinator.properties中定义了共享库:oozie.use.system.libpath=trueoozie.libpath=这是我的问题:当共享库复制到其他数据节点时,有多少数据节点会得到共享库?共享库是根据协调器作业中的wf数量复制到其他数据节点,还是每个协调器作业仅复制一次? 最佳答案 将条目添加到oozie.libpath属性实际上意味着OOZIE会将这些库配置为在mapred.cache.files中配置属性(这是一个DistributedCac
我正在运行一个包含多个操作的Oozie作业,但有一部分我无法让它工作。在故障排除过程中,我被大量日志淹没了。在YARNUI中(yarn-site.xml中的yarn.resourcemanager.webapp.address,通常在端口8088上),有application_日志。在JobHistoryServer(yarn-site.xml中的yarn.log.server.url,我们的端口19888)中,有job_日志。(这些作业日志也应该显示在Hue的作业浏览器上,对吧?)在Hue的Oozie工作流编辑器中,有task和task_attempt(不确定它们是否相同,对我来说
我已经为配置单元脚本创建了一个oozie工作流来将数据加载到表中。我的workflow.xml包含-${jobTracker}${nameNode}${workflowRoot}/hive-site.xmloozie.hive.defaults${workflowRoot}/hive-site.xmlload_data.hqlHivefailed,errormessage[${wf:errorMessage(wf:lastErrorNode())}]我的job.properties文件包含-nameNode=hdfs://localhost:8020jobTracker=localho
在OozieCLI中我想做这样的事情:ooziejob-ooziehttp://host:port/oozie-configjobConfig.properties,baseConfig.properties-submit我有很多不同的工作正在运行,其中.properties文件的一部分是相同的。我希望能够将重复的部分移动到一个单独的baseConfig.properties文件中,并在我提交作业时将其与特定于作业的部分结合起来。 最佳答案 如果被覆盖的属性数量很少,您可以只引用基础配置文件,然后为每个要自定义的属性使用-Dprop