草庐IT

oozie-anth-W

全部标签

hadoop - Oozie 安装 - oozied.sh 启动时出错

我是Oozie的新手,我正在尝试安装和设置Oozie。我按照Apache站点上提供的说明进行操作:“http://oozie.apache.org/docs/3.3.2/DG_QuickStart.html#Building_Oozie”。我已经能够完成以下内容:构建分发执行./mkdistro.sh-DskipTests。下载ExtJs2.2并分解到文件夹libext我已经在AWS实例中安装了Hadoop1.1.2并在Ubuntu12.04上运行。在我学习的过程中,集群被设置为伪分布式使用以下配置更新了core-site.xml:hadoop.proxyuser.ubuntu.hos

python - 使 pig 嵌入 python 脚本和 pig cassandra 集成以与 oozie 一起工作

我是oozie的新手,遇到的问题很少。1)我试图在oozie中嵌入一个pigAction,它有一个python脚本导入。我已将jython.jar文件放在lib路径中,并在将采用pythonUDF的pig脚本中导入。我似乎没有得到这个工作。.py文件未被拾取。怎么办?2)我有一个pigcassandra集成,在其中我使用cql使用pig从cassandra获取数据并进行一些基本转换。在CLI中,我能够使它正常工作。但在oozie方面我不是。我似乎没有找到在oozie中执行此操作的解决方案(配置和其他)。谁能帮我解决这个问题?提前致谢。 最佳答案

hadoop - Pig Cassandra process very slow (Heart beat) with oozie

我有一个pig脚本,它将从cassandra获取所有数据,进行少量转换并存储到hdfs上。在pig的grunt控制台执行时,cassandra数据量大,耗时将近30分钟。但是当我使用oozie工作流执行相同的操作时,它执行但需要很长时间,将近一个半小时。当我检查hadoop日志时,这就是它所说的。2013-11-1901:20:00,871[main]INFOorg.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher-Moreinformationat:master:50030/jobde

shell - 如何使用 Shell 脚本修改 job.properties 文件并运行 Oozie 脚本?

我有一个Oozie工作流程,本质上是1.SqoopsfromOracletoHDFS2.RunsMapReduceontheData3...我希望能够运行一个shell脚本来传递一个用于Sqoop操作的where子句。./run.sh"birth_date我希望将参数传递给配置OozieSqoop参数的job.properties文件,该参数传递给工作流。执行此操作的最佳方法是什么? 最佳答案 如果我没理解错的话,你可以有一个job.properties_template文件,其中有一行sqoop-where-arg=WHERE_P

hadoop - 使用 sqoop 的 Oozie 工作流

我在我的系统中安装了oozie4.0.0和Hadoop1.2.1我的目标是在oozie中编写sqoop作业。正如我在谷歌上搜索并获得以下链接:-http://rvs.github.io/oozie/installing.htmlhttp://srikanthayalasomayajulu.blogspot.sg/2013/02/apache-oozie-331-installation-on-apache.htmlwww.tanzirmusabbir.com/2013/05/chunk-data-import-incremental-import-in.html所有链接都非常好。我面临

hadoop - 在 Oozie 中可以实现这种类型的工作流程吗?

Oozie中可以实现这种类型的工作流吗?或者关于如何在oozie中做这类事情的任何建议请看附图http://s7.postimg.org/yj30wb0mj/oozie_Workflow.jpgTask3一次只能由一个工作流运行,其他工作流需要等待。Task3是ssh操作,一次只有一个人需要访问该机器。 最佳答案 这是可以做到的。使用forkandjoinfork创建wf1和2并加入然后开始任务3,然后再次fork。您可能需要重构您的操作以匹配此设计并拆分您的工作流,以便设计将匹配您想要实现的目标

hadoop - 带有 Hive 问题的 Oozie

我正在尝试使用配置单元操作将配置单元与Oozie一起使用。Oozie工作流应该将数据从一个Hive表加载到另一个。我在Hive中有一个表foo,它应该将数据加载到表“test”中。我正在使用ClouderaVM和Hadoop2.0.0-cdh4.4.0。我使用以下命令运行工作流:[cloudera@localhostoozie-3.3.2+92]$ooziejob-ooziehttp://localhost:11000/oozie-configexamples/apps/hive/job.properties-run当我转到JobTracker日志文件时,它说:找不到表'foo'。有帮

hadoop - 使用带有 kerberos 的配置单元 Metastore 服务器的 oozie 配置单元操作

我正在使用CDH5。我已经设置了一个HiveMetastore来使用kerberos。即hive-site.xml具有以下属性hive.metastore.sasl.enabledtruehive.metastore.kerberos.keytab.file/etc/hive/conf/hive.keytabhive.metastore.kerberos.principalhive/hive-metastore.example.com@example.COM日志显示启动hive-metastore服务时没有错误。我正在尝试在oozie工作流中运行配置单元操作。oozie-site.xm

xml - Oozie workflow.xml 错误

我是hadoop生态系统的新手,我一直在尝试通过Oozie协调和执行基本的pig工作。当我尝试验证我的workflow.xml文件时出现以下错误。错误:Invalidappdefinition,org.xml.sax.SAXParseException;lineNumber:32;columnNumber:16;cvc-complex-type.2.3:Element'workflow-app'cannothavecharacter[children],becausethetype'scontenttypeiselement-only.这是我的workflow.xml文件供您引用。12

hadoop - Oozie 自定义异步操作

我在Oozie中实现自定义异步操作时遇到问题。我的类扩展自ActionExecutor,并覆盖了方法initActionType、start、end、check、kill和isCompleted。在启动方法中,我想启动一个YARN作业,它是通过我的BiohadoopClient类实现的。为了使调用异步,我将client.run()方法包装在Callable中:publicvoidstart(finalContextcontext,finalWorkflowActionaction){...Callablebiohadoop=newCallable(){BiohadoopClientcl