草庐IT

oozie-workflow

全部标签

hadoop - Pig Cassandra process very slow (Heart beat) with oozie

我有一个pig脚本,它将从cassandra获取所有数据,进行少量转换并存储到hdfs上。在pig的grunt控制台执行时,cassandra数据量大,耗时将近30分钟。但是当我使用oozie工作流执行相同的操作时,它执行但需要很长时间,将近一个半小时。当我检查hadoop日志时,这就是它所说的。2013-11-1901:20:00,871[main]INFOorg.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher-Moreinformationat:master:50030/jobde

shell - 如何使用 Shell 脚本修改 job.properties 文件并运行 Oozie 脚本?

我有一个Oozie工作流程,本质上是1.SqoopsfromOracletoHDFS2.RunsMapReduceontheData3...我希望能够运行一个shell脚本来传递一个用于Sqoop操作的where子句。./run.sh"birth_date我希望将参数传递给配置OozieSqoop参数的job.properties文件,该参数传递给工作流。执行此操作的最佳方法是什么? 最佳答案 如果我没理解错的话,你可以有一个job.properties_template文件,其中有一行sqoop-where-arg=WHERE_P

hadoop - 使用 sqoop 的 Oozie 工作流

我在我的系统中安装了oozie4.0.0和Hadoop1.2.1我的目标是在oozie中编写sqoop作业。正如我在谷歌上搜索并获得以下链接:-http://rvs.github.io/oozie/installing.htmlhttp://srikanthayalasomayajulu.blogspot.sg/2013/02/apache-oozie-331-installation-on-apache.htmlwww.tanzirmusabbir.com/2013/05/chunk-data-import-incremental-import-in.html所有链接都非常好。我面临

hadoop - 在 Oozie 中可以实现这种类型的工作流程吗?

Oozie中可以实现这种类型的工作流吗?或者关于如何在oozie中做这类事情的任何建议请看附图http://s7.postimg.org/yj30wb0mj/oozie_Workflow.jpgTask3一次只能由一个工作流运行,其他工作流需要等待。Task3是ssh操作,一次只有一个人需要访问该机器。 最佳答案 这是可以做到的。使用forkandjoinfork创建wf1和2并加入然后开始任务3,然后再次fork。您可能需要重构您的操作以匹配此设计并拆分您的工作流,以便设计将匹配您想要实现的目标

hadoop - 带有 Hive 问题的 Oozie

我正在尝试使用配置单元操作将配置单元与Oozie一起使用。Oozie工作流应该将数据从一个Hive表加载到另一个。我在Hive中有一个表foo,它应该将数据加载到表“test”中。我正在使用ClouderaVM和Hadoop2.0.0-cdh4.4.0。我使用以下命令运行工作流:[cloudera@localhostoozie-3.3.2+92]$ooziejob-ooziehttp://localhost:11000/oozie-configexamples/apps/hive/job.properties-run当我转到JobTracker日志文件时,它说:找不到表'foo'。有帮

hadoop - 使用带有 kerberos 的配置单元 Metastore 服务器的 oozie 配置单元操作

我正在使用CDH5。我已经设置了一个HiveMetastore来使用kerberos。即hive-site.xml具有以下属性hive.metastore.sasl.enabledtruehive.metastore.kerberos.keytab.file/etc/hive/conf/hive.keytabhive.metastore.kerberos.principalhive/hive-metastore.example.com@example.COM日志显示启动hive-metastore服务时没有错误。我正在尝试在oozie工作流中运行配置单元操作。oozie-site.xm

xml - Oozie workflow.xml 错误

我是hadoop生态系统的新手,我一直在尝试通过Oozie协调和执行基本的pig工作。当我尝试验证我的workflow.xml文件时出现以下错误。错误:Invalidappdefinition,org.xml.sax.SAXParseException;lineNumber:32;columnNumber:16;cvc-complex-type.2.3:Element'workflow-app'cannothavecharacter[children],becausethetype'scontenttypeiselement-only.这是我的workflow.xml文件供您引用。12

hadoop - Oozie 自定义异步操作

我在Oozie中实现自定义异步操作时遇到问题。我的类扩展自ActionExecutor,并覆盖了方法initActionType、start、end、check、kill和isCompleted。在启动方法中,我想启动一个YARN作业,它是通过我的BiohadoopClient类实现的。为了使调用异步,我将client.run()方法包装在Callable中:publicvoidstart(finalContextcontext,finalWorkflowActionaction){...Callablebiohadoop=newCallable(){BiohadoopClientcl

hadoop - CDH5 中的 Oozie 不获取 mapreduce.job.counters.max

当我运行一个oozie工作流,该工作流运行创建超过120个计数器的mapreduce-action(120是允许的默认最大计数器数)时,我收到一条错误消息,提示“计数器太多”。我已将mapreduce.job.counters.max设置为高于120的数字,但oozie似乎没有接受它。我在CDH5.1上使用hadoop2.3有没有人遇到过这种情况? 最佳答案 解决方案是将以下内容添加到YARNServiceMapReduceAdvancedConfigurationSnippet(SafetyValve):mapreduce.job

java - 是否可以使用 hadoop 2.5.2 在 oozie 4.1.0 中运行 map reduce 作业

我是oozie的新手,可以在oozie4.1.0和hadoop2.5.2中运行mapreduce作业吗???请多指教! 最佳答案 应该是内存问题吧。在yarn-site.xml中设置以下属性并尝试运行作业,yarn.nodemanager.resource.memory-mb20960 yarn.scheduler.minimum-allocation-mb512yarn.scheduler.maximum-allocation-mb2048 关于java-是否可以使用hadoop2.5