我是ApacheOozie的新手,我正在尝试使用HortonworsHDP2.0平台从Oozie示例运行map-reduce示例。我得到:[jakub@puppetmastermain]$ooziejob-ooziehttp://puppetmaster:11000/oozie-configapps/map-reduce/job.properties-runError:E0803:E0803:IOerror,E0603:SQLerrorinoperation,org.apache.openjpa.persistence.RollbackException:Thetransactionh
当我从CLI运行以下sqoop命令时,我能够将数据导出到OracleDB,但是当我使用oozie工作流运行相同的命令时,我遇到了问题。直接从CLI运行的命令:sqoopexport--connectjdbc:oracle:thin:@192.168.245.1:1521:XE--usernameHR--passwordHR--tableHR.REVIEW_FINAL--export-dir/user/cloudera/Review/hive/review_final--input-fields-terminated-by'\001'以下是我通过Oozie使用的内容:export--co
我正在尝试通过Oozie在HDP沙箱2.1上执行sqoop导出。当我运行Oozie作业时,出现以下Java运行时异常。'>>>InvokingSqoopcommandlinenow>>>7598[main]WARNorg.apache.sqoop.tool.SqoopTool-$SQOOP_CONF_DIRhasnotbeensetintheenvironment.Cannotcheckforadditionalconfiguration.7714[main]INFOorg.apache.sqoop.Sqoop-RunningSqoopversion:1.4.4.2.1.1.0-385
我正在尝试运行带有自由格式查询的sqoop命令,因为我需要执行聚合。它作为Oozie工作流通过Hue界面提交。以下是命令和查询的缩小版本。处理命令时,“--query”语句(用引号括起来)导致查询的每个部分都被解释为无法识别的参数,如命令后的错误所示。此外,目标目录被误解。是什么阻止了它运行,如何解决它?${env}和${shard}变量正在被正确解析,如上一条错误消息所示。谢谢!===========import--connectjdbc:mysql://irbasedw-${shard}.db.xxxx.net:3417/irbasedw_${shard}?dontTrackOpe
我有一个Oozie工作流程,它需要能够使用不同的日期格式。例如,假设我在2015年1月16日使用job.properties中的属性runDate=20150116运行工作流。我希望能够在Oozie操作中自动使用以下路径:external-file-20150116.csv还有一些其他的数据:/rootDir/resource/150116/*第一个例子很简单,我只是引用:external-file-${runDate}.csv但是第二个例子是不可能的。我只能找到Oozie的内置ELtimestamp()函数,该函数没有用,因为它是固定格式并且不提供任何操作。似乎使用协调器可以解决问题
问题总结运行Oozie协调器时,我需要工作流能够以yyyyMMdd格式访问当前日期(即协调器运行的日期)。信息我有一个由协调器初始化的大型Oozie工作流。coord.propertiesnameNode=jobTracker=:8050queueName=defaultoozie.use.system.libpath=trueoozie.libpath=${nameNode}/project/workflow/liboozie.coord.application.path=${nameNode}/project/workflow协调器.xml:${nameNode}/project/
我有一个打包为jar文件(mymapreduce.jar)的mapreduce作业。运行时,它需要一些参数,例如hadoopjarmymapreduce.jarStartClass-i输入-p参数1-u参数2。如何将它写为Oozie工作流文件中的一个Action? 最佳答案 在job.properties文件中写入你要在oozie工作流中使用的参数如下nameNode=hdfs://localhost:9000hdfs://abc.xyz.yahoo.com:8020jobTracker=localhost:9001queueNam
我需要根据命中同一个表的不同文件集运行多个mapreduce作业。我正在探索Oozie,但我并不完全了解Oozie。我的要求是1.根据时间限制(和/或)文件限制运行作业。2.如果某些文件不可用,则应跳过此步骤。3.用户应该能够配置哪些步骤以及每个步骤的优先级。任何人都可以建议Oozie是否符合我的要求?如果可以,我该如何完成?如果没有,是否有任何类似于VisualCron的免费或商业工具可供我们替换以运行mapreduce和基于java的作业? 最佳答案 基本上,您希望根据一天中预定时间的数据可用性为一堆MR作业运行oozie工作流
我正在尝试使用oozie在yarn上运行pyspark,提交工作流后,hadoop作业队列中有2个作业,一个是oozie作业,其应用程序类型为“mapreduce”,另一个作业被触发通过前一个,应用程序类型为“Spark”,当第一个作业正在运行时,第二个作业仍处于“已接受”状态。问题来了,而第一个作业正在等待第二个作业完成继续,第二个是等待第一个完成运行,我可能陷入死锁,我怎么能摆脱这个麻烦,应用程序类型为“mapreduce”的hadoop作业是否与不同应用程序的其他作业并行运行类型?感谢任何建议,谢谢! 最佳答案 请将属性值检查
我正在尝试通过sqoop从hdfs将数据导出到mysql。我能够通过shell运行sqoop,并且运行良好。但是当我通过oozie调用时。它出现以下错误并失败。我还包括jar。没有描述性日志sqoop脚本:export--connectjdbc:mysql://localhost/bigdata--usernameroot--passwordcloudera--verbose--tableAGGREGATED_METRICS--input-fields-terminated-by'\0001'--export-dir/bigdata/aggregated_metrics错误:Launc