OOZIE_草庐IT

hadoop - pig : Container is running beyond physical memory limits in cdh 5 using oozie

我正在尝试运行一个简单的pig脚本，该脚本在gruntshell中运行f9但不使用oozie，出现如下错误:容器[pid=2617,containerID=container_1438923434512_12103_01_000002]正在超出物理内存限制运行。当前使用情况:已使用1.0GB的1GB物理内存；使用了2.9GB的2.1GB虚拟内存。杀死容器。container_1438923434512_12103_01_000002..的进程树转储..实际上我正在通过oozie调用一个shell脚本，实习生调用pig脚本并得到这样的错误。我怎样才能让它在oozie中可用

java - 无法在 Oozie java 操作中设置 mapred.job.queue.name

我有一个运行紧迫作业的应用程序。我正在尝试将Oozie配置为使用Java操作运行此作业。我的操作如下，${jobTracker}${nameNode}mapred.job.queue.namelaunchercom.test.Main-Dmapred.output.compress=false-Dmapred.textoutputformat.separator=,-Dcrunch.disable.output.counters=trueActionfailed,errormessage[${wf:errorMessage(wf:lastErrorNode())}]但每次我运行Oozi

中设 java lt gt name hadoop oozie oozie-coordinator apache-crunch

hadoop - 为文件的每一行执行一个子工作流

我正在使用OozieSqoopAction将数据导入Datalake。我需要为数据库源的每个表创建一个HDFS文件夹。我有300多张table。我可以将所有300个Sqoop操作都硬编码在一个工作流中，但这样工作流对于Oozie配置来说太大了。Errorsubmittingjob/user/me/workflow.xmlE0736:Workflowdefinitionlength[107,123]exceededmaximumallowedlength[100,000]拥有这样的大文件不是一个好主意，因为它会减慢系统速度(它保存在数据库中)并且难以维护。问题是，如何为每个表名调用子工作

个子 hadoop Oozie section lt foreach cloudera

shell - 如何在 OOZIE 的决策节点中动态获取文件名？

我想检查文件是否存在，在HDFS位置使用oozie批处理。在我的HDFS位置，在每天晚上11点，我会得到像“test_08_01_2016.csv”、“test_08_02_2016.csv”这样的文件。所以我想在晚上11点15分之后检查文件是否存在，我可以在不使用决策节点时检查文件是否存在。通过使用以下工作流程。${fs:exists("/user/cloudera/file/input/test_08_01_2016.csv")}${jobTracker}${nameNode}jdbc:hive2://quickstart.cloudera:10000/default/user/c

点中何在 lt gt 34 shell hadoop oozie cloudera-cdh oozie-coordinator

hadoop - Oozie--失败 : SemanticException [Error 10072]: Database does not exist: testnamespace

我在使用Hive查询运行Oozie工作流时遇到错误。这是工作流程${jobTracker}${nameNode}${dir}/gsrlQery.hqlOutputDir=${jobOutput}${jobTracker}${nameNode}${dir}/nongsrlQuery.hqlOutputDir=${jobOutput}${jobTracker}${nameNode}${dir}/nongsrlRAQuery.hqlOutputDir=${jobOutput}${failureEmailToAddress}SuccessTheworkflow${wf:name()}withi

SemanticException testnamespace lt gt 34 hadoop oozie

hadoop - 在 Oozie 中运行 Hive Action 时出错

我正在尝试通过Oozie运行hive操作。我的workflow.xml如下:${jobTracker}${nameNode}oozie.hive.defaults${hiveConfigDefaultXml}${hiveQuery}OUTPUT=${StagingDir}Hivefailed,errormessage[${wf:errorMessage(wf:lastErrorNode())}]这是我的job.properties文件:oozie.wf.application.path=${nameNode}/user/${user.name}/hiveQueryoozie.libpa

中运时出 code gt lt hadoop mapreduce hive oozie

hadoop - 在 oozie Java Action 中传递 HBase 凭据

我需要安排一个与安全hbase交互的oozieJava操作，因此我需要为Java操作提供hbase凭据。我使用的是安全的hortonworks2.2环境，我的工作流XML如下${jobTracker}${nameNode}com.test.hbase.TestHBaseSecure${arg1}Javafailed,errormessage[${wf:errorMessage(wf:lastErrorNode())}]我还修改了oozie属性以包含HbaseCredentials类oozie.credentials.credentialclasses=hcat=org.apache.o

凭据传递 gt lt hbase hadoop kerberos oozie hortonworks-data-platform

hadoop - 将 Spark 添加到 Oozie 共享库

默认情况下，Oozie共享库目录提供了Hive、Pig和Map-Reduce的库。如果我想在Oozie上运行Spark作业，最好将Sparklibjar添加到Oozie的共享库而不是将它们复制到应用程序的lib目录。如何将Sparklibjar(包括spark-core及其依赖项)添加到Oozie的共享库中？任何评论/回答表示赞赏。最佳答案 Sparkaction计划与Oozie4.2.0一起发布，尽管文档似乎有点落后。在此处查看相关的JIRA:OozieJIRA-AddsparkactionexecutorCloudera的CD

hadoop Spark blockquote Oozie workflow apache-spark

xml - 如何使用具有不同参数列表的相同通用 workflow.xml fork 三个不同的作业？

我是hadoop生态系统的初学者。我正在尝试fork三个不同的作业，我想从同一个通用workflow.xml文件调用这些作业，但将不同的参数传递给每个子工作流。子工作流程:${jT}${nN}${nN}/xyz/workflow.xml${nN}/xyz/workflow.xml${nN}/xyz/workflow.xml${emailing_list}OozieworkflowFailedMap-ReduceFailed我想传递参数列表，例如source、input_path、output_path、credentials，这与所有三个进程aa、bb、cc都不同。我如何将其传播到三个

xml workflow gt lt 34 hadoop oozie fork-join

hadoop - 启动工作时 oozie 的问题

命令:ooziejob-ooziehttp://localhost:8080/oozie-config/home/hadoop/Desktop/Cloudera/oozie-2.3.0-cdh3u1/examples/apps/no-op/job.properties-run错误信息:Error:IO_ERROR:java.net.ConnectException:Connectionrefused 最佳答案最后我配置了oozie步骤在hadoopconf的core-site.xml中添加这一行hadoop.proxyuser.x

hadoop oozie section hdfs cloudera