草庐IT

oozie-anth-W

全部标签

hadoop - 如何从 Oozie 查询 Active NameNode

在我的hadoop集群中,我们有一个namenode和一个secondaryNameNode。我正在我的oozie作业中执行一个步骤,该步骤必须具有“事件”名称节点。有什么东西可以让我从Oozie查询“事件”名称节点吗?请注意,这是一个相当大的集群,不能保证Oozie和HDFS位于同一位置。编辑:请注意,我的问题与Oozie配置无关。配置已经完成。我的问题是查询工作流中的事件名称节点。 最佳答案 如果您有主动-被动/HA配置-oozie应该使用命名空间而不是主动名称节点进行配置。 关于h

shell - 如何使用oozie执行shellScript

我在sqoopJob.sh中编写了以下sqoop作业------------myscript.sh--------------------TARGET_DIR=date+"%Y_%m_%d"sqoopimport--connectjdbc:mysql://localhost/mydb--usernameroot--passwordroot--tableCustomer--m1--target-dir/temp/$TARGET_DIR我想使用oozie执行。它给了我以下错误Cannotrunprogram"CustomerImportScript.sh"(indirectory"/had

hadoop - 设置协调器oozie文件不存在报错如何解决

设置coordinatoroozie时错误文件不存在的解决方法:我在日志协调器中有错误:Pig日志文件转储:后端错误信息错误:java.io.FileNotFoundException:文件不存在:/user/hdfs/jay/part-0.tmp设置协调器:LAST_ONLY${nameNode}/user/hdfs/jay/${YEAR}/${MONTH}/${DAY}/${HOUR}${MINUTE}${nameNode}/user/hdfs/jay/output${coord:current(-2)}${coord:current(-2)}${appFolder}INPUT${

shell - 如何在 OOZIE 中使用正则表达式?

我想检查文件是否存在于给定的HDFS位置。我们可以在fs:exists的帮助下检查文件是否存在于给定的HDFS位置,即如果文件名为test_25082016,在协调工作的帮助下,我们可以获得日期值,即在我们的示例中作为参数today。工作Proppath=/user/cloudera/file/input/test_在workflow.xml中${fs:exists(concat(concat(nameNode,path),today))}${fs:exists(concat(concat(nameNode,path),yesterday))}它按预期工作。但就我而言,我的HDFS位置

hadoop - 是否为 Oozie 操作配置队列可选

我正在浏览大量Oozie示例,我最感兴趣的三个操作是Sqoop、Hive和Pig操作。在某些示例中,mapreduce.job.queuename属性(旧版本为mapred.queue.name)通常配置为default,例如这个:...mapreduce.job.queuenamedefault另一方面,其他示例没有指定任何队列(也没有指定全局配置)。是否需要配置队列?如果我没有指定会发生什么? 最佳答案 Doesconfiguringthequeuenecessary?否没有必要。WhatwouldhappenifIdidn't

java - 如何使用 oozie 协调器延迟工作流操作

我有一个oozie协调员和工作流程工作,当我的工作流程操作之一完成时,我需要在一段时间后开始下一个操作,比如50分钟。我可以从oozie工作流或oozie协调器配置它等待一段时间来执行下一个操作(取决于之前的操作和之前启动的一些异步任务)。协调器xml${exampleDir}/ods-ds-cms-workflow.workflownameNode${nameNode}jobTracker${jobTracker}exampleDir${nameNode}/custom/oozie工作流.xml${jobTracker}${nameNode}mapred.job.queue.name

hadoop - E0701 : XML schema error, cvc-pattern-valid oozie 错误

我正在尝试运行oozie工作流,但出现以下错误:E0701:XML架构错误,cvc-pattern-valid:值“模型和映射表更新”对于模式“([a-zA-Z_]([\-_a-zA-Z0-9])*){1,39}'用于类型'IDENTIFIER'。我在查询中使用以下正则表达式。这有什么问题吗?当我通过Hive或CLI运行时一切正常。regexp_replace(id_col,'^0|[a-zA-Z]+$','')下面是我的workflow.xml${jobTracker}${nameNode}/user/sin/oozie/sources_creation.hql${jobTracke

hadoop - 使用 OOZIE 在文件到达 NFS 时触发执行的最佳方法

正在关注1和2:不时有不同类型的文件进入我的NFS目录。我想使用OOZIE或任何其他HDFS解决方案来触发文件到达事件,并根据文件类型将文件复制到HDFS的特定位置。最好的方法是什么? 最佳答案 最佳方式是非常主观的术语。这在很大程度上取决于数据的类型、频率以及数据到达特定位置后应该发生什么样的事情。Apacheflume可以监控特定文件夹的数据可用性,并将其向下推送到任何接收器,例如HDFS原样。Flume非常适合流式传输数据。但它只做一项特定工作-只是将数据从一个地方移动到另一个地方。但另一方面,请查看Oozie协调器。协调器具

r - 通过命令行提交后编辑 Oozie Workflow

在使用命令行运行oozie工作流后,我无法使用HueWorkflow编辑器对其进行编辑,甚至无法在工作流列表中找到它。我有一个生成workflow.xml和job.properties的R脚本,并将运行运行脚本所需的命令:workflow.path将工作流移动到HDFS中工作正常,我已经验证它是使用oozie的有效工作流。运行作业也很有效,但是如果我打开Hue,导航到工作流并找到它,我无法编辑它,只能重新运行它。关于我正在尝试做的事情的一些背景:我们有大量的自动化工作流程,而且我们一直在添加更多。它们都遵循相同的模式,因此自动创建协调器和工作流很简单。有时,这些工作流程必须由人修改,并

hadoop - Oozie Hadoop 流媒体

我正在尝试编写一个简单的maponlyhadoopstreamingjob从hdfs读取数据并将其推送到vertica。我写了几个shell脚本如下加载.shhadoopjarhadoop-streaming-2.7.3.2.5.3.0-37.jar-input$INPUT_DIR-mapper/user/oozie/adhoc_data_load/scripts/export.sh-output$OUTPUT_DIR导出.sh./vsql-c"copy$TABLEfromstdindelimiterE'\t'directnull'\\N';"-U$DBUSER-w$DBPWD-h$D