草庐IT

hue-oozie

全部标签

hadoop - 如何在协调器中将当前月、日或年设置为工作流参数(在 Hue 上)

我有一个Oozie工作流,它具有三个参数,分别期望日、月和年。此工作流程与手动输入完美配合。我现在正在寻找一个协调器,它每天运行这个工作流并自动用当前的日期、月份和年份填充这些参数。我已经尝试了Hue似乎提议的${DAY}、${MONTH}和${YEAR}但我明白了使用例如提交协调器时出现以下错误${MONTH}作为我的月份参数的值。E1004:Expressionlanguageevaluationerror,Unabletoevaluate:${MONTH}:我正在CDH5.8上尝试这个。 最佳答案 我自己找到了答案,Hue也向

java - 如何使用 oozie 协调器延迟工作流操作

我有一个oozie协调员和工作流程工作,当我的工作流程操作之一完成时,我需要在一段时间后开始下一个操作,比如50分钟。我可以从oozie工作流或oozie协调器配置它等待一段时间来执行下一个操作(取决于之前的操作和之前启动的一些异步任务)。协调器xml${exampleDir}/ods-ds-cms-workflow.workflownameNode${nameNode}jobTracker${jobTracker}exampleDir${nameNode}/custom/oozie工作流.xml${jobTracker}${nameNode}mapred.job.queue.name

hadoop - E0701 : XML schema error, cvc-pattern-valid oozie 错误

我正在尝试运行oozie工作流,但出现以下错误:E0701:XML架构错误,cvc-pattern-valid:值“模型和映射表更新”对于模式“([a-zA-Z_]([\-_a-zA-Z0-9])*){1,39}'用于类型'IDENTIFIER'。我在查询中使用以下正则表达式。这有什么问题吗?当我通过Hive或CLI运行时一切正常。regexp_replace(id_col,'^0|[a-zA-Z]+$','')下面是我的workflow.xml${jobTracker}${nameNode}/user/sin/oozie/sources_creation.hql${jobTracke

hadoop - 使用 OOZIE 在文件到达 NFS 时触发执行的最佳方法

正在关注1和2:不时有不同类型的文件进入我的NFS目录。我想使用OOZIE或任何其他HDFS解决方案来触发文件到达事件,并根据文件类型将文件复制到HDFS的特定位置。最好的方法是什么? 最佳答案 最佳方式是非常主观的术语。这在很大程度上取决于数据的类型、频率以及数据到达特定位置后应该发生什么样的事情。Apacheflume可以监控特定文件夹的数据可用性,并将其向下推送到任何接收器,例如HDFS原样。Flume非常适合流式传输数据。但它只做一项特定工作-只是将数据从一个地方移动到另一个地方。但另一方面,请查看Oozie协调器。协调器具

hadoop - EMR Hue : CUSTOM server authentication not supported. 有效的是 ['NONE' , 'KERBEROS' , 'PAM' , 'NOSASL' , 'LDAP' ]

当我为Hive启用“自定义”身份验证时,Hue无法连接到HiveServer2。它抛出以下错误:CUSTOMserverauthenticationnotsupported.Validare['NONE','KERBEROS','PAM','NOSASL','LDAP'].如果我们使用自定义身份验证提供程序配置Hive,这是否意味着Hue不起作用?Hive本身工作正常,JDBC/ODBC使用自定义身份验证也按预期工作。有解决办法吗?引用:https://cwiki.apache.org/confluence/display/Hive/Setting+Up+HiveServer2

r - 通过命令行提交后编辑 Oozie Workflow

在使用命令行运行oozie工作流后,我无法使用HueWorkflow编辑器对其进行编辑,甚至无法在工作流列表中找到它。我有一个生成workflow.xml和job.properties的R脚本,并将运行运行脚本所需的命令:workflow.path将工作流移动到HDFS中工作正常,我已经验证它是使用oozie的有效工作流。运行作业也很有效,但是如果我打开Hue,导航到工作流并找到它,我无法编辑它,只能重新运行它。关于我正在尝试做的事情的一些背景:我们有大量的自动化工作流程,而且我们一直在添加更多。它们都遵循相同的模式,因此自动创建协调器和工作流很简单。有时,这些工作流程必须由人修改,并

hadoop - Oozie Hadoop 流媒体

我正在尝试编写一个简单的maponlyhadoopstreamingjob从hdfs读取数据并将其推送到vertica。我写了几个shell脚本如下加载.shhadoopjarhadoop-streaming-2.7.3.2.5.3.0-37.jar-input$INPUT_DIR-mapper/user/oozie/adhoc_data_load/scripts/export.sh-output$OUTPUT_DIR导出.sh./vsql-c"copy$TABLEfromstdindelimiterE'\t'directnull'\\N';"-U$DBUSER-w$DBPWD-h$D

hadoop - oozie distcp 操作中的正则表达式

我正在尝试将所有符合特定条件的文件复制到一个文件夹中${NAME_NODE}${PATH_COMVERSE}${CURRENT_DATE_NO_DASH}_*/*mta.gz${NAME_NODE}${PATH_MTA}/${CURRENT_DATE_NO_DASH}_*中的符号*代表A或B或C等。它搜索所有文件夹。如果我使用${CURRENT_DATE_NO_DASH}_A,它只会搜索1个文件。我怎样才能让它从所有文件夹中只取出2个?我尝试执行(A|B),但这没有用。 最佳答案 我假设这将是一个bash扩展,因为您的变量看起来像b

hadoop - Oozie HUE 仪表板未显示图表

正如我的标题所说,oozie工作流仪表板未在UI上显示图表。随着研究,我发现了很多问题,JIRAS以及hortonworksportal中的问题,这真的对我没有帮助。我正在从命令行创建job.properties和workflow.xml并从命令行提交作业,通过UI执行不是我的选择。下面是我正在运行的示例工作流.XML${jobTracker}${nameNode}mapreduce.job.queuename${queueName}SCRIPT.sh${Path}/SCRIPT.sh#SCRIPT.sh${configFile}提前致谢!! 最佳答案

hadoop - oozie 工作流应该只在有可用的输入 hdfs 文件时运行

我设置了协调器和值和超时。协调器工作正常,因为它会检查输入文件是否在hdfs位置可用,只有在它运行工作流时才会超时。我在工作流中需要相同的行为,就像如果我只运行一个没有协调器的工作流,那么工作流的行为应该与上述协调器的行为相同。我试过mapred.input.dir但工作流程成功运行。有没有其他方法可以达到同样的效果。工作流是一个简单的helloworld作业,而不是map-reduce作业。 最佳答案 Wrokflow用于按需运行作业。您正在寻找的功能在Workflow中不可用。该功能由协调器提供。