草庐IT

oozie-workflow

全部标签

python-2.7 - Oozie python 工作流中的 ImportError : No module named pydoop. hdfs

我写了一个将本地文件复制到HDFS的python脚本。在集群的所有节点中将python版本2.6升级到2.7。安装pydoop-1.0版本并使用CDH5.4如果我在命令行中运行py脚本,它运行良好。当我在oozie中运行时,同样的脚本抛出以下错误。错误:importpydoop.hdfsashdfsImportError:Nomodulenamedpydoop.hdfsFailingOozieLauncher,Mainclass[org.apache.oozie.action.hadoop.ShellMain],exitcode[1]Oozie工作流${jobTracker}${nam

hadoop - 用Oozie coordinator处理不规则的定时数据

我有多个数据源需要在oozie协调工作流中加以考虑。数据集是不定期生成的,也就是有几天数据可能出不来。例如:data_set1:ds1-1-Sept-1-2015-Dataavailableds1-2-Sept-2-2015-NoDatads1-3-Sept-3-2015-NoDatads1-4-Sept-4-2015-Dataavailableds1-5-Sept-5-2015-Dataavailableds1-6-Sept-6-2015-NoDatads1-7-Sept-7-2015-Dataavailable.Data_set2ds2-1-Sept-1-2015-Dataavai

hadoop - 将 oozie 作业上次运行日期传播到最后一个值

我有一个oozie工作流,它运行sqoop命令以根据上次更新日期从表中增量加载数据。如何设置--last-value以便我们获取从上次运行作业到现在的记录? 最佳答案 如果您正在将数据导入到配置单元表中,您可以从配置单元表中查询最后更新的值并将该值传递给sqoop导入查询。基于检索逻辑的选择查询的Hive操作最后更新的值。Sqoop操作用于从捕获的输出中增加负载以前的hiveAction。PFBsudo工作流程:${jobTracker}${nameNode}mapred.job.queue.name${queueName}scri

hadoop - 如何在 oozie 工作流的决策中使用配置单元查询输出

我有如下用例。hive中有一个表,其标志值为1或0。在oozie工作流中使用配置单元操作读取此配置单元表并检索此标志值。如果此标志为1,则调用sqoop操作,否则如果标志值为0,则终止此工作流并导出。如何从配置单元操作中获取配置单元查询的输出并将其用于oozie工作流决策制定。 最佳答案 有两种方法可以做到这一点。创建一个javaaction,直接通过jdbc连接到hive,进行列值查找。创建Oozieshell操作并在其中选择您的选择查询,如“hive-e”,以及您需要在工作流程下使用capture_output选项,还需要指定系

hadoop - 如何在 oozie 电子邮件通知中包含详细信息日志信息(hue --workflow--Editor)

CDH5.5.2(hue--workflow--Editor)我们使用工作流编辑器(hue--workflow--Editor)创建了oozie工作流。当工作流失败/终止时,电子邮件通知会发送给开发团队。目前我们在电子邮件正文中添加了简单的文本。这对团队没有太大帮助,因为通知邮件中没有日志信息请让我知道如何在oozie(hue--workflow--Editor)中实现这一点或者可以添加失败节点的链接(例如:-/httyps://mymachine:8080/jobbrowser/jobs/job_1456590566111_5905/single_logs)

hadoop - 在 AWS EMR 中重启 Oozie

我想更改Oozie电子邮件操作的“发件人地址”并对oozie-site.xml进行了一些更改。我不确定如何应用我所做的更改。我们可以启动和停止服务,例如AWSEMR中的Oozie?谢谢,赛 最佳答案 ps-ef|grepoozie--只是为了检查oozie服务的名称sudostopooziesudostartoozie 关于hadoop-在AWSEMR中重启Oozie,我们在StackOverflow上找到一个类似的问题: https://stackoverf

hadoop - Oozie - 通过 Action 配置在 DistCp 上设置策略

我有一个带有distCp操作的工作流,它运行得相当好。但是,现在我正在尝试更改复制策略,但无法通过操作参数来实现。关于这个主题的文档相当薄弱,查看distCpAction执行器的源代码也无济于事。如果从命令行运行distCp我可以使用命令行参数-strategy{uniformsize|dynamic}设置复制策略。使用该逻辑,我尝试在oozie操作中执行此操作。${jobTracker}${nameNode}mapreduce.job.queuename${poolName}-Dmapreduce.job.queuename=${poolName}-Dmapreduce.job.na

shell - 如何在 OOZIE 决策节点中使用逻辑运算符?

我有第一个要求,我必须检查文件是否存在于给定的HDFS位置。如果文件存在,我必须测试文件的大小是否大于200字节。根据这两个结果,我必须向用户发送电子邮件通知。我可以借助下面的代码检查文件是否存在${fs:exists("/user/cloudera/trdat/test.txt")}我可以借助下面的代码检查文件大小${fs:fileSize("/user/cloudera/trdat/test.txt")gt200*B}我必须创建一个工作流程来检查文件是否存在,如果不存在,则发送电子邮件通知“文件不存在”,就像向用户发送该消息一样。如果存在,那么我们必须检查文件大小是否大于200字节

hadoop - Oozie 作业失败

我正在尝试运行一个简单的Oozie作业,以使用Sqoop从本地MySQL数据库中提取数据。下面是我的workflow.xml:horton-n2.hdp.local:8050hdfs://horton-n1.hdp.local:8020mapred.compress.map.outputtrueimport--connectjdbc:mysql://horton-n1.hdp.local/sqooptest--tablesampledata--usernamesqoop--passwordsqoop123--target-dir--drivercom.mysql.jdbc.Driver

hadoop - Oozie 迭代工作流

我正在构建一个应用程序以将数据从MYSQL数据库提取到配置单元表。应用程序将被安排每天执行。第一个Action是读取Hive表以加载导入表信息,例如名称、类型等,并在要导入的文件中创建表列表。接下来是一个SqoopAction,按顺序为每个表传输数据。是否可以创建一个shell脚本Oozie操作,它将遍历表列表并按顺序为每个表启动oozie子工作流Sqoop操作?你能提供一些引用吗?还有任何更好方法的建议! 最佳答案 我想出了以下包含Sqoop操作的shell脚本。通过一些环境变量调整,它可以正常工作。hdfs_path='hdfs