oozie-anth-W

带有 oozie 的 Python 子进程

我正在尝试在python脚本中使用subprocess，我在oozieshell操作中调用该脚本。子进程应该读取存储在Hadoop的HDFS中的文件。我在伪分布式模式下使用hadoop-1.2.1和oozie-3.3.2。这是名为connected_subprocess.py的python脚本:#!/usr/bin/pythonimportsubprocessimportnetworkxasnxliste=subprocess.check_output("hadoopfs-cat/user/root/output-data/calcul-proba/final.txt",shell=T

shell - 如何使用在 oozie 中执行的脚本访问本地目录？

我在我的机器上运行CDH4.5和virtualbox。在VM中，我有一个本地目录:/home/cloudera/logs/abc.log，我想做一件非常简单的事情，我在oozie中安排了一个非常简单的脚本来复制>abc.log到HDFS(/user/cloudera/logs/).计划的作业已执行，但在stderr中，它向我显示:无法访问/home/cloudera/logs/abc.log:没有那个文件或目录无论如何，有什么可以让这个工作的吗？因为我想用oozie安排一个脚本，每天将文件从本地复制到HDFS作为一项沐浴工作。谢谢!! 最佳答案

shell oozie section code hadoop copy

hadoop - 如何从 Oozie 触发的流式 Map Reduce 作业输出 Hadoop EL 计数器？

我正在使用Oozie触发流式MapReduce作业，为此我想收集以下HadoopEL常量:MAP_IN:Hadoop映射器输入记录计数器名称。MAP_OUT:Hadoopmapper输出记录计数器名称。REDUCE_IN:Hadoopreducer输入记录计数器名称。REDUCE_OUT:Hadoopreducer输入记录计数器名称。我看到这些可以使用${hadoop:counters('mr-action')[RECORDS][REDUCE_OUT]}但是，我不知道如何让这些值通过STDOUT输出回屏幕，或者输出到我启动Oozie工作流的服务器上HDFS中的文件。我试过将这些值传递给

流式 hadoop section action oozie hadoop-streaming

hadoop - Map-reduce 通过 Oozie

如果我使用Oozie来运行MapReduce作业，是否有关于将启动多少映射器的具体数字？是吗:一个用于Oozie，一个用于map-reduce作业或一个用于Oozie，一个映射器用于每64MBblock(默认block大小) 最佳答案上面的回答主要集中在一个mapreduce作业需要多少个map和reduce上。但是，当您特别询问oozie时，我将通过Oozie分享我在mapreduce(在pig中)方面的经验。解释当您启动oozie工作流程时，您需要1个yarn应用程序。我不确定逻辑是什么，但看起来这些应用程序通常需要1张map

Map-reduce hadoop section 射器 Oozie mapreduce oozie-coordinator

java - 在Oozie中优化多个Hive QL

我对hive不够熟悉，所以我在这里。我们正在使用Oozie将一堆hiveql作业链接在一起。我的任务是优化已经在我们的生产环境中运行的应用程序。业务合作伙伴不希望它花费超过1.5个小时的时间。我注意到的第一件事是，在一个工作流程中大约有90个oozieAction。我们还与其他应用程序共享yarn队列。这些Action的一半是hive2Action，并且每个HiveQLAction仅执行一个HQL语句。有时似乎HiveQL操作之间存在延迟，因为Oozie启动器在队列中等待，然后HiveQL在队列中等待。那是正常的吗？有没有解决的办法。对于时间敏感的Hive查询:1)Oozie是正确的工

Oozie java code strong 启动器 hadoop hive

shell - Oozie shell 操作 - 从 shell 问题运行配置单元

基于条件为真，我在shell脚本中执行hive-e。它工作正常。当我将此脚本放入Oozie的Shell操作中并运行时，我得到一个scriptName.sh:第42行:hive:commandnot发现异常。我尝试在shell操作中传递PATH=/usr/lib/hive，但我想我在那里犯了一些错误，因为我得到了相同的错误scriptName.sh:第42行:配置单元:找不到命令已编辑:我在shell脚本中使用了whichhive。它的输出不一致。我得到两种输出变体:1./usr/bin/hive以及Delegationtokencanbeissuedonlywithkerberosor

shell 配置单 section hadoop hive oozie

hadoop - 并行运行 Oozie 操作

我正在使用Hue中的工作流编辑器来开发Oozie工作流。有一些Action应该并行执行。是否可以同时执行两个或多个Action？如何在Hue中进行设置？最佳答案是的，这是可能的。在各种Oozieworkflownodes，有两个控制节点fork和join:Aforknodesplitsonepathofexecutionintomultipleconcurrentpathsofexecution.Ajoinnodewaitsuntileveryconcurrentexecutionpathofapreviousforknodea

hadoop Oozie section code fork hue

hadoop - oozie 工作流属性中的 XML 特殊字符

这是我的oozieworkflow.xml的一个片段statement${statement}该语句可能包含“>”、“”(无编码)时，我的作业成功运行，但是如果语句包含“例如casea:statement="x>3;y>4"(无错误)案例b:语句="x>3;y 最佳答案找到了潜在的问题。SAXBuilder可以很好地解析这段代码“x>2”但失败，下一行异常"x“>”、“ 关于hadoop-oozie工作流属性中的XML特殊字符，我们在StackOverflow上找到一个类似的问题：

hadoop oozie section statement stackoverflow

hadoop - 安全 Oozie Web 控制台无法在我的 Windows 机器上运行

我已经使用CDH4.1.2在CentOS6.3中设置了一个安全的(Kerberos)Oozie环境。我可以从托管在服务器上的CentOS机器上查看OozieWeb控制台。但是有没有办法从我的本地Windows机器上查看网络控制台。我已经尝试使用我的Windows机器作为主机名创建一个HTTP主体。我能够获得HTTP主体的有效票证。但是当我打开OozieWeb控制台时，出现以下错误org.apache.hadoop.security.authentication.client.AuthenticationException:GSSException:检测到缺陷token(机制级别:GSS

Windows hadoop strong section Internet kerberos oozie

hadoop - Pig、Oozie 和 HBase - java.io.IOException : No FileSystem for scheme: hbase

我的Pig脚本本身运行良好，直到我将它放入Oozie工作流中时，我收到以下错误:ERROR2043:Unexpectederrorduringexecution.org.apache.pig.backend.executionengine.ExecException:ERROR2043:Unexpectederrorduringexecution....Causedby:java.io.IOException:NoFileSystemforscheme:hbase我成功注册了HBase和Zookeeperjar，但收到了同样的错误。我还尝试通过在Pig脚本中添加这些行的变体来设置Zoo

IOException FileSystem section code Zookeeper hadoop hbase apache-pig hbasestorage

37 38 394041 42 43