草庐IT

oozie-anth-W

全部标签

hadoop - 使用 Oozie 将 hdfs 文件映射到 HBase

我正在尝试从Oozie启动一个shell作业,我将文件从hdfs映射到HbaseShell脚本在命令行下工作,但在Oozie下不工作外壳脚本:HADOOP_CLASSPATH=`/usr/bin/hbaseclasspath`/usr/bin/hadoopjar/usr/lib/hbase/hbase-server.jarimporttsv-Dimporttsv.separator=,-Dimporttsv.columns=ORIGINAL:FIELD1,ORIGINAL:FIELD2,ORIGINAL:FIELD3HBASE_Table/user/U0H8048/file错误是:SL

hadoop - 有没有办法在删除文件时将 skipTrash 选项插入 oozie fs (HDFS) 操作?

根据oozie文档,FS(HDFS)操作支持的命令是移动、删除和mkdir。如果我想使用删除命令,有没有办法提到skipTrash选项。https://oozie.apache.org/docs/3.2.0-incubating/WorkflowFunctionalSpec.html#a3.2.4_Fs_HDFS_action 最佳答案 FSAction的删除命令不支持使用用户的垃圾目录。以这种方式删除的所有路径将从文件系统中完全删除。要在使用用户垃圾目录时删除文件,可以创建调用hdfsdfs-rm的shell操作。通过检查fs.t

hadoop - Oozie Pig Action 更改作业 jar 的 Guava 依赖性

如何配置ooziepig操作以优先考虑user.classpath?pig版本0.10.0-cdh4.2.1都试过了mapreduce.task.classpath.user.precedencemapreduce.task.classpath.firstmapreduce.job.user.classpath.firstmapreduce.user.classpath.first作为pig操作配置设置的一部分。mapreduce.job.user.classpath.firsttrue但它们似乎都不起作用。问题是pig(不知何故)依赖于Guava11而我的工作依赖于Guava13。我

python - 如何在使用流式 jar 时在 Oozie 中提及组合器

我有一个通过Oozie调用的流媒体作业。我能够使用映射器和缩减器成功运行它。但我不明白的是,我如何通过组合器。我所有的映射器、缩减器和组合器都是用Python编写的。这行得通吗?${jobTracker}${nameNode}pythonmapper.pypythoncombiner.pypythonreducer.pymapred.input.dir${HADOOP_LIB}/inputmapred.output.dir${HADOOP_LIB}/OutPathmapper.pycombiner.pyreducer.py我在任何地方都找不到标签的使用。或者,我可以只在shell脚本中

hadoop - 在 Oozie 中将作业调度为文件触发器

使用oozie我们可以在hadoop中提交作业,是否可以通过文件可用性触发作业提交。例如,将文件成功复制到hdfs后,Oozie必须提交作业。这可能吗? 最佳答案 使用数据集中的“完成标志”标签。喜欢${dataRoot}/${YEAR}/${MONTH}/${DAY}/${HOUR}/_SUCCESS如果完成标志设置为空,那么Coordinator会查找目录本身是否存在。如果_SUCCESS(或标记中指定的任何文件名)文件存在于您的目录中,则协调器将继续进行。有关详细信息,请参阅-https://oozie.apache.org/

mysql - 使用 Oozie 永远运行的 Sqoop 作业

我们有两个节点的hadoopyarn集群,它是hadoop2.2,在其上我们使用oozie在单个工作流中安排了两个操作,第一个操作是pythonmap-reduce流操作,第二个是sqoopexport作业,它实际上是将map-reduce流操作的输出传输到mysql数据库。流式操作成功执行,导致sqoop作业启动,并一直运行。stdout结果如下。Sqoopcommandarguments:export--connectjdbc:mysql://localhost/database--usernameroot--passwordroot--tabletableName--direct

hadoop - 如何找出用于 oozie 作业的映射器和缩减器的数量?

我有一组并行运行的oozie作业,有没有办法找到特定oozie作业使用的映射器和缩减器的总数?谢谢 最佳答案 您可以检查您的mapred-site.xmlmapreduce.job.reduces和mapreduce.job.maps属性。如果您没有看到,则将使用mapred-default.xml中此属性的默认值。如果在mapred-site.xml中找不到,您可以设置这些属性 关于hadoop-如何找出用于oozie作业的映射器和缩减器的数量?,我们在StackOverflow上找到

hadoop - 如何在 Oozie 中使用 MapReduceIndexerTool 包含自定义命令?

我想创建一个使用MapReduceIndexerTool的Oozie工作流获取我的数据并为其编制索引。我已经设法使用Shell操作让它工作,它调用我的脚本来执行以下命令:hadoopjar/opt/cloudera/parcels/CDH/lib/solr/contrib/mr/search-mr-*-job.jar\org.apache.solr.hadoop.MapReduceIndexerTool\-D'mapred.child.java.opts=-Xmx500m'\--morphline-filemorphline.conf\--output-dirhdfs://cloude

java - Linux 中的 Oozie 4.0.1 构建错误

尝试在linux中为hadoop2构建oozie。[INFO]ApacheOozieExamples.............................SUCCESS[3.476s][INFO]ApacheOozieShareLib............................SUCCESS[7.252s][INFO]ApacheOozieTools................................FAILURE[5.003s][INFO]ApacheOozieMiniOozie............................SKIPPED[INF

date - Oozie 协调员开始日期设置为实际日期

有没有办法将协调员的开始日期设置为实际日期?每次我想运行我的协调器时,我都必须手动设置协调器作业的开始日期:我想使用某种变量,将这个日期设置为我运行协调器的日期:如何设置系统日期的实际时间?我试过使用EL函数timestamp()但它不起作用或者我用错了。也许有办法在.properties文件中设置任何变量? 最佳答案 一个想法是通过命令行将sysdate从shell脚本传递到协调器作业。查看类似问题的答案是否适合您:Ooziecoordinatorwithsysdateasstarttime