草庐IT

hadoop - 通过 Oozie HDP 2.1 的作业不创建 job.splitmetainfo

当尝试执行一个sqoop作业时,我的Hadoop程序在-jarFiles参数中作为jar文件传递​​,执行失败并出现以下错误。似乎没有任何解决方案。具有相同Hadoop用户的其他作业正在成功执行。org.apache.hadoop.yarn.exceptions.YarnRuntimeException:java.io.FileNotFoundException:Filedoesnotexist:hdfs://sandbox.hortonworks.com:8020/user/root/.staging/job_1423050964699_0003/job.splitmetainfoa

hadoop - 尝试在 Hue 中运行工作流时出现 Oozie 错误

我目前无法让Oozie在我的hadoop安装上正常工作。感谢任何输入,因为我是所有这一切的初学者。我用:hadoop2.6.0(带Yarn)、oozie4.0.1、hive1.0.0、hue3.7.1、pig0.12它是我在伪分布式中运行的本地安装。我从tars安装了所有东西并手动配置了它,因为遗憾的是从cloudera一键安装在OSX中不起作用。据我所知,Hadoop+Hive在CLI和Hue中都运行良好。Hue的Pig编辑器还不能很好地工作,我可以访问和使用来自HDFS的文件,但是当我尝试使用HCatalog访问Hive表时出现错误(错误2245:无法从loadFuncorg.ap

java - AmazonS3Client 在 hadoop(oozie) 中通过代理

我正在尝试通过oozie运行java代码。该代码是为非代理环境编写的,但我试图在需要代理服务器设置的环境中实现它。这是我在运行作业时遇到的错误。2015-05-1809:22:26,929WARNcom.amazonaws.http.AmazonHttpClient:UnabletoexecuteHTTPrequest:connecttimedoutjava.net.SocketTimeoutException:connecttimedout现在这是预期的行为,因为我需要通过代理传递那个,但问题是我没有看到这个连接到代理。所有人都试图直接连接到互联网,但被防火墙阻止了。我已经使用/et

hadoop - Oozie 作业卡在运行状态

我有一个简单的作业工作流程,它将mapreduce作业作为shell操作执行。提交作业后,它的状态变为正在运行,并且一直停留在那里但永远不会结束。mapreduce集群显示有两个作业在运行,一个属于shell应用程序启动器,另一个用于实际的mapreduce作业。然而,mapreduce作业显示为UNASSIGNED,进度为零(这意味着它已经开始)。有趣的是,当我终止oozie作业时,mapreduce作业实际上开始运行并成功完成。看起来shell启动器正在阻止它。附注这是一个简单的工作流程,没有可能导致等待的开始或结束日期。 最佳答案

apache - 我在 hadooplibs 文件夹中找不到 Apache Oozie Hadoop Libs tar.gz 文件

我在ApacheOozie安装过程中遇到问题。运行“bin/mkdistro.sh-DskipTests-Dhadoopversion=2.6.0”后,我在hadooplibs/target文件夹中找不到oozie-4.2.0-hadooplibs.tar.gz。这是安装状态:[INFO][INFO]ApacheOozieMain.................................SUCCESS[6.297s][INFO]ApacheOozieHadoopUtils.........................SUCCESS[5.081s][INFO]ApacheOo

maven - Oozie 4.2.0 使用 Java 1.8 使用 Hadoop 2.7 构建错误

我在伪hadoop模式下运行。具有以下组件-Hadoopv2.7.0-Java1.8+-奥齐4.2.0-操作系统-Fedora22虚拟机-Maven3.3我对Java或Maven一无所知,而且我对使用Maven构建这个世界完全陌生。我正在探索Oozie并想构建它,但每次我尝试构建它时,它都会失败并出现以下错误。我有搜索博客和已知博客(人们提到了gauravkohli博客,但这对我也没有帮助)但没有太多帮助。有人可以帮我吗?其次,虽然我关注了一些博客,其中提到只有hadoop版本需要更改,但即便如此,我认为我需要更改Hbase和其他组件版本,因为它们的版本比文中提到的要高得多oozeDi

shell - Oozie - Hadoop 命令未执行 (Shell)

我正在运行一个包含hadoop命令的shell脚本。执行相同时出现以下错误Mainclass[org.apache.oozie.action.hadoop.ShellMain],exitcode[1]我正在使用ClouderaHue-Oozie运行一个简单的shell脚本但是当脚本没有hadoop命令时,它会成功执行。我设置了oozie.use.system.libpath=true并且可以看到我的库在user/oozie/share/lib/下面是我尝试运行的shell脚本#!/bin/bash$(hadoopfs-mkdir/)工作流.xml${jobTracker}${nameN

hadoop - 我们可以在 oozie 工作流 xml 中访问整个 hadoop 作业日志吗?

oozie#emailAction#hadoop我正在使用oozie工作流运行hadooppig作业。如何在工作流xml中访问hadoop作业的整个日志,以便我可以在成功/失败电子邮件操作中使用它?谢谢我需要电子邮件中的示例日志:2016-10-2613:58:30,385[main]INFOorg.apache.pig.tools.pigstats.ScriptState-Pigfeaturesusedinthescript:UNKNOWN2016-10-2613:58:30,480[main]INFOorg.apache.pig.backend.hadoop.executionen

hadoop - oozie.launcher.* 配置放在哪里?

在尝试正确使用Oozie时,我最终设置了一些参数,即:oozie.launcher.mapreduce.map.memory.mboozie.launcher.mapreduce.map.java.optsoozie.launcher.yarn.app.mapreduce.am.resource.mboozie.launcher.mapred.job..queue.name如果我在工作流配置中设置它们,它们会按预期工作。有没有一种方法/一个地方可以全局设置它们,即。不是每个工作流程?我原以为custom-oozie-site.xml会是正确的位置,但显然不是(如果放在那里它们没有效果)

scala - 捕获 Oozie 中 Spark 操作节点的控制台输出作为整个 Oozie 工作流的变量

有没有办法在Oozie中捕获spark作业的控制台输出?我想在spark作业之后的下一个操作节点中使用特定的打印值。我在想我可以使用${wf:actionData("action-id")["Variable"]}但是oozie似乎没有能力从sparkAction节点捕获输出,这与您可以使用echo"var=12345"的ShellAction不同。然后调用oozie中的wf:actionData以用作整个工作流中的Oozie变量。我想实现这一点,因为我想打印可能处理的记录数并将其存储为oozie变量,并将其用于工作流中的下一个操作节点,而无需执行任何需要您将该数据存储在外部的功能工作