草庐IT

oozie-anth-W

全部标签

hadoop - Sqoop Export Oozie Workflow 因未找到文件而失败,从控制台运行时有效

我有一个包含6个节点的hadoop集群。我正在通过Sqoop从MSSQL中提取数据并返回到MSSQL中。Sqoop导入命令运行良好,我可以从控制台(在其中一个hadoop节点上)运行sqoop导出命令。这是我运行的shell脚本:SQLHOST=sqlservermaster.localSQLDBNAME=db1HIVEDBNAME=db1BATCHID=USERNAME="sqlusername"PASSWORD="password"sqoopexport--connect'jdbc:sqlserver://'$SQLHOST';username='$USERNAME';passwo

unit-testing - 如何在 oozie 工作流中运行 hadoop 示例 jar?

这让我发疯了——我觉得自己像个白痴,想弄清楚如何做到这一点!我正在构建一个使用Oozie客户端库来运行工作流的应用程序。真的很简单,我想为我的代码构建一些测试,这样我就可以检查我是否在做正确的事情实际代码-感谢oozie客户端库-非常简单。我已经安装了Hadoop并且可以运行标准的wordcount提供的示例,没有任何问题,但是我不知道如何通过Oozie运行东西,它让我抓狂。所以我想我会作弊并问一些知道的人(蠕变蠕变)。我如何转换:bin/hadoopjarhadoop*examples*.jarwordcountinput/somedataoutputOozie工作流?我假设它是一个

hadoop - 使用 Oozie 合并输出文件部分

是否可以使用Oozie将MapReduce作业的输出连接到单个文件中?可以说我有输出......part-r-00000part-r-00001part-r-00002我只想...output.csv我知道我可以使用hadoopfs-getmerge将它们作为单个文件拉下来,但我很好奇是否可以使用工作流应用程序和HDFS。 最佳答案 我能想到的两个简单选项:修改生成此输出的作业以使用单个reducer使用identitymapper、identityreducer和单个reducer运行map-reduce操作

hadoop - 安排每周 Oozie

我刚刚开始使用Oozie。希望这里有人能提供一些有用的建议。这是coordinator.xml的一个片段-11FIFO${nameNode}/warehouse/hive/f_stats/dt=${YEAR}W${WEEK}...与我的问题相关的部分在标签内。它们通常用以下方式表示:"...revenue_feed/${YEAR}/${MONTH}/${DAY}/${HOUR}..."这部分可以用WEEK表示吗?即下表中的最后一列。问题的原因是我们的日期表有一个名为'iso_week'的字段列(例如28,或者它对应的日期范围是2013年7月8日-14日)。它看起来像下面这样:-----

hadoop - 在 Oozie 中动态创建 fork

我的用例如下:我有一个Java操作,它将输出一个整数参数,比如count=5。根据count的值,我想创建那么多fork。我无法弄清楚如何完成这项工作。谁能指出我正确的方向? 最佳答案 我认为这在oozie中是不可能的。你想做什么?如果您从您的工作流中运行pig、hive、scalding或其他一些M/R,您可以在那里配置并行性。 关于hadoop-在Oozie中动态创建fork,我们在StackOverflow上找到一个类似的问题: https://stac

hadoop - 外部客户端如何通过 HTTP 回调通知 Oozie 工作流

假设我们有一个Oozie工作流以3个Java操作节点启动的情况。每个Java操作都会对Oozie/Hadoop集群之外的外部Web服务(例如google.com、yahoo.com等公开的某些Web服务)进行异步HTTP调用。我认为这是可行的,因为Oozie支持自定义操作节点。现在,我不想让Oozie不时轮询外部Web服务来检查工作是否在外部Web服务中完成。我想让外部Web服务(让我们假设我们可以自由修改)回调Oozie以通知Oozie外部Web服务的工作已完成,并进一步将一些信息传递回Oozie,让Oozie决定后续操作采取。有维基,比如这个http://www.infoq.com

hadoop - 奥齐 : How to use oozie coodinator properties in corresponding workflow?

我有一个oozie作业作为调用worflow的协调器运行,在协调器中有一些使用协调器EL函数的配置属性,就像这样-${oozieAppDir}/copyLogs.wf.xmlfilename3${coord:formatTime(coord:dateOffset(coord:nominalTime(),-3,'HOUR'),'MM')}-${coord:formatTime(coord:dateOffset(coord:nominalTime(),-3,'HOUR'),'dd')}-${coord:formatTime(coord:dateOffset(coord:nominalTim

hadoop - Oozie Launcher 失败,主类 [org.apache.oozie.action.hadoop.MapReduceMain],main() 抛出异常,未在 JobConf 中设置输出目录

我正在尝试在hue中执行mapreduce作业。我收到以下错误:FailingOozieLauncher,Mainclass[org.apache.oozie.action.hadoop.MapReduceMain],main()threwexception,OutputdirectorynotsetinJobConf.org.apache.hadoop.mapred.InvalidJobConfException:OutputdirectorynotsetinJobConf.atorg.apache.hadoop.mapred.FileOutputFormat.checkOutput

hadoop - 使用 zkcli.sh bash 通过 oozie shell 操作将 solr 配置从 hdfs 发送到 zookeeper

每次我尝试将solr配置发送给zookeeper时,我都会在下面遇到异常。作为confdir,我输入了这个地址:“hdfs://some_address/user/Peter/dir_with_date”。在bash脚本后面的jars中实现时,我看到有一个Paths.get方法,它将我的带有配置的字符串转换为没有双斜杠的字符串(“hdfs:/some_ad...”)。Exceptioninthread"main"java.io.IOException:Pathhdfs:/some_address/user/Peter/dir_with_datedoesnotexistatorg.apa

hadoop - oozie中如何指定多个jar文件

我需要解决以下问题:我的项目有两个jar,其中一个jar包含所有bean类,如Employee等,另一个jar包含使用第一个jarbean类的MR作业,所以当我尝试将MR作业作为一个简单的java程序运行时,我面临找不到类的问题(找不到com.abc.Employee类,因为它在另一个jar中)所以任何人都可以为我提供如何解决问题的解决方案....因为实时可能有很多jar而不是1或2如何指定所有那些jar可以任何人请尽快回复。 最佳答案 在存储Oozie工作流的HDFS目录中应该有一个lib文件夹。你可以将两个jar文件放在这个文件