作业队_草庐IT

hadoop - 强制Oozie作业在特定节点上运行

我有一个6节点集群。当试图运行oozie作业时，它会在6个节点中的任何一个节点中触发该作业是否有方法指定触发oozieshell操作的节点最佳答案你可以使用oozie的spark动作来达到这个目的。参考文献：https://oozie.apache.org/docs/4.2.0/DG_SparkActionExtension.html 关于hadoop-强制Oozie作业在特定节点上运行，我们在StackOverflow上找到一个类似的问题： https:

jar - 如何在我的 map/reduce 作业中使用更新版本的 hadoop/lib jar？

Hadoop目前在其lib文件夹中附带commons-httpclient-3.0.1.jar。如果我有一个需要commons-httpclient-3.1.jar的map/reduce任务，将这个jar捆绑到我的hadoopjar的lib文件夹中似乎是不够的(就像对任何普通的外部jar所做的那样)依赖项)，因为hadoop似乎正在从其lib文件夹中加载以前的jar，而不是使用我提供的那个。不可能使用hadoop也使用的不同版本的jar？最佳答案如果一切都失败了，使用maven-shade-plugin重命名commons-ht

何在 jar section hadoop classloader

java - 在 Hadoop 集群(一个名称节点，12 个数据节点)上完成没有映射和缩减的 hadoop 作业

我写了一个hadoop程序，在单机上运行，效果很好。但是当我将它迁移到一个集群(一个名称节点，12个数据节点)时遇到了以下问题(作业没有启动并在map启动后立即完成)命令在终端上运行:hadoopjarVOConeSearch.jarinputoutput142.82-3.321(这里input是hdfs中的一个目录用于输入，output是程序写入的hdfs目录，执行前hdfs中没有输出目录，142.82,-3.32,1是三个额外的参数)集群信息当我运行程序时，输入目录包含167537个文件11/06/1109:33:49INFOsecurity.Groups:Groupmappi

缩减 Hadoop mapreduce 11 job java jobs

java - 在从属节点上执行的 Hadoop java 映射器作业，目录问题

作为我的Java映射器的一部分，我有一个命令在本地从属节点上执行一些独立代码。当我运行一段代码时，它执行得很好，除非它试图访问一些本地文件，在这种情况下，我会收到无法找到这些文件的错误。深入挖掘它似乎是从以下目录执行的:/data/hadoop/mapred/local/taskTracker/{user}/jobcache/job_201109261253_0023/attempt_201109261253_0023_m_000001_0/work但我打算从相关文件所在的本地目录执行:/home/users/{user}/input/jobname在java/hadoop中有没有办法

射器从属 section blockquote java caching hadoop mapreduce

java - Hadoop:压缩 Map-only 作业的输出

我有一个以TextOutputFormat格式输出的纯map作业。我目前看到三种压缩输出的方法:通过mapred.compress.map.output定义要压缩的map。*通过mapred.output.compression.*定义要压缩的输出通过TextOutputFormat.setCompressOutput()定义要压缩的TextOutputFormat通过组合前3种可能性中的一种或多种。关于如何正确执行此操作的任何见解？最佳答案选项1仅用于中间输出，选项2也适用，但更像是一种mapred-site.xml方法，选项

Map-only Hadoop section TextOutputFormat li java compression mapreduce hdfs

java - 后续作业无法立即读取前一个作业的输出

我有两个连续的Job1和Job2。Job1的输出被写入HDFS。Job2会将Job1的输出下载到本地文件系统。但是，我发现下载后文件的大小为0。这是因为当Job2开始下载时，Job1的输出还没有写入HDFS。为了解决这个问题，现在我需要在完成Job1之后等待一段时间，例如大约30秒，这让Job1的输出完全持久化到HDFS。然后，我运行Job2。有人知道怎么解决这个问题吗？即让Job2不用等待。这似乎是ChainJob问题。我认为它应该有解决这个问题的方法。最佳答案作业2是否需要将文件下载到本地文件系统？您的工作不能处理HDFS中

java 作业 Job section Job1 hadoop mapreduce

java - 关于调试 Hadoop MapReduce 作业中二级排序问题的任何提示？

我相信(相信？)我理解二级排序在Hadoop中的工作原理。我创建了一个由4个字段组成的中间键。我按第一个字段分区，按第一个和第二个字段分组，然后按所有4个字段排序。看起来我已经确定了分组和分区，但是值进入reducer的顺序是乱序的。关于如何对此进行调试有什么想法吗？最佳答案目前，手动或使用工具进行静态代码审查似乎效果不错。我相信我违反了规则:当覆盖compareTo()时，不要忘记覆盖equals()和hashCode()。如果解决这个问题，我会及时通知大家。关于java-关于调

MapReduce Hadoop section code stackoverflow java sorting

java - Hadoop:0.20.203 中的链接作业

我目前有一项任务需要在Hadoop中链接一些作业。我现在正在做的是我有两份工作。我的第一份工作有一个映射函数、一个组合器和一个缩减器。好吧，我还需要一个reduce阶段，所以我创建了第二个工作，它有一个简单的map任务，将前一个reducer的输出传递给最终的reducer。我发现这有点“愚蠢”，因为必须有一种方法来简单地链接它。此外，我认为I/O会以这种方式减少。我使用的是0.20.203版本，我只找到使用JobConf的ChainMapper和ChainReducer的弃用示例。我发现了这些:http://hadoop.apache.org/mapreduce/docs/curre

Hadoop java mapreduce apache section jobs chaining

Hadoop 作业失败 : Error Reading IndexFile?

如何解决这样的错误Mapoutputlost,rescheduling:getMapOutput(attempt_201204251959_0001_m_000000_0,0)failed:java.io.IOException:ErrorReadingIndexFileatorg.apache.hadoop.mapred.IndexCache.readIndexFileToCache(IndexCache.java:113)atorg.apache.hadoop.mapred.IndexCache.getIndexInformation(IndexCache.java:66)ator

IndexFile Reading java mortbay org hadoop mapreduce

java - 在我的 Map-Reduce 作业中包含第三方库(使用分布式缓存)

在我的映射器代码中，我使用了JTS.jar的第3方库。我需要把它放在hadoop的分布式缓存上，这样所有节点都可以访问它。我在this找到-libjars可用于执行此操作的链接。我现在使用执行我的代码hadoopjar-libjarsJTS.jarmy_jar.jarclassnameinputFilesoutputFiles。但这行不通。关于如何解决这个问题有什么建议吗？最佳答案尝试使用正确的命令行参数顺序。我认为该错误消息很有启发性。hadoopjarmy_jar.jarclassname-libjarsJTS.jarinp

中包含第 section jar java hadoop mapreduce hdfs