作业队

hadoop - 在 Oozie 中将作业调度为文件触发器

使用oozie我们可以在hadoop中提交作业，是否可以通过文件可用性触发作业提交。例如，将文件成功复制到hdfs后，Oozie必须提交作业。这可能吗？最佳答案使用数据集中的“完成标志”标签。喜欢${dataRoot}/${YEAR}/${MONTH}/${DAY}/${HOUR}/_SUCCESS如果完成标志设置为空，那么Coordinator会查找目录本身是否存在。如果_SUCCESS(或标记中指定的任何文件名)文件存在于您的目录中，则协调器将继续进行。有关详细信息，请参阅-https://oozie.apache.org/

Hadoop 2.5.1 作业卡在 map 0% 和 reduce 0%

我正在尝试运行一个字数统计示例。我当前的测试设置是:一台机器上的NameNode和ResourceManager(10.38.41.134)。另一个(10.38.41.135)上的DataNode和NodeManager。他们可以在没有密码的情况下在它们之间进行ssh。阅读日志时，我没有收到任何警告，除了安全警告(我没有将其设置为测试)和containermanager.AuxServices'mapreduce_shuffle'警告。提交示例作业后，节点会对其使用react并输出日志，这表明它们可以很好地通信。NodeManager输出内存使用情况，但作业没有变化。我应该从哪里开始寻

Hadoop reduce lt gt property

java - 在 mapreduce 作业提交期间为 mappers 和 reducer 配置内存

我正在尝试在mapreduce作业提交期间为mapper/reducer内存配置内存，如下所示:hadoopjarWord-0.0.1-SNAPSHOT.jar-Dmapreduce.map.memory.mb=5120com.test.Word.App/tmp/ilango/input/tmp/ilango/output/上面的命令有没有错误？我收到以下异常。看起来我们需要放置JAR文件还是需要配置在Hadoop中使用-D选项的内容。提前致谢。Exceptioninthread"main"java.lang.ClassNotFoundException:-Dmapreduce.map

mapreduce mappers java strong URLClassLoader hadoop

mysql - 使用 Oozie 永远运行的 Sqoop 作业

我们有两个节点的hadoopyarn集群，它是hadoop2.2，在其上我们使用oozie在单个工作流中安排了两个操作，第一个操作是pythonmap-reduce流操作，第二个是sqoopexport作业，它实际上是将map-reduce流操作的输出传输到mysql数据库。流式操作成功执行，导致sqoop作业启动，并一直运行。stdout结果如下。Sqoopcommandarguments:export--connectjdbc:mysql://localhost/database--usernameroot--passwordroot--tabletableName--direct

mysql Oozie gt lt sqoop hadoop scheduling

hadoop - 如何找出用于 oozie 作业的映射器和缩减器的数量？

我有一组并行运行的oozie作业，有没有办法找到特定oozie作业使用的映射器和缩减器的总数？谢谢最佳答案您可以检查您的mapred-site.xmlmapreduce.job.reduces和mapreduce.job.maps属性。如果您没有看到，则将使用mapred-default.xml中此属性的默认值。如果在mapred-site.xml中找不到，您可以设置这些属性关于hadoop-如何找出用于oozie作业的映射器和缩减器的数量？，我们在StackOverflow上找到

射器缩减 section hadoop hdfs oozie

java - 使用 Maven 配置在 Eclipse 中为 Hadoop 作业设置 Java 堆空间

我在Eclipse中有一个Hadoop项目，其依赖项由Maven处理。我目前能够在Eclipse中运行Hadoop作业，但我没有安装Hadoop(因为Maven获得了所有依赖项)。问题是我收到堆空间异常:java.lang.Exception:java.lang.OutOfMemoryError:Javaheapspace我知道如果我安装了Hadoop，我可以在Hadoop配置中扩大Java堆空间。如果没有安装Hadoop，如何在从Eclipse运行作业时扩大Java堆空间？我想保留对Maven的依赖管理，但需要一种方法来更改一些Hadoop配置。这可以在Maven配置文件pom.xm

Eclipse Hadoop section java maven hadoop2

hadoop - 如何为下一个作业共享或存储上一个 MapReduce 作业的状态？

我想在mapreduce作业结束时存储/更改一个标志(这会偶尔更改)。该作业将计划每30分钟运行一次。所以一开始它会存储标志，然后当作业中的验证失败时它会改变标志(我想为下一个作业保留这个状态)，它将在每次作业执行时检查。我不太确定存储此标志的最佳方式是什么？最佳答案要链接MapReduce作业，请查看:https://developer.yahoo.com/hadoop/tutorial/module4.html#chaining但是，如果您需要作业每x分钟运行一次，请尝试使用Oozie来安排它们。如果您使用的是AWS，请查看

何为 MapReduce section https 来安 hadoop hdfs

hadoop web 界面无法显示作业历史记录

我可以访问hadoop管理站点的大部分功能，如下所示:但是，当我试图访问每个应用程序的历史记录时，我不再走运了:有人知道我的环境发生了什么吗？我应该在哪里检查？顺便说一句，当我尝试在我的虚拟机上运行“netstat-a”时，我没有发现端口8088或19888的记录，这对我来说是非常不合理的，因为8088导致hadoop主页并且运行良好。最佳答案在此Web界面中，您可以实时查看作业是否正在运行或历史记录:一旦M/R完成，资源管理器就无所谓了。这是historyServer的工作。您的historyServer(hadoopYARN

hadoop web section image

hadoop - oozie 协调员作业未在给定的开始时间开始

我正在使用oozie协调器来安排我的hadoop作业。我给出的开始时间是12:26，但它会在8-9小时后开始，并根据我在作业属性文件中给出的频率完成所有剩余的作业。为什么这8小时停止了，它仍然使用我在job.properties中给出的开始时间完成剩余的工作？nameNode=hdfs://localhost:8020jobTracker=localhost:8021queueName=defaultoozie.libpath=${nameNode}/user/oozie/share/liboozie.use.system.libpath=trueoozie.wf.rerun.fail

协调员给定 section oozie nameNode hadoop oozie-coordinator

mapreduce 作业后的 Hadoop 查询

您好，我最近开始阅读有关Hadoop的内容。我有几个问题，希望你能帮助我。假设我在多节点集群上运行了MapReduceJava作业。我有一个文件已被分配到10个围绕不同的数据节点。现在假设我已经为主文件编写了一个查询-是否从主名称节点接收到执行计划？它是否知道所有部分文件的位置？它会从所有部分文件中获取所有数据吗？我可以在同一数据节点上拥有多个部分文件吗？最佳答案 1.是否从主名称节点接收到执行计划？不，任务由taskrunner安排，namenode包含有关您的数据的元数据。即保存文件拆分部分的位置。2.它知道所有部分文件的位置

mapreduce Hadoop strong section 个部 hdfs

139 140 141142143 144 145