作业队

单节点与多节点上的 hadoop MapReduce 作业

嘿，我已经为mapreduce编写了我的第一个Java代码。我在单个节点上运行它。但我不确定它需要进行哪些更改才能与多节点一起使用如果有的话，有人可以指导我吗？最佳答案一个好的起点是遵循thistutorial.您应该查看的要点是:/etc/hosts文件每个节点，在其中添加所有节点的ip(同时确保您可以ssh到每个节点没有密码)$HADOOP_HOME/conf/masters和$HADOOP_HOME/conf/slaves文件在master节点中，添加对应的节点增加reducetask的数量，以防它是1并且你的算法支持它。

java - Hadoop MapReduce 作业 : Get the counter outside of the native jvm

我是Hadoop和Hbase的新手。我的用例非常简单:我想在运行时获取作业的reduceinputgroups计数(即获取从启动开始更新的计数器到工作的终止)。到目前为止我搜索到的内容:所有与作业相关的日志都写在目录/var/log/hadoop/userlogs下，如下所示:[root@dev1-slave1userlogs]#pwd/var/log/hadoop/userlogs[root@dev1-slave1userlogs]#lltotal24drwx--x---2mapredmapred4096Jan1319:59job_201501121917_0008drwx--x--

MapReduce the code mapred 201501121917 java hadoop

hadoop - 使用 java 命令运行 hadoop 作业

我有一个简单的Java程序来设置MR作业。我可以使用“hadoopjar”在Hadoop基础架构(hadoop2x)中成功执行此操作。但我想使用如下的java命令实现同样的事情。Java类名如何将hadoop配置传递给这个类名？我需要提供哪些额外的参数？我们将不胜感激任何链接/文档。最佳答案当您使用其他参数运行“hadoopjar”命令时，您可以使用java以同样的方式运行。检查此命令是否评估为hadoop类路径$hadoopclasspath那么无论你的自定义jar是什么，都应该添加到类路径中$java-cp`hadoopcl

hadoop java section 类名 mapreduce hadoop2

java - Hadoop 作业仅在 LocalJobRunner 上运行

这里是Hadoop初学者。我有以下运行和主要方法:publicintrun(String[]args)throwsException{Jobjob=newJob();job.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.class);job.setMapperClass(Map.class);job.setReducerClass(Reduce.class);job.setInputFormatClass(TextInputFormat.class);job.setOutputFormatClass(

LocalJobRunner Hadoop section job gt java

java - mapreduce 作业的进度

我正在开发一个MapReduce应用程序，我想知道我正在运行的作业的进度。我已经熟悉job.mapprocess和job.reducerprocess方法。这些方法仅在作业完成后才有效的问题。有没有什么方法可以在作业运行时实时提供作业进度，而不仅仅是在作业完成时。最佳答案在新的HadoopAPI中，您可以通过以下方式从mapper或reducer类中的Context对象访问进度值:publicclassMyMapperextendsMapper{@Overridepublicvoidmap(Writablekey,Writabl

mapreduce java Writable section stackoverflow hadoop

hadoop - mapreduce 作业停留在 0

我有一个奇怪的错误，我的mapreduce作业总是卡在map0%reduce0%。所以我继续做一些研究，发现了这个link当我在namenode上运行hadooptasktracker&时，它确实解决了我的问题，但据我所知，Namenode只支持JobTracker，在某些情况下还支持辅助NameNode。TaskTrackers适用于DataNodes对吗？如果我的理解有误，请纠正我。为什么每次都要在NameNode上启动tasktracker守护进程？是否有一个永久性的解决方案可以自动执行此操作，因为每次我都手动启动NameNode上的TaskTracker。

mapreduce hadoop section stackoverflow questions hive

Hadoop 安排作业按顺序运行(一项接一项)？

假设我在我的Hadoop环境中受到资源限制，我不想安排真正长时间运行的作业(即需要几天才能完成)。我正在分析大量过去的时间序列数据。我想安排mapreduce作业一次处理一天的数据(处理需要一个小时)。那么我该如何安排，以便在上一个作业完成后立即提交新作业？最佳答案如果您想要一种快速简单的方法，您可以编写一个shell脚本，为您要运行的每个作业依次调用hadoopjar。如果您想要更稳健的方法，可以使用ApacheOozie定义一个workflow将按顺序运行您的作业的作业。如果您是Hadoop的新手，您可能会发现使用HueGU

Hadoop 一项 section noreferrer noopener

java - 在 hadoop 中获取作业配置

我使用mapred导入而不是mapreduce编写了一些mapreduce代码(我遵循了WordCountforhadoop1的example)我需要获取一些保存在作业配置中的参数。我读到了configurationget使用mapreduce时，但我使用mapred进行了所有开发，这两个导入是冲突的。有没有办法使用mapred在映射器中获取作业配置？最佳答案来自MapperJava文档:MapperimplementationscanaccesstheJobConfforthejobviatheJobConfigurable.

hadoop java code section

hadoop - 如何使用 Yarn 为一个作业分配更多资源

我有几个不同的作业要在Hadoop集群上运行。有些需要很少的资源，有些则需要更多，例如内存。我想在我的集群上同时运行这些作业，因为它支持Yarn。我想如果我只是将作业提交到集群，Yarn会自动决定资源需求，但我想自己指定。如何使用api或命令行来指定每个作业的资源需求？最佳答案您可以使用JobConf为mapper和reducer设置内存。您可以从命令行或在您的驱动程序类中执行此操作。在特定的setMemoryForMapTask(longmem)和setMemoryForReduceTask(longmem)中查找这些属性ht

hadoop Yarn section setMemoryForMapTask mapreduce hadoop-yarn

hadoop - 在 MapReduce 作业中增加 ZooKeeper 协商超时

需要增加我的MapReduce作业的协商超时。我尝试设置以下属性:Configurationconf=newConfiguration();conf.set("zk.connectiontimeout.ms","60000");但这并没有帮助。仍然不断收到下面给出的消息。如何以编程方式更改此值？消息如下:15/03/2711:46:40信息zookeeper.ClientCnxn:服务器上的session建立完成，sessionid=0x14bxxbbf2c9e，协商超时=30000 最佳答案 ZooKeeper配置仅在ZooKee

MapReduce ZooKeeper section Configuration hadoop apache-zookeeper

140 141 142143144 145 146