作业队

java - 在 Hadoop MapReduce 作业中链接 Multi-Reducer

现在我有一个4阶段的MapReduce作业，如下所示:Input->Map1->Reduce1->Reducer2->Reduce3->Reduce4->Output我注意到Hadoop中有一个ChainMapper类，它可以将多个映射器链接成一个大映射器，并节省映射阶段之间的磁盘I/O成本。还有一个ChainReducer类，但它不是真正的“Chain-Reducer”。它只能支持以下工作:[Map+/ReduceMap*]我知道我可以为我的任务设置四个MR作业，并为最后三个作业使用默认映射器。但这会消耗大量磁盘I/O，因为reducer应该将结果写入磁盘以让后面的映射器访问它。是否

Multi-Reducer MapReduce 射器 section code java hadoop

hadoop - 远程运行 Hadoop 作业

我正在尝试从集群外部运行MapReduce作业。例如Hadoop集群在Linux机器上运行。我们有一个在Windows机器上运行的Web应用程序。我们想从此远程Web应用程序运行hadoop作业。我们想要检索hadoop输出目录并将其呈现为图形。我们编写了如下一段代码:Configurationconf=newConfiguration();Jobjob=newJob(conf);conf.set("mapred.job.tracker","192.168.56.101:54311");conf.set("fs.default.name","hdfs://192.168.56.101:

hadoop java job

performance - 如何获取 spark 作业的指标？

我们有一个大约有20个节点的集群。这个集群在许多用户和作业之间共享。因此，我很难通过观察我的工作来获得一些指标，例如CPU使用率、I/O、网络、内存等...如何获得工作级别的指标。PS:集群已经安装了Ganglia，但不确定如何让它在作业级别工作。我想做的是监控集群使用的资源，仅用于执行我的工作。最佳答案您可以从SparkHistoryServer获取spark作业指标，它显示以下信息:-调度程序阶段和任务列表-RDD大小和内存使用情况的总结-A环境信息-有关正在运行的执行程序的信息1、启动spark应用前将spark.even

performance spark section strong hadoop apache-spark ganglia

unit-testing - hadoop mapreduce 作业的最佳单元测试工具/方法

我是新来的，但需要知道对通过ApacheHadoop编写的程序进行单元测试的最佳方法。我知道我们可以用jUnit方式为map和reduce方法中的逻辑编写单元测试用例。我们也可以对涉及的其他逻辑做同样的事情，但这并不能保证它经过良好的测试并且可以在实际运行环境中工作。我读过关于MRUnit的文章，但它似乎也与我上面提到的类似，但方式更成熟。但它也不会作为真正的mapreduce工作运行，而是一个被mock的工作。任何帮助，将不胜感激。谢谢。最佳答案你当然有其他选择。稍微用谷歌搜索一下，你自己就会得到它。在这里，我为您做到了!这是

测试工具 unit-testing 行器 Hadoop br mapreduce

hadoop - wordCount mapReduce 作业如何与 apache tez 在 hadoop yarn 集群上运行？

作为tez的github页面说，tez非常简单，其核心只有两个组件:数据处理管道引擎，以及数据处理应用程序的主控程序，可以将上述任意数据处理“任务”放在一个任务DAG中那么我的第一个问题是，现有的mapreduce作业(例如tez-examples.jar中存在的wordcount)如何转换为任务DAG？在哪里？或者他们不...？我的第二个也是更重要的问题是关于这部分的:tez中的每个“任务”都有以下内容:用于使用键/值对的输入。处理它们的处理器。输出以收集处理后的键/值对。谁负责在tez任务之间拆分输入数据？它是用户提供的代码还是Yarn(资源管理器)甚至是tez本身？输出阶段的问题

hadoop wordCount section tez li mapreduce hadoop-yarn apache-tez

hadoop - 实现高级作业控制框架以帮助链接多个 Map-Reduce 作业是什么意思？

我是Hadoop的新手，目前分配给我的项目是“实现高级作业控制框架以帮助链接多个Map-Reduce作业，即调查/改进现有的org.apache.hadoop.mapred.jobcontrol包。”此项目列在随机想法下的项目建议页面上http://wiki.apache.org/hadoop/ProjectSuggestions#research_projects我的困惑是，我是否必须构建Oozie的高级版本(我认为这是一个链接多个作业的作业控制框架)或类似的东西，或者这是否意味着完全不同的东西。我错过了什么？最佳答案看起来您

Map-Reduce hadoop strong section JobControl mapreduce oozie

java - 由于容器启动的 AM 容器异常， headless (headless)环境中的 MapReduce 作业失败 N 次

在MacOSX的headless(headless)环境中运行mapreduce作业时(例如，当以特定用户身份通过ssh运行作业时)，我得到以下异常或类似的异常......2013-12-0415:08:28,513WARNorg.apache.hadoop.yarn.server.resourcemanager.RMAuditLogger:USER=hadoopOPERATION=ApplicationFinished-FailedTARGET=RMAppManagerRESULT=FAILUREDESCRIPTION=Appfailedwithstate:FAILEDPERMI

容器 headless java hadoop macos

hadoop - 如何更改当前正在运行的 hadoop 作业的队列？

我的hadoop作业运行了10多个小时，但由于我将它放在错误的队列中，容器不断被调度程序杀死。如何在不重启的情况下更改当前正在运行的hadoop作业的队列？谢谢最佳答案如果运行Yarn，您可以通过以下方式更改当前作业的队列yarnapplication-movetoqueue-queue 关于hadoop-如何更改当前正在运行的hadoop作业的队列？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.co

hadoop 的 section stackoverflow resources share jobs

hadoop - 如何杀死由配置单元启动的 mapred 作业？

我现在使用CDH5.1。它通过YARN启动正常的Hadoop作业，但hive仍然可以使用mapred。有时一个大查询会挂起很长时间，我想杀死它。我可以通过JobTrackerWeb控制台找到这个大作业，但它没有提供终止它的按钮。另一种方式是通过命令行查杀。但是，我找不到任何通过命令行运行的作业。我已经尝试了2个命令:yarn应用程序列表映射作业列表如何终止这样的大查询？最佳答案您可以在运行作业时从HiveCLI或从WebUI获取作业ID。您还可以使用资源管理器中的应用程序ID列出作业ID。理想情况下，您应该从mapredjob-

配置单杀死 code section pre hadoop mapreduce hive hadoop-yarn cloudera-cdh

Hadoop:重定向到作业历史记录服务器时出现 NullPointerException

我有一个Hadoop集群(HDP2.1)。一切都已经运行了很长时间，但突然间作业开始返回以下反复出现的错误:16/10/1316:21:11INFOConfiguration.deprecation:fs.default.nameisdeprecated.Instead,usefs.defaultFS16/10/1316:21:12INFOConfiguration.deprecation:fs.default.nameisdeprecated.Instead,usefs.defaultFS16/10/1316:21:12INFOimpl.TimelineClientImpl:Time

时出 NullPointerException java apache hadoop

204 205 206207208 209 210