草庐IT

作业队

全部标签

java - 在 Hadoop MapReduce 作业中链接 Multi-Reducer

现在我有一个4阶段的MapReduce作业,如下所示:Input->Map1->Reduce1->Reducer2->Reduce3->Reduce4->Output我注意到Hadoop中有一个ChainMapper类,它可以将多个映射器链接成一个大映射器,并节省映射阶段之间的磁盘I/O成本。还有一个ChainReducer类,但它不是真正的“Chain-Reducer”。它只能支持以下工作:[Map+/ReduceMap*]我知道我可以为我的任务设置四个MR作业,并为最后三个作业使用默认映射器。但这会消耗大量磁盘I/O,因为reducer应该将结果写入磁盘以让后面的映射器访问它。是否

hadoop - 远程运行 Hadoop 作业

我正在尝试从集群外部运行MapReduce作业。例如Hadoop集群在Linux机器上运行。我们有一个在Windows机器上运行的Web应用程序。我们想从此远程Web应用程序运行hadoop作业。我们想要检索hadoop输出目录并将其呈现为图形。我们编写了如下一段代码:Configurationconf=newConfiguration();Jobjob=newJob(conf);conf.set("mapred.job.tracker","192.168.56.101:54311");conf.set("fs.default.name","hdfs://192.168.56.101:

performance - 如何获取 spark 作业的指标?

我们有一个大约有20个节点的集群。这个集群在许多用户和作业之间共享。因此,我很难通过观察我的工作来获得一些指标,例如CPU使用率、I/O、网络、内存等...如何获得工作级别的指标。PS:集群已经安装了Ganglia,但不确定如何让它在作业级别工作。我想做的是监控集群使用的资源,仅用于执行我的工作。 最佳答案 您可以从SparkHistoryServer获取spark作业指标,它显示以下信息:-调度程序阶段和任务列表-RDD大小和内存使用情况的总结-A环境信息-有关正在运行的执行程序的信息1、启动spark应用前将spark.even

unit-testing - hadoop mapreduce 作业的最佳单元测试工具/方法

我是新来的,但需要知道对通过ApacheHadoop编写的程序进行单元测试的最佳方法。我知道我们可以用jUnit方式为map和reduce方法中的逻辑编写单元测试用例。我们也可以对涉及的其他逻辑做同样的事情,但这并不能保证它经过良好的测试并且可以在实际运行环境中工作。我读过关于MRUnit的文章,但它似乎也与我上面提到的类似,但方式更成熟。但它也不会作为真正的mapreduce工作运行,而是一个被mock的工作。任何帮助,将不胜感激。谢谢。 最佳答案 你当然有其他选择。稍微用谷歌搜索一下,你自己就会得到它。在这里,我为您做到了!这是

hadoop - wordCount mapReduce 作业如何与 apache tez 在 hadoop yarn 集群上运行?

作为tez的github页面说,tez非常简单,其核心只有两个组件:数据处理管道引擎,以及数据处理应用程序的主控程序,可以将上述任意数据处理“任务”放在一个任务DAG中那么我的第一个问题是,现有的mapreduce作业(例如tez-examples.jar中存在的wordcount)如何转换为任务DAG?在哪里?或者他们不...?我的第二个也是更重要的问题是关于这部分的:tez中的每个“任务”都有以下内容:用于使用键/值对的输入。处理它们的处理器。输出以收集处理后的键/值对。谁负责在tez任务之间拆分输入数据?它是用户提供的代码还是Yarn(资源管理器)甚至是tez本身?输出阶段的问题

hadoop - 实现高级作业控制框架以帮助链接多个 Map-Reduce 作业是什么意思?

我是Hadoop的新手,目前分配给我的项目是“实现高级作业控制框架以帮助链接多个Map-Reduce作业,即调查/改进现有的org.apache.hadoop.mapred.jobcontrol包。”此项目列在随机想法下的项目建议页面上http://wiki.apache.org/hadoop/ProjectSuggestions#research_projects我的困惑是,我是否必须构建Oozie的高级版本(我认为这是一个链接多个作业的作业控制框架)或类似的东西,或者这是否意味着完全不同的东西。我错过了什么? 最佳答案 看起来您

java - 由于容器启动的 AM 容器异常, headless (headless)环境中的 MapReduce 作业失败 N 次

在MacOSX的headless(headless)环境中运行mapreduce作业时(例如,当以特定用户身份通过​​ssh运行作业时),我得到以下异常或类似的异常......2013-12-0415:08:28,513WARNorg.apache.hadoop.yarn.server.resourcemanager.RMAuditLogger:USER=hadoopOPERATION=ApplicationFinished-FailedTARGET=RMAppManagerRESULT=FAILUREDESCRIPTION=Appfailedwithstate:FAILEDPERMI

hadoop - 如何更改当前正在运行的 hadoop 作业的队列?

我的hadoop作业运行了10多个小时,但由于我将它放在错误的队列中,容器不断被调度程序杀死。如何在不重启的情况下更改当前正在运行的hadoop作业的队列?谢谢 最佳答案 如果运行Yarn,您可以通过以下方式更改当前作业的队列yarnapplication-movetoqueue-queue 关于hadoop-如何更改当前正在运行的hadoop作业的队列?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.co

hadoop - 如何杀死由配置单元启动的 mapred 作业?

我现在使用CDH5.1。它通过YARN启动正常的Hadoop作业,但hive仍然可以使用mapred。有时一个大查询会挂起很长时间,我想杀死它。我可以通过JobTrackerWeb控制台找到这个大作业,但它没有提供终止它的按钮。另一种方式是通过命令行查杀。但是,我找不到任何通过命令行运行的作业。我已经尝试了2个命令:yarn应用程序列表映射作业列表如何终止这样的大查询? 最佳答案 您可以在运行作业时从HiveCLI或从WebUI获取作业ID。您还可以使用资源管理器中的应用程序ID列出作业ID。理想情况下,您应该从mapredjob-

Hadoop:重定向到作业历史记录服务器时出现 NullPointerException

我有一个Hadoop集群(HDP2.1)。一切都已经运行了很长时间,但突然间作业开始返回以下反复出现的错误:16/10/1316:21:11INFOConfiguration.deprecation:fs.default.nameisdeprecated.Instead,usefs.defaultFS16/10/1316:21:12INFOConfiguration.deprecation:fs.default.nameisdeprecated.Instead,usefs.defaultFS16/10/1316:21:12INFOimpl.TimelineClientImpl:Time