YARN_OPTS

java - HADOOP - 编写 YARN 应用程序

我正在阅读this我有点困惑。我是否必须始终编写Client和ApplicationMaster类才能在YARN中运行我自己的代码？例如，如果我想运行一个只生成随机数的应用程序，我是否必须将这些类包含到我的代码中，或者它可以在没有这些的情况下运行它？或者，它们是否都是不同的示例，因为我可以在其中看到2个主要类(每个类中有1个主要类)？我尝试了所有这些方法，但我仍然遇到错误-->usage[input][ouput]: 最佳答案编写原生YARN应用程序可能有点笨拙，因为HadoopYARN项目没有更高级别的框架来帮助解决这个问题。然

编写 HADOOP section noreferrer noopener java hadoop-yarn

hadoop - 在 Hive 脚本中设置 mapred.child.java.opts 会导致 MR 作业立即获得 'killed'

由于OutOfMemory和GCoverheadlimitexceeded错误，我有一些作业失败了。为了对抗前者，我尝试在配置单元脚本的开头设置SETmapred.child.java.opts="-Xmx3G";**。基本上，每当我将此选项添加到脚本时，安排的MR作业(对于脚本中几个查询中的第一个)都会立即“终止”。关于如何纠正这个问题有什么想法吗？是否有任何其他参数需要与最大堆空间一起修改(例如io.sort.mb)？任何帮助将非常感谢。FWIW，我正在使用hive-0.7.0和hadoop-0.20.2。我们集群中最大堆大小的默认设置是1200M。TIA。**-尝试过的其他一些替

中设 amp code mapred child hadoop hive hiveql

java - 从 Java 应用程序在 hadoop 2.2 (Yarn) 上启动 mapreduce 作业

我正在尝试从Java应用程序调用mapreduce作业。在以前的hadoop版本(1.x)中，我创建了一个Configuration对象和一个Job对象，在Configuration中设置mapred.job.tracker和fs.default.name并运行工作。现在，在hadoop2.x中，jobtracker不再存在，也不存在任何关于如何以编程方式运行MR1作业的文档。有什么想法吗？我正在寻找的是这里给出的解释:Callingamapreducejobfromasimplejavaprogram 最佳答案 MRClientA

mapreduce hadoop section 中设 java hadoop-yarn

java - 从 Hadoop YARN 启动一个 java 应用程序

我正在尝试从YARN应用程序运行java应用程序(详细信息:从YARN应用程序中的ApplicationMaster)。我发现的所有示例都在处理运行的bash脚本。我的问题似乎是我错误地将JAR文件分发到集群中的节点。我在YARN客户端中将JAR指定为本地资源。PathjarPath2=newPath("/hdfs/yarn1/08_PrimeCalculator.jar");jarPath2=fs.makeQualified(jarPath2);FileStatusjarStat2=null;try{jarStat2=fs.getFileStatus(jarPath2);log.lo

java Hadoop packageResource section code hadoop-yarn

Hadoop/Yarn 分布式 shell 示例

我正在尝试运行分布式shell示例(使用Hadoop的SVNcheckout，这就是版本设置为3.0.0-SNAPSHOT的原因):yarnjarshare/hadoop/yarn/hadoop-yarn-applications-distributedshell-3.0.0-SNAPSHOT.jar\-jarshare/hadoop/yarn/hadoop-yarn-applications-distributedshell-3.0.0-SNAPSHOT.jar\org.apache.hadoop.yarn.applications.distributedshell.Client-s

Hadoop shell apache java mapreduce protocol-buffers hadoop-yarn

java - 限制 yarn 中每个应用程序同时运行的容器数量

假设一个yarn应用程序有长时间运行的任务(运行1小时或更长时间)。当一个MR作业开始时，所有集群资源都被阻塞，至少直到一个容器完成，这有时会花费很长时间。有没有办法限制同时运行的容器数量？沿线的东西，例如map.vcores.max(每海里，或全局)。所以其他应用程序不会被阻止。有什么想法吗？附言。Hadoop2.3.0 最佳答案此行为/功能可以按框架级别处理，而不是在YARN中处理。在Mapreduce中，mapreduce.job.running.map.limit和mapreduce.job.running.reduce.

容器 java 长时 section https hadoop scheduling distributed-computing hadoop-yarn

api - 纱 API : Getting Yarn Aggregated Logs for application by API

我使用YARNjavaAPI而不是在终端中提交Hadoop应用程序。我正在寻找一种在应用程序完成后通过YarnAPI获取yarn聚合日志的方法。当然，这可以通过简单的命令来完成:“yarnlogs-applicationId{my_application_ID}”，但我想通过API来完成。有人知道如何使用API而不是命令行来获取这些日志吗？谢谢。最佳答案正如您在代码源上所做的那样https://github.com/apache/hadoop/blob/trunk/hadoop-yarn-project/hadoop-yarn/

application Aggregated hadoop yarn section api logging hadoop-yarn

hadoop - 即使在使用 yarn 运行时存在映射器，Map-reduce 作业也会出现 ClassNotFound 异常？

我正在运行一个hadoop作业，当我在伪分布式模式下不使用yarn运行它时它工作正常，但是当使用yarn运行时它给我类未找到异常16/03/2401:43:40INFOmapreduce.Job:TaskId:attempt_1458775953882_0002_m_000003_1,Status:FAILEDError:java.lang.RuntimeException:java.lang.ClassNotFoundException:Classcom.hadoop.keyword.count.ItemMappernotfoundatorg.apache.hadoop.conf.C

射器 ClassNotFound hadoop apache Configuration mapreduce

hadoop - YARN 上的 Spark : execute driver without worker

在YARN上运行Spark，集群模式。3个带YARN的数据节点YARN=>32个vCore，32GBRAM我正在这样提交Spark程序:spark-submit\--classcom.blablacar.insights.etl.SparkETL\--name${JOB_NAME}\--masteryarn\--num-executors1\--deploy-modecluster\--driver-memory512m\--driver-cores1\--executor-memory2g\--executor-cores20\toto.jarjson我可以看到2个作业在2个节点上运

execute without section YARN Spark hadoop apache-spark hadoop-yarn

java - Hadoop YARN 简单 yarn 应用

我正在尝试运行此处列出的简单yarn应用程序:https://github.com/hortonworks/simple-yarn-app我是Java和Hadoop的初学者，当我尝试使用“javac”编译简单的yarn客户端文件时，出现以下错误:Client.java:9:错误:包org.apache.hadoop.conf不存在importorg.apache.hadoop.conf.Configuration;我用来编译文件的命令是:javacClient.java我已经用谷歌搜索了这个错误，看看我是否能找到我的类路径中缺少哪个JAR文件，但我找不到任何关于YARN的有用信息。大多

Hadoop java code section hadoop-yarn

64 65 666768 69 70