草庐IT

YARN-Cgroups

全部标签

java - 从 Hadoop YARN 启动一个 java 应用程序

我正在尝试从YARN应用程序运行java应用程序(详细信息:从YARN应用程序中的ApplicationMaster)。我发现的所有示例都在处理运行的bash脚本。我的问题似乎是我错误地将JAR文件分发到集群中的节点。我在YARN客户端中将JAR指定为本地资源。PathjarPath2=newPath("/hdfs/yarn1/08_PrimeCalculator.jar");jarPath2=fs.makeQualified(jarPath2);FileStatusjarStat2=null;try{jarStat2=fs.getFileStatus(jarPath2);log.lo

Hadoop/Yarn 分布式 shell 示例

我正在尝试运行分布式shell示例(使用Hadoop的SVNcheckout,这就是版本设置为3.0.0-SNAPSHOT的原因):yarnjarshare/hadoop/yarn/hadoop-yarn-applications-distributedshell-3.0.0-SNAPSHOT.jar\-jarshare/hadoop/yarn/hadoop-yarn-applications-distributedshell-3.0.0-SNAPSHOT.jar\org.apache.hadoop.yarn.applications.distributedshell.Client-s

java - 限制 yarn 中每个应用程序同时运行的容器数量

假设一个yarn应用程序有长时间运行的任务(运行1小时或更长时间)。当一个MR作业开始时,所有集群资源都被阻塞,至少直到一个容器完成,这有时会花费很长时间。有没有办法限制同时运行的容器数量?沿线的东西,例如map.vcores.max(每海里,或全局)。所以其他应用程序不会被阻止。有什么想法吗?附言。Hadoop2.3.0 最佳答案 此行为/功能可以按框架级别处理,而不是在YARN中处理。在Mapreduce中,mapreduce.job.running.map.limit和mapreduce.job.running.reduce.

hadoop - Hadoop cgroups 和调度器之间的区别

我试图理解Hadoop中的cgroups,但无法完全理解。它们与根据配置规则为每个队列分配资源的调度程序有何不同?我的理解是,调度程序似乎更多地与内存相关,因为组与CPU相关。我的理解正确吗?我确定我在这里遗漏了一些东西。请专家指导。谢谢 最佳答案 在Hadoop2(YARN)中,调度程序负责为任务的执行分配容器。每个容器都分配有固定内存以在执行期间使用。当任务尝试使用比分配的内存更多的内存时,NodeManager将终止该任务。但是如果任务正在使用节点中所有可用的CPU怎么办。那样的话,其他人将无法取得任何进展。因此,要控制容器的

api - 纱 API : Getting Yarn Aggregated Logs for application by API

我使用YARNjavaAPI而不是在终端中提交Hadoop应用程序。我正在寻找一种在应用程序完成后通过YarnAPI获取yarn聚合日志的方法。当然,这可以通过简单的命令来完成:“yarnlogs-applicationId{my_application_ID}”,但我想通过API来完成。有人知道如何使用API而不是命令行来获取这些日志吗?谢谢。 最佳答案 正如您在代码源上所做的那样https://github.com/apache/hadoop/blob/trunk/hadoop-yarn-project/hadoop-yarn/

hadoop - 即使在使用 yarn 运行时存在映射器,Map-reduce 作业也会出现 ClassNotFound 异常?

我正在运行一个hadoop作业,当我在伪分布式模式下不使用yarn运行它时它工作正常,但是当使用yarn运行时它给我类未找到异常16/03/2401:43:40INFOmapreduce.Job:TaskId:attempt_1458775953882_0002_m_000003_1,Status:FAILEDError:java.lang.RuntimeException:java.lang.ClassNotFoundException:Classcom.hadoop.keyword.count.ItemMappernotfoundatorg.apache.hadoop.conf.C

hadoop - YARN 上的 Spark : execute driver without worker

在YARN上运行Spark,集群模式。3个带YARN的数据节点YARN=>32个vCore,32GBRAM我正在这样提交Spark程序:spark-submit\--classcom.blablacar.insights.etl.SparkETL\--name${JOB_NAME}\--masteryarn\--num-executors1\--deploy-modecluster\--driver-memory512m\--driver-cores1\--executor-memory2g\--executor-cores20\toto.jarjson我可以看到2个作业在2个节点上运

java - Hadoop YARN 简单 yarn 应用

我正在尝试运行此处列出的简单yarn应用程序:https://github.com/hortonworks/simple-yarn-app我是Java和Hadoop的初学者,当我尝试使用“javac”编译简单的yarn客户端文件时,出现以下错误:Client.java:9:错误:包org.apache.hadoop.conf不存在importorg.apache.hadoop.conf.Configuration;我用来编译文件的命令是:javacClient.java我已经用谷歌搜索了这个错误,看看我是否能找到我的类路径中缺少哪个JAR文件,但我找不到任何关于YARN的有用信息。大多

java - Yarn MapReduce 作业死于奇怪的消息

我有Hadoop-Yarn集群,当我尝试运行hadoop示例时,我在容器日志中收到奇怪的错误消息:Error:Couldnotfindorloadmainclass1638我的Java版本是:javaversion"1.7.0_51"Java(TM)SERuntimeEnvironment(build1.7.0_51-b13)JavaHotSpot(TM)64-BitServerVM(build24.51-b03,mixedmode)在master上运行服务:593NodeManager373SecondaryNameNode745JobHistoryServer507Resource

hadoop - 在独立模式下运行 spark 集群与 Yarn/Mesos

目前我正在以独立模式运行我的spark集群。我正在从平面文件或Cassandra(取决于工作)读取数据,并将处理后的数据写回到Cassandra本身。我想知道我是否切换到Hadoop并开始使用像YARN或mesos这样的资源管理器,它是否给我带来了额外的性能优势,例如执行时间和更好的资源管理?目前我在洗牌过程中处理大量数据时可能会出现阶段失败。如果我迁移到YARN,Resourcemanager可以解决这个问题吗? 最佳答案 Spark独立集群管理器还可以为您提供集群模式功能。如果您只运行Spark,Spark独立集群将提供几乎所有