草庐IT

yarn-site

全部标签

logging - Hadoop 将 YARN 应用程序的日志存储在哪里?

我运行Hortonworks的基本示例yarnapplicationexample.应用程序失败,我想阅读日志以找出原因。但是我在存储我的mapreduce作业日志的预期位置(/HADOOP_INSTALL_FOLDER/logs)找不到任何文件。有人知道yarn在哪里存储非mapreduce日志文件吗?我是否必须在xml文件中配置一个特殊目录? 最佳答案 容器日志应该在yarn.nodemanager.log-dirs下:Wheretostorecontainerlogs.Anapplication'slocalizedlogdi

hadoop - YARN 中 Application Manager 和 Application Master 的区别?

我了解MRv1的工作原理。现在我正在尝试了解MRv2..YARN中的ApplicationManager和ApplicationMaster有什么区别? 最佳答案 术语ApplicationMaster和ApplicationManager经常互换使用。实际上,ApplicationMaster是请求、启动和监控应用程序特定资源的主要容器,而ApplicationManager是ResourceManager中的一个组件。下面给出了有关应用程序管理器的更多详细信息。ApplicationsManager负责维护提交的集合应用程序。申

hadoop - yarn 不尊重 yarn.nodemanager.resource.cpu-vcores

我正在使用Hadoop-2.4.0,我的系统配置是24个内核,96GBRAM。我正在使用以下配置mapreduce.map.cpu.vcores=1yarn.nodemanager.resource.cpu-vcores=10yarn.scheduler.minimum-allocation-vcores=1yarn.scheduler.maximum-allocation-vcores=4yarn.app.mapreduce.am.resource.cpu-vcores=1yarn.nodemanager.resource.memory-mb=88064mapreduce.map.m

hadoop - YARN 资源管理器未连接到节点管理器

在此先感谢您的帮助我正在运行以下版本:Hadoop2.2动物园管理员3.4.5基数0.96hive0.12当我转到http://:50070时,我能够正确地看到2个节点正在运行。问题是当我转到http://:8088时它显示0个节点正在运行。我知道:8088反射(reflect)了资源管理器并显示了正在运行的节点管理器的数量。守护进程全部启动,但节点管理器似乎没有连接到资源管理器。这是日志文件:2013-12-1620:55:48,648INFOorg.apache.hadoop.yarn.client.RMProxy:ConnectingtoResourceManagerat/127

hadoop - YARN 中作业的聚合资源分配

我是Hadoop新手。当我运行一个作业时,我看到该作业的总资源分配为251248654MB秒,24462vcore秒。但是,当我找到有关集群的详细信息时,它显示总共有888Vcor​​es和15.90TBMemory-total。谁能告诉我这有什么关系?MB-second和Vcor​​e-seconds指的是什么。网上有资料可以了解这些吗?我试过冲浪,但没有得到正确的答案 最佳答案 VCores-Total:IndicatesthetotalnumberofVCoresavailableintheclusterMemory-Tota

hadoop - 关于如何在 MacOS 上将 Hadoop 2.2.0 (Yarn) 安装为单节点集群的好教程

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于StackOverflow来说是偏离主题的,因为它们往往会吸引自以为是的答案和垃圾邮件。相反,describetheproblem以及迄今为止为解决该问题所做的工作。关闭8年前。Improvethisquestion我正在尝试在我的MacOS上将ApacheHadoop2.2.0安装为单节点集群,但找不到任何有助于无误地完成设置的文档。到目前为止,我在Hadoop、Cloudera和其他网站上找到的所有指南要么缺乏细节,要么包含过时的信息。任何人都

hadoop - Yarn 给现有的 map reduce 带来了什么额外的好处?

Yarn的基础设施层与原始mapreduce架构的不同之处如下:在YARN中,作业跟踪器分为两个不同的守护进程,分别称为ResourceManager和NodeManager(特定于节点)。资源管理器只管理资源分配给不同的作业,除了包含一个调度程序,它只负责调度作业而不用担心任何监控或状态更新。不同的资源,如内存、CPU时间、网络带宽等,被放入一个称为ResourceContainer的单元中。不同的AppMasters运行在不同的节点上,它们与这些资源容器中的许多对话,并相应地使用监控/状态详细信息更新节点管理器。我想知道使用这种方法如何从map-reduce的角度提高性能?此外,如

hadoop - 在 Yarn 集群上运行 Spark 作业

我想在HadoopYARN集群模式下运行我的spark作业,我正在使用以下命令:spark-submit--masteryarn-cluster--driver-memory1g--executor-memory1g--executor-cores1--classcom.dc.analysis.jobs.AggregationJobsparkanalitic.jarparam1param2param3我在下面收到错误,请提示出了什么问题,命令是否正确。我正在使用CDH5.3.1。Diagnostics:Applicationapplication_1424284032717_0066f

apache-spark - 如何在没有 hive-site.xml 的情况下将 Spark SQL 连接到远程 Hive Metastore(通过节俭协议(protocol))?

我将HiveContext与SparkSQL一起使用,并且我正在尝试连接到远程Hive元存储,设置Hive元存储的唯一方法是在类路径中包含hive-site.xml(或将其复制到/etc/spark/conf/).有没有办法在不包含hive-site.xml的情况下以编程方式在java代码中设置此参数?如果是这样,要使用什么Spark配置? 最佳答案 对于Spark1.x,您可以设置:System.setProperty("hive.metastore.uris","thrift://METASTORE:9083");finalSp

hadoop - 运行 Spark 作业时,YARN 不会基于公平份额抢占资源

我在重新平衡YARN上的ApacheSpark作业资源时遇到问题FairScheduled队列。对于测试,我已将Hadoop2.6(也尝试过2.7)配置为在MacOS上使用本地HDFS以伪分布式模式运行。对于作业提交,使用来自Spark'swebsite的“为Hadoop2.6及更高版本预构建Spark1.4”(也尝试过1.5)分发.在HadoopMapReduce作业上使用基本配置进行测试时,公平调度程序按预期工作:当集群的资源超过某个最大值时,计算公平份额,并根据这些计算抢占和平衡不同队列中作业的资源。对Spark作业运行相同的测试,在这种情况下,YARN正在为每个作业正确计算公平