草庐IT

yarn-daemon

全部标签

hadoop - YARN 和 NameNode 什么时候交互

提交作业时,YARN和NameNode什么时候交互?提交作业后,它会发送给谁?有人可以解释端到端流程-hadoop生态系统如何运作吗?谢谢! 最佳答案 Namenode:存储数据节点中存储的所有数据的元数据,监控数据节点的健康状况。基本上,它是一种主从架构。YARN:代表YetAnotherResourceNegotiator。yarn主要有两种成分。1.>调度2.>应用程序管理器Yarn还包含master,即ResourceManager和Slave,即NodeManager。出于调度目的,有3个调度器:1.>先进先出2.>容量3

hadoop - hadoop 安装过程中无法运行 yarn

我正在本地Windows机器上安装HDFS。我遵循的安装指南是https://github.com/MuhammadBilalYar/Hadoop-On-Window/wiki/Step-by-step-Hadoop-2.8.0-installation-on-Window-10我能够按照上述指南中提到的所有步骤进行操作。但是,在最后一步,当我在sbin目录中运行“start-all.cmd”时,yarnnodemanager和resourcemanger无法执行并出现以下错误Couldn'tfindapackage.jsonfilein"C:\hadoop-3.0.3\hadoop-

java - Yarn mini-cluster 容器日志目录不包含 syslog 文件

我已经基于来自CDH5.1.0的hadoop2.3.0设置了带有1个节点管理器、4个本地目录和4个日志目录等的YARNMapReduce迷你集群。它看起来或多或少有效。我未能实现的是来自容器的系统日志记录。我看到容器日志目录、stdout和stderr文件,但没有看到带有MapReduce容器日志记录的syslog。适当的stderr警告我没有log4j配置并且不包含任何其他字符串:log4j:WARNNoappenderscouldbefoundforlogger(org.apache.hadoop.metrics2.impl.MetricsSystemImpl).log4j:WAR

linux - 使用 hadoop2 (YARN) 时出现连接异常

我在ubuntu上安装了Hadoop(YARN)。资源管理器似乎正在运行。当我运行hadoopfs-ls命令时,我收到以下错误:14/09/2215:52:14WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicablels:CallFromubuntu-8.abcd/xxx.xxx.xxx.xxxxtoubuntu-8.testMachine:9000failedonconnectionexception:java.

hadoop - yarn : maximum parallel Map task count

Hadoop权威指南中提到了以下内容"Whatqualifiesasasmalljob?Bydefaultonethathaslessthan10mappers,onlyonereducer,andtheinputsizeislessthanthesizeofoneHDFSblock."但是在YARN上执行作业之前,它如何计算作业中没有映射器?在MR1中,映射器的数量取决于编号。输入split。YARN也一样吗?在YARN容器中是灵活的。那么有没有什么方法可以计算可以在给定集群上并行运行的最大映射任务数(某种严格的上限,因为它会让我粗略地了解我可以并行处理多少数据?)?

hadoop - Yarn NodeManager 和 ResourceManager 在同一个节点

(默认情况下)在HadoopYarn中是否有与“资源管理器”相同的节点中的“节点管理器”?如果不是,是否可以在同一节点上运行它们? 最佳答案 取决于您是否要在RM节点上运行其他容器(用于ApplicationMaster或任务)。如果您希望您的RM节点专用于资源管理、调度等,那么请不要在RM节点上启动NM。如果您认为RM节点上有空闲的cpu/mem/disk(特别是对于小型集群,或者要调度的作业很少的集群),那么在RM节点上运行NM。 关于hadoop-YarnNodeManager和R

hadoop - 如何从容器内部获取 YARN ContainerId?

我正在YARN上运行Spark作业,并希望获取YARN容器ID(作为跨一组Spark作业生成唯一ID的要求的一部分)。我可以看到Container.getId()方法获取ContainerId但不知道如何从YARN获取对当前运行容器的引用。这可能吗?YARN容器如何获取自己的信息? 最佳答案 我能得到一些东西的唯一方法是使用日志目录。以下在sparkshell中工作。importorg.apache.hadoop.yarn.api.records.ContainerIddeff():String={vallocalLogDir:St

hadoop - 在每个 EMR/Yarn 节点上运行 Unix shell 命令

我想在AmazonEMR集群中的每个节点上安装一个Python模块。看起来最明显的方法是通过ssh连接到每个节点并在命令行安装它。我将YARN视为在集群中的每个节点上运行相同JAR文件的一种方式,但YARN的“jar”命令似乎在本地系统上运行。 最佳答案 您可以使用bootstrap在启动集群时在每个EMR节点上安装第3方软件。如果您使用命令行,您可以传递保存在s3中的shell脚本作为引导操作的一部分。awsemrcreate-cluster--name"Testcluster"--ami-version3.3\--use-def

hadoop - 在 Yarn 上运行时,容器/资源分配在 Hadoop 和 Spark 中意味着什么?

当spark在内存中运行时,在yarn上运行时Spark中的资源分配意味着什么?它与hadoop的容器分配有何不同?只是想知道Hadoop的数据和计算在磁盘上,而Spark在内存中。 最佳答案 Hadoop是一个能够处理大数据的框架。它有两层。一个是称为HDFS的分布式文件系统层,第二个是分布式处理层。在hadoop2.x中,处理层以通用方式构建,因此它也可以用于非mapreduce应用程序。对于任何进程,我们都需要系统资源,如内存、网络、磁盘和cpu。术语容器出现在hadoop2.x中。在hadoop1.x中,对应的术语是槽。容器

hadoop - 在 yarn 上运行 spark 时我们应该使用哪种模式?

我知道在yarn集群上运行spark应用程序时有两种模式。在yarn-cluster模式下,驱动程序在ApplicationMaster中运行(在YARN集群内)。在yarn-client模式下,运行在提交作业的client节点我想知道使用一种模式相对于另一种模式有哪些优势?什么情况下应该使用哪种模式。 最佳答案 有两种部署模式可用于在YARN上启动Spark应用程序。Yarn-cluster:Spark驱动程序作为YARNApplicationMaster在Hadoop集群中运行,并在YARN容器中启动Spark执行器。这使得Sp