草庐IT

YARN-Cgroups

全部标签

hadoop - 如何从容器内部获取 YARN ContainerId?

我正在YARN上运行Spark作业,并希望获取YARN容器ID(作为跨一组Spark作业生成唯一ID的要求的一部分)。我可以看到Container.getId()方法获取ContainerId但不知道如何从YARN获取对当前运行容器的引用。这可能吗?YARN容器如何获取自己的信息? 最佳答案 我能得到一些东西的唯一方法是使用日志目录。以下在sparkshell中工作。importorg.apache.hadoop.yarn.api.records.ContainerIddeff():String={vallocalLogDir:St

hadoop - 在每个 EMR/Yarn 节点上运行 Unix shell 命令

我想在AmazonEMR集群中的每个节点上安装一个Python模块。看起来最明显的方法是通过ssh连接到每个节点并在命令行安装它。我将YARN视为在集群中的每个节点上运行相同JAR文件的一种方式,但YARN的“jar”命令似乎在本地系统上运行。 最佳答案 您可以使用bootstrap在启动集群时在每个EMR节点上安装第3方软件。如果您使用命令行,您可以传递保存在s3中的shell脚本作为引导操作的一部分。awsemrcreate-cluster--name"Testcluster"--ami-version3.3\--use-def

hadoop - 在 Yarn 上运行时,容器/资源分配在 Hadoop 和 Spark 中意味着什么?

当spark在内存中运行时,在yarn上运行时Spark中的资源分配意味着什么?它与hadoop的容器分配有何不同?只是想知道Hadoop的数据和计算在磁盘上,而Spark在内存中。 最佳答案 Hadoop是一个能够处理大数据的框架。它有两层。一个是称为HDFS的分布式文件系统层,第二个是分布式处理层。在hadoop2.x中,处理层以通用方式构建,因此它也可以用于非mapreduce应用程序。对于任何进程,我们都需要系统资源,如内存、网络、磁盘和cpu。术语容器出现在hadoop2.x中。在hadoop1.x中,对应的术语是槽。容器

hadoop - 在 yarn 上运行 spark 时我们应该使用哪种模式?

我知道在yarn集群上运行spark应用程序时有两种模式。在yarn-cluster模式下,驱动程序在ApplicationMaster中运行(在YARN集群内)。在yarn-client模式下,运行在提交作业的client节点我想知道使用一种模式相对于另一种模式有哪些优势?什么情况下应该使用哪种模式。 最佳答案 有两种部署模式可用于在YARN上启动Spark应用程序。Yarn-cluster:Spark驱动程序作为YARNApplicationMaster在Hadoop集群中运行,并在YARN容器中启动Spark执行器。这使得Sp

hadoop - 如何从 SparkContext 连接 Apache Spark 和 Yarn?

我使用Eclipse在Java中开发了一个Spark应用程序。到目前为止,我通过将master的地址配置为“local[*]”来使用独立模式。现在我想把这个应用程序部署到Yarn集群上。我找到的唯一官方文档是http://spark.apache.org/docs/latest/running-on-yarn.html与在mesos集群上或独立部署的文档(http://spark.apache.org/docs/latest/running-on-mesos.html)不同,在SparkContext中没有任何URL可用于master的地址。显然,我必须使用行命令在Yarn上部署spa

macos - 无法在 OS X 10.8 上启动 Hadoop YARN 的节点管理器

启动所有其他节点后,当我尝试启动nodemanager时,它似乎已经打开然后自动终止。像下面这样:Yitongs-MacBook-Pro:hadooptimyitong$sbin/yarn-daemon.shstartnodemanagerstartingnodemanager,loggingto/Users/timyitong/Dev/hadoop/logs/yarn-timyitong-nodemanager-Yitongs-MacBook-Pro.local.outYitongs-MacBook-Pro:hadooptimyitong$jps8981DataNode9300Jps

xml - 如何将多个节点添加到 Hadoop 2.2.0 Yarn?

我有一个正在进行的Hadoop集群配置,包括四台机器,但在MapReduceWebUI中我只看到一个事件节点而不是四个,即触发MapReduce的olympus名称节点。我知道类似的questions但这样做仍然无济于事,可能是因为版本差异?我的启动似乎一切正常:deploy@olympus:~$start-dfs.sh&&start-yarn.shStartingnamenodeson[olympus]olympus:startingnamenode,loggingto/opt/dev/hadoop/2.2.0/logs/hadoop-deploy-namenode-olympus.

exception - 简单的 YARN 基准测试 TestDFSIO 失败

我已经在一个双节点集群上安装了hadoop。第一个节点“namenode”运行以下守护进程:hadoop@namenode:~$jps2916SecondaryNameNode2692NameNode3159NodeManager5834Jps2771DataNode3076ResourceManager秒节点“datanode”运行以下守护进程:hadoop@datanode:~$jps2559Jps2087DataNode2198NodeManager在我在两台机器上添加的/etc/hosts文件中:10.240.40.246namenode10.240.172.201datano

hadoop - 'yarn application -list' 没有显示任何结果

我在YARN集群上运行了一些Spark应用程序。该应用程序显示在YARNUI的“所有应用程序”页面中http://host:8088/cluster但是yarnapplication-list命令没有给出任何结果。这可能是什么原因造成的? 最佳答案 当您使用不带“-appTypes”或“-appStates”选项的“-list”选项时,它会对“应用程序类型”和“状态”应用默认过滤(请查看下面突出显示的部分)。如果您的所有应用程序都不符合默认过滤条件,那么您将得不到任何结果。申请总数(申请类型:[]和状态:[SUBMITTED、ACC

apache-spark - YARN vs 基于实时应用程序的 Spark 处理引擎?

我了解YARN和Spark。但是我想知道什么时候需要使用Yarn和Spark处理引擎。我可以识别YARN和Spark之间的区别的不同案例研究有哪些? 最佳答案 您不能直接比较Yarn和Spark。Yarn是一个分布式容器管理器,例如Mesos,而Spark是一个数据处理工具。Spark可以在Yarn上运行,就像HadoopMapReduce可以在Yarn上运行一样。碰巧HadoopMapReduce是Yarn附带的功能,而Spark不是。如果你的意思是比较MapReduce和Spark,我建议阅读thisotheranswer.