YARN-Cgroups_草庐IT

hadoop - 如何从容器内部获取 YARN ContainerId？

我正在YARN上运行Spark作业，并希望获取YARN容器ID(作为跨一组Spark作业生成唯一ID的要求的一部分)。我可以看到Container.getId()方法获取ContainerId但不知道如何从YARN获取对当前运行容器的引用。这可能吗？YARN容器如何获取自己的信息？最佳答案我能得到一些东西的唯一方法是使用日志目录。以下在sparkshell中工作。importorg.apache.hadoop.yarn.api.records.ContainerIddeff():String={vallocalLogDir:St

ContainerId 从容 section hadoop apache-spark hadoop-yarn

hadoop - 在每个 EMR/Yarn 节点上运行 Unix shell 命令

我想在AmazonEMR集群中的每个节点上安装一个Python模块。看起来最明显的方法是通过ssh连接到每个节点并在命令行安装它。我将YARN视为在集群中的每个节点上运行相同JAR文件的一种方式，但YARN的“jar”命令似乎在本地系统上运行。最佳答案您可以使用bootstrap在启动集群时在每个EMR节点上安装第3方软件。如果您使用命令行，您可以传递保存在s3中的shell脚本作为引导操作的一部分。awsemrcreate-cluster--name"Testcluster"--ami-version3.3\--use-def

hadoop shell section bootstrap code hadoop-yarn emr

hadoop - 在 Yarn 上运行时，容器/资源分配在 Hadoop 和 Spark 中意味着什么？

当spark在内存中运行时，在yarn上运行时Spark中的资源分配意味着什么？它与hadoop的容器分配有何不同？只是想知道Hadoop的数据和计算在磁盘上，而Spark在内存中。最佳答案 Hadoop是一个能够处理大数据的框架。它有两层。一个是称为HDFS的分布式文件系统层，第二个是分布式处理层。在hadoop2.x中，处理层以通用方式构建，因此它也可以用于非mapreduce应用程序。对于任何进程，我们都需要系统资源，如内存、网络、磁盘和cpu。术语容器出现在hadoop2.x中。在hadoop1.x中，对应的术语是槽。容器

容器意味着 section 中进 hadoop apache-spark hadoop-yarn hadoop2

hadoop - 在 yarn 上运行 spark 时我们应该使用哪种模式？

我知道在yarn集群上运行spark应用程序时有两种模式。在yarn-cluster模式下，驱动程序在ApplicationMaster中运行(在YARN集群内)。在yarn-client模式下，运行在提交作业的client节点我想知道使用一种模式相对于另一种模式有哪些优势？什么情况下应该使用哪种模式。最佳答案有两种部署模式可用于在YARN上启动Spark应用程序。Yarn-cluster:Spark驱动程序作为YARNApplicationMaster在Hadoop集群中运行，并在YARN容器中启动Spark执行器。这使得Sp

hadoop spark strong 中运 section apache-spark hadoop-yarn bigdata

hadoop - 如何从 SparkContext 连接 Apache Spark 和 Yarn？

我使用Eclipse在Java中开发了一个Spark应用程序。到目前为止，我通过将master的地址配置为“local[*]”来使用独立模式。现在我想把这个应用程序部署到Yarn集群上。我找到的唯一官方文档是http://spark.apache.org/docs/latest/running-on-yarn.html与在mesos集群上或独立部署的文档(http://spark.apache.org/docs/latest/running-on-mesos.html)不同，在SparkContext中没有任何URL可用于master的地址。显然，我必须使用行命令在Yarn上部署spa

SparkContext hadoop code section yarn apache-spark hadoop-yarn

macos - 无法在 OS X 10.8 上启动 Hadoop YARN 的节点管理器

启动所有其他节点后，当我尝试启动nodemanager时，它似乎已经打开然后自动终止。像下面这样:Yitongs-MacBook-Pro:hadooptimyitong$sbin/yarn-daemon.shstartnodemanagerstartingnodemanager,loggingto/Users/timyitong/Dev/hadoop/logs/yarn-timyitong-nodemanager-Yitongs-MacBook-Pro.local.outYitongs-MacBook-Pro:hadooptimyitong$jps8981DataNode9300Jps

Hadoop macos code nodemanager section

xml - 如何将多个节点添加到 Hadoop 2.2.0 Yarn？

我有一个正在进行的Hadoop集群配置，包括四台机器，但在MapReduceWebUI中我只看到一个事件节点而不是四个，即触发MapReduce的olympus名称节点。我知道类似的questions但这样做仍然无济于事，可能是因为版本差异？我的启动似乎一切正常:deploy@olympus:~$start-dfs.sh&&start-yarn.shStartingnamenodeson[olympus]olympus:startingnamenode,loggingto/opt/dev/hadoop/2.2.0/logs/hadoop-deploy-namenode-olympus.

Hadoop Yarn code gt lt xml mapreduce

exception - 简单的 YARN 基准测试 TestDFSIO 失败

我已经在一个双节点集群上安装了hadoop。第一个节点“namenode”运行以下守护进程:hadoop@namenode:~$jps2916SecondaryNameNode2692NameNode3159NodeManager5834Jps2771DataNode3076ResourceManager秒节点“datanode”运行以下守护进程:hadoop@datanode:~$jps2559Jps2087DataNode2198NodeManager在我在两台机器上添加的/etc/hosts文件中:10.240.40.246namenode10.240.172.201datano

exception TestDFSIO hadoop java apache hadoop-yarn

hadoop - 'yarn application -list' 没有显示任何结果

我在YARN集群上运行了一些Spark应用程序。该应用程序显示在YARNUI的“所有应用程序”页面中http://host:8088/cluster但是yarnapplication-list命令没有给出任何结果。这可能是什么原因造成的？最佳答案当您使用不带“-appTypes”或“-appStates”选项的“-list”选项时，它会对“应用程序类型”和“状态”应用默认过滤(请查看下面突出显示的部分)。如果您的所有应用程序都不符合默认过滤条件，那么您将得不到任何结果。申请总数(申请类型:[]和状态:[SUBMITTED、ACC

application amp appStates strong hadoop apache-spark hadoop-yarn

apache-spark - YARN vs 基于实时应用程序的 Spark 处理引擎？

我了解YARN和Spark。但是我想知道什么时候需要使用Yarn和Spark处理引擎。我可以识别YARN和Spark之间的区别的不同案例研究有哪些？最佳答案您不能直接比较Yarn和Spark。Yarn是一个分布式容器管理器，例如Mesos，而Spark是一个数据处理工具。Spark可以在Yarn上运行，就像HadoopMapReduce可以在Yarn上运行一样。碰巧HadoopMapReduce是Yarn附带的功能，而Spark不是。如果你的意思是比较MapReduce和Spark，我建议阅读thisotheranswer.

apache-spark apache section Spark Yarn hadoop hadoop-yarn