YARN-Cgroups_草庐IT

hadoop - 在 YARN 上运行 Spark-Submit 但不平衡(只有 1 个节点在工作)

我尝试在YARN-CLUSTER(2个节点)上运行SparkApps但似乎这2个节点不平衡，因为只有1个节点在工作而另一个不工作.我的脚本:spark-submit--classorg.apache.spark.examples.SparkPi--masteryarn-cluster--deploy-modecluster--num-executors2--driver-memory1G--executor-memory1G--executor-cores2spark-examples-1.6.1-hadoop2.6.0.jar1000我看到我的一个节点正在工作，但另一个没有，所以这是

Spark-Submit 不平 section strong code hadoop apache-spark cluster-computing hadoop-yarn

Hadoop 作业在由 yarn (MRv2) 或 mapred (MRv1) 以外的用户提交时失败

我正在运行一个运行MRv1(CDH5)与LocalFileSystem配对的测试集群，我唯一能够运行作业的用户是mapred(因为mapred是启动jobtracker/tasktracker守护进程的用户)。当以任何其他用户提交作业时，作业失败，因为jobtracker/tasktracker无法在.staging目录下找到job.jar。当YARN(MRv2)与LocalFileSystem配对时，我遇到了完全相同的问题，即当由“yarn”以外的用户提交作业时，应用程序主管无法在.staging目录下找到job.jar。查看提交作业的用户的.staging目录，发现.staging

MRv Hadoop section staging gt hadoop2

hadoop - Spark 无法以 yarn 集群模式运行

我正在尝试在yarn集群上执行我的代码我使用的命令是$SPARK_HOME/bin/spark-submit\--class"MyApp"\target/scala-2.10/my-application_2.10-1.0.jar\--masteryarn-cluster\--num-executors3\--driver-memory6g\--executor-memory7g\但是，我可以看到这个程序只在本地主机上运行。它能够从hdfs读取文件。我已经在独立模式下试过了，效果很好。请指出哪里出了问题。最佳答案我正在使用Had

hadoop Spark section 能达 stackoverflow apache-spark hadoop-yarn

java - Yarn AppMaster 请求容器不工作

我正在运行一个具有8个vCore和8Gb总内存的本地Yarn集群。工作流程是这样的:YarnClient提交在容器中启动AppMaster的应用请求。AppMaster启动，创建amRMClient和nmClient，将自己注册到RM，接下来它通过amRMClient.addContainerRequest为工作线程创建4个容器请求即使有足够的资源可用容器也没有分配(永远不会调用回调的onContainersAllocated函数)。我尝试检查nodemanager和resourcemanager的日志，但没有看到任何与容器请求相关的行。我密切关注apache文档，无法理解我做错了什么

容器 AppMaster YarnAppMaster 34 java hadoop distributed hadoop-yarn

hadoop - 带有 'yarn-client' 的 Spark-shell 尝试从错误的位置加载配置

我正在尝试从笔记本电脑启动bin/spark-shell和bin/pyspark，连接到yarn-client中的Yarn集群模式，我得到了同样的错误WARNScriptBasedMapping:Exceptionrunning/etc/hadoop/conf.cloudera.yarn1/topology.py10.0.240.71java.io.IOException:Cannotrunprogram"/etc/hadoop/conf.cloudera.yarn1/topology.py"(indirectory"/Users/eugenezhulenev/projects/clo

Spark-shell yarn-client code section spark hadoop apache-spark hadoop-yarn

java - 不断增加 YARN 中 Spark 应用程序的物理内存

我在YARN中运行一个Spark应用程序，它有两个执行器，Xms/Xmx为32GB，spark.yarn.excutor.memoryOverhead为6GB。我看到应用程序的物理内存不断增加并最终被节点管理器杀死:2015-07-2515:07:05,354WARNorg.apache.hadoop.yarn.server.nodemanager.containermanager.monitor.ContainersMonitorImpl:Container[pid=10508,containerID=container_1437828324746_0002_01_000003]is

Spark java 1437828324746 container section hadoop memory apache-spark apache-spark-sql

hadoop - 指定 YARN 节点标签时 YARN 应用程序无法启动

我正在尝试使用YARNnodelabels标记工作节点，但是当我在YARN(Spark或简单的YARN应用程序)上运行应用程序时，这些应用程序无法启动。使用Spark，指定--confspark.yarn.am.nodeLabelExpression="my-label"时，作业无法启动(在Submittedapplication[...]上被阻止，请参阅下面的详细信息)。使用YARN应用程序(如distributedshell)，当指定-node_label_expressionmy-label时,应用程序也无法启动这是我到目前为止所做的测试。YARN节点标签设置我正在使用Googl

YARN hadoop code my-label apache-spark hadoop-yarn google-cloud-dataproc

hadoop - 使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR

我正在尝试使用yarn运行Spark，但我遇到了这个错误:线程“main”中的异常java.lang.Exception:当使用master'yarn'运行时，必须在环境中设置HADOOP_CONF_DIR或YARN_CONF_DIR。我不确定“环境”在哪里(具体是什么文件？)。我尝试使用:exportHADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoopexportYARN_CONF_DIR=$HADOOP_HOME/etc/hadoop在bash_profile中，但这似乎没有帮助。最佳答案在使用Ya

中设 CONF HADOOP section code apache-spark

hadoop - 控制和监视 YARN 中同时进行的 mapreduce 任务的数量

我在少数功能强大的机器上部署了一个Hadoop2.2集群。我有使用YARN作为框架的限制，我不是很熟悉。如何控制并行运行的实际map和reduce任务的数量？每台机器都有很多CPU内核(12-32)和足够的RAM。我想最大限度地利用它们。我如何监控我的设置是否确实提高了机器的利用率？在哪里可以查看在给定作业中使用了多少个内核(线程、进程)？在此先感谢您帮助我熔化这些机器:) 最佳答案 1.在MR1中，mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.task

mapreduce hadoop section YARN http hadoop-yarn

hadoop - Spark 提交 YARN 方式 HADOOP_CONF_DIR 内容

我正在尝试在YARN模式下使用sparksubmit在hadoop集群上启动spark任务。我正在从我的开发机器上启动spark-submit。根据RunningSparkOnYARN文档，我应该在环境变量HADOOP_CONF_DIR或YARN_CONF_DIR上提供hadoop集群配置的路径。这就是它变得棘手的地方:如果我将任务发送到远程YARN服务，为什么这些文件夹必须存在于我的本地机器上？这是否意味着spark-submit必须位于集群内部，因此我无法远程启动spark任务？如果没有，我应该用什么填充这些文件夹？是否应该从任务管理器服务所在的YARN集群节点复制hadoop配置

HADOOP_CONF_DIR hadoop code section spark apache-spark hadoop-yarn