yarn-daemon

hadoop - 强制 YARN 在所有从站上部署 Spark 任务

我一直在8节点集群上部署SparkPi示例。与示例相关的任务似乎没有部署到集群中的所有节点，即使集群未得到充分利用(没有其他作业在运行)。以下是我启动SparkPi示例的方式:spark-submit--classorg.apache.spark.examples.SparkPi--masteryarn--deploy-modecluster--driver-memory1g--executor-memory1g--executor-cores1--num-executors7$SPARK_HOME/lib/spark-examples-1.6.1-hadoop2.6.0.jar100

上部 hadoop property gt lt apache-spark hadoop-yarn hadoop2

hadoop - yarn Spark 作业调度较慢

我有两个具有以下配置的mapr集群，cluster1:hostedonaws,3nodeswith32gofmemory/32coreseachcluster2:hostedonbare-metalservers,8nodeswith128gofmemory/32coreseach我在两个集群上通过yarn运行一段pyspark代码df=hc.sql("select*fromhive_table")df.registerTempTable("df")df.cache().count()for:100timesresult=hc.sql('selectxxxxfromdf')result

hadoop Spark code section apache-spark pyspark hadoop-yarn pyspark-sql

Hadoop YARN 设置身份验证问题

我按照本页的说明安装单机yarn集群http://hadoop.apache.org/docs/r2.0.5-alpha/hadoop-project-dist/hadoop-common/SingleCluster.html但是当我运行示例jar时，作业卡在那里，我检查资源管理器的日志，发现以下错误(第一个是客户端日志，第二个是资源管理器日志)(客户端)13/10/1817:30:36ERRORsecurity.UserGroupInformation:PriviledgedActionExceptionas:zhangj82(auth:SIMPLE)cause:java.io.IO

Hadoop YARN apache java hadoop-yarn

hadoop - Spark shell 无法连接到 YARN

我尝试用以下方法启动spark-shell:spark-shell--masteryarn-client然后我进入外壳。但几秒钟后，我在shell中得到了这个:WARNReliableDeliverySupervisor:Associationwithremotesystem[akka.tcp://sparkYarnAM@10.0.2.15:38171]hasfailed,addressisnowgatedfor[5000]ms.Reasonis:[Disassociated].我在yarn日志文件中多次重复此错误。15/02/2320:37:26INFOyarn.YarnAlloca

hadoop Spark java code apache apache-spark hadoop-yarn

hadoop - yarn-daemon.sh 写入 HDP 中的错误日志目录

我在笔记本电脑上安装了HortonworksHDP2.2.4.2-2版。我已经启动了名称节点、二级名称节点和所有数据节点等HDFS服务。我可以通过名称节点Web界面浏览HDFS。问题出在资源管理器上。HDP配套文件为HADOOP_LIBEXEC_DIR设置了错误的值。它已设置为/usr/lib/hadoop/libexec，这是错误的。正确的地址是:/usr/hdp/2.2.4.2-2/hadoop/libexec。在我更改此参数并使用此命令启动资源管理器后(使用yarn用户):/usr/hdp/current/hadoop-yarn-resourcemanager/sbin/yarn

yarn-daemon hadoop yarn resourcemanager hortonworks-data-platform

hadoop - yarn stderr 没有 logger appender 也没有 stdout

我正在运行一个简单的mapreduce程序wordcountagianApacheHadoop2.6.0。hadoop正在分布式运行(多个节点)。但是，我无法从yarn作业历史记录中看到任何stderr和stdout。(但我可以看到系统日志)wordcount程序非常简单，仅供演示。importjava.io.IOException;importjava.util.StringTokenizer;importorg.apache.commons.logging.Log;importorg.apache.commons.logging.LogFactory;importorg.apach

appender hadoop apache IntWritable mapreduce cloudera hadoop-yarn hortonworks-data-platform

hadoop - spark-submit 不使用 YARN

我已经使用YARN设置了一个5节点的hadoop集群，Spark也设置在所有5个节点上。我正在使用spark-1.5.0-cdh5.5.0当我运行时spark-shell--masteryarn--num-executors3这会按预期启动一个shell，并使用yarn从RM获取资源。所以，我猜spark正在按预期使用hadoopconf文件。但是当我做spark-submit时spark-submitword_count.py--masteryarn-cluster--num-executors3这是尝试连接到sparkmaster，据信在yarn上运行时不需要这样做。错误如下:16

spark-submit hadoop akka scala ubuntuhdp2 apache-spark pyspark hadoop-yarn

hadoop - YARN 上的 Spark 应用程序的物理内存使用量不断增加

我在YARN客户端模式下运行一个Spark应用程序，有六个执行器(每个四个内核和执行器内存=6GB，开销=4GB，Spark版本:1.6.3/2.1.0)。我发现我的执行程序内存一直在增加，直到被节点管理器杀死；它给出了告诉我提升spark.yarn.excutor.memoryOverhead的信息。我知道这个参数主要是控制堆外分配内存的大小。但是我不知道Spark引擎会在什么时候以及如何使用这部分内存。另外增加那部分内存并不总能解决我的问题。有时有效，有时无效。当输入数据很大时，它趋向于无用。仅供引用，我的应用程序的逻辑非常简单。意思是把一天(一天一个目录)产生的小文件合并成一个，

使用量 hadoop section 的 34 apache-spark memory-management

scala - yarn 上的 Spark 提交没有将 jar 分发到 nm-local-dir

1、版本Spark:2.0.0标度:2.11.8java:1.8.0_91hadoop:2.7.22、问题:当我在yarn上提交scala程序到spark时，它抛出一个异常:Causedby:java.lang.IllegalStateException:Librarydirectory'/opt/hadoop/tmp/nm-local-dir/usercache/hadoop/appcache/application_1471514504287_0021/container_1471514504287_0021_01_000002/assembly/target/scala-2.11

分发 nm-local-dir INFO java 08 scala hadoop apache-spark hadoop-yarn

hadoop - 带有 Yarn 的 Spark Shell - 错误 : Yarn application has already ended! 它可能已被杀死或无法启动应用程序主机

作为this的后续行动问题，当我尝试在我的单节点机器上使用Spark2.1.1overYarn(Hadoop2.8.0)时出现新错误。如果我使用启动SparkShellspark-shell它开始没有问题。在使用通常的start-dfs.sh和start-yarn.sh启动Hadoop之后，如果我使用spark-shell--masteryarn我收到以下错误:17/06/1012:00:07WARNNativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhe

Yarn application scala spark apache hadoop apache-spark hadoop-yarn

80 81 828384 85 86