草庐IT

lost-executors

全部标签

hadoop - YARN-Cgroups : Failed to initialize container executor in non-secure cluster

我正在尝试在非安全模式下将cgroups与YARN2.6.0结合使用。有用如果我使用DefaultContainerExecutor就好了。但是,当我尝试使用LinuxContainerExecutor时出现错误。现在,当我执行-->$yarnnodemanager时,它失败了ExitCodeExceptionexitCode=24:File/home/hduser2/hadoop/hadoop-2.6.0/etc/hadoopmustbeownedbyroot,butisownedby1001atorg.apache.hadoop.util.Shell.runCommand(Shel

scala - 我可以在 Apache Spark 中捕获诸如 on Executor start 之类的事件吗?

我想做的是让执行器在启动时(即在开始执行任何任务之前)启动一个程序,例如分析工具。通过这种方式,可以监视诸如执行程序的CPU使用率之类的事情。Spark是否提供这样的钩子(Hook)/回调?我用过SparkListener,但那是驱动端用的。我们对执行者有类似的东西吗? 最佳答案 这应该可以满足您的要求。http://spark.apache.org/developer-tools.html#profiling设置yourkit以与驱动程序和从属程序(执行程序)一起工作。除非您告诉它,否则它不会开始分析。连接到master或slav

hadoop - 如果工作节点上未安装 Spark(在 YARN 上),如何启动 Spark Executors?

我有一个关于以集群模式在YARN上运行的ApacheSpark的问题。根据thisthread,Spark本身不必安装在集群中的每个(工作)节点上。我的问题出在SparkExecutors上:一般来说,YARN或者资源管理器应该决定资源分配。因此,SparkExecutors可以在集群中的任何(工作)节点上随机启动。但是,如果没有在任何(工作)节点上安装Spark,YARN如何启动SparkExecutors? 最佳答案 在高层次上,当Spark应用程序在YARN上启动时,ApplicationMaster(Spark特定)将在其中

hadoop - Spark : Spark not using the all the executors configured

我们正在运行一个spark流应用程序,它有批处理排队..但它没有使用为其配置的所有执行程序..它被配置为使用24个执行器,但实际上它只使用了16并且批处理正在排队我们怎样才能让它使用所有24个执行器而不让它排队批处理 最佳答案 it'sconfiguredtouse24executorsbutactuallyit'sonlyusing16您的作业期望分配给它24个容器/执行器,但它只收到16个。这可能是由于以下原因:集群未配置为提供预期数量的资源资源可以是由底层集群管理器(yarn/mesos)配置的内存或vcores。您可以通过检

hadoop - Spark + yarn : How to retain logs of lost-executors

使用配置有Yarn的Spark(在client模式下,虽然与问题关系不大),我发现我的一些Executors失败。Executor是一个Yarn-Container,它的日志文件位于:/var/log/hadoop-yarn/containers/containerID。容器生成的一些(关键)事件/日志渗透到驱动程序,但不是全部。据观察,当一个Executor失败时,它的logfile会在它死后立即被清除。有什么方法可以防止这些日志因调试目的而被删除吗? 最佳答案 既然,你的yarn上有Spark,我希望这有助于收集所有日志yarn

hadoop - 为什么 Apache Spark worker executor 以退出状态 1 被杀死?

apachespark独立设置中的所有工作人员都显示以下消息。worker:执行者app-20150902151146-0001/6已完成,状态为KILLEDexitStatus1收到此消息的原因是什么。 最佳答案 根据您提供的少量信息,我们只能笼统地回答这个问题。所以我的回答是从SeanOwen的answer得到的启发。关于worker和执行者之间的关系,也来自ResourceManagementwithYARN上的Cloudera博客以及关于Clustermodeoverview的官方文档.那么让我们开始定义ApacheSpar

hadoop - 集群模式下的 Spark Pi 示例,使用 Yarn : Association lost

这个问题在这里已经有了答案:HowtoknowwhatisthereasonforClosedChannelExceptionswithspark-shellinYARNclientmode?(4个答案)关闭3年前。我有三个虚拟机作为分布式Spark集群运行。我正在使用Spark1.3.0和底层Hadoop2.6.0。如果我运行SparkPi示例/usr/local/spark130/bin/spark-submit--classorg.apache.spark.examples.SparkPi--masteryarn-client/usr/local/spark130/example

scala - Spark : Executor Lost Failure (After adding groupBy job)

我正在尝试在Yarn客户端上运行Spark作业。我有两个节点,每个节点都有以下配置。我收到“ExecutorLostFailure(执行程序1丢失)”。我已经尝试了大部分Spark调优配置。我已经减少到一个执行器丢失,因为最初我遇到了6个执行器故障。这些是我的配置(我的spark-submit):HADOOP_USER_NAME=hdfsspark-submit--classgenkvs.CreateFieldMappings--masteryarn-client--driver-memory11g--executor-memory11G--total-executor-cores16

hadoop - EMR 集群中的 "LOST"节点

如何对长期运行的EMR集群中丢失的节点进行故障排除和恢复?该节点几天前停止报告。主机似乎很好,HDFS也很好。我仅从Hadoop应用程序UI注意到该问题。 最佳答案 EMR节点是短暂的,一旦它们被标记为丢失,您就无法恢复它们。您可以首先通过在集群启动期间启用“终止保护”功能来避免这种情况。关于寻找LOST节点的原因,您可以检查集群的YARNResourceManager日志和/或实例Controller日志,以找到有关根本原因的更多信息。 关于hadoop-EMR集群中的"LOST"节点

hadoop - 在 EC2 : spark. driver.extraClassPath 和 spark.executor.extraClassPath 上设置 spark 类路径

通过为maven依赖项提供spark-classPath来减少应用程序jar的大小:我的集群有3个运行hadoop和spark的ec2实例。如果我使用maven依赖项构建jar,它会变得太大(大约100MB),我想避免这种情况,因为Jar正在所有节点上进行复制,每次我运行作业。为了避免我构建了一个maven包作为“maven包”。为了解决依赖关系,我已经在每个节点上下载了所有maven依赖关系,然后只在jar路径下方提供:我在“spark-defaults.conf”中的每个节点上添加了类路径作为spark.driver.extraClassPath/home/spark/.m2/re