草庐IT

yarn-daemon

全部标签

hadoop - yarn : How to utilize full cluster resources?

所以我有一个带有7个工作节点的cloudera集群。30GB内存4个vCPU以下是我发现的一些配置(来自Google)对于调整我的集群性能很重要。我正在运行:yarn.nodemanager.resource.cpu-vcores=>4yarn.nodemanager.resource.memory-mb=>17GB(为操作系统和其他进程预留)mapreduce.map.memory.mb=>2GBmapreduce.reduce.memory.mb=>2GB运行nproc=>4(可用处理单元数)现在我担心的是,当我查看我的ResourceManager时,我看到可用内存为119GB,

hadoop - 来自客户端的 YARN ContainerID

是否可以在客户端提交appContext后从YARN客户端获取各种容器ID和主机名?我想这意味着在分配容器后可以将信息传回给客户端吗?如果这不可能,RMWeb界面是否提供此信息? 最佳答案 YARNCLI有一个选项可以从应用程序尝试ID中获取容器列表。您可以按照以下步骤获取容器列表。第1步:从应用程序ID获取应用程序尝试列表从YARN应用程序ID,您可以使用以下命令获取应用程序尝试列表:yarnapplicationattempt-list这个命令的描述是这样的:-listListapplicationattemptsforappl

hadoop - yarn - 为什么任务不会超出堆空间但容器会被杀死?

如果YARN容器超出其堆大小设置,map或reduce任务将失败,并出现类似于以下的错误:2015-02-0611:58:15,461WARNorg.apache.hadoop.yarn.server.nodemanager.containermanager.monitor.ContainersMonitorImpl:Container[pid=10305,containerID=container_1423215865404_0002_01_000007]isrunningbeyondphysicalmemorylimits.Currentusage:42.1GBof42GBphys

java - Apache Spark :-Nullpointer Exception on broadcast variables (YARN Cluster mode)

我有一个简单的spark应用程序,我试图在YARN集群上广播一个String类型的变量。但是每次我尝试访问广播变量值时,我都会在任务中得到空值。如果你们可以提出建议,那将非常有帮助,我在这里做错了什么。我的代码如下:-publicclassTestAppimplementsSerializable{staticBroadcastmongoConnectionString;publicstaticvoidmain(String[]args){StringmongoBaseURL=args[0];SparkConfsparkConf=newSparkConf().setAppName(Co

hadoop - 如何在 hadoop mapreduce/yarn 中设置 VCORES?

以下是我的配置:**mapred-site.xml**map-mb:4096opts:-Xmx3072mreduce-mb:8192opts:-Xmx6144m**yarn-site.xml**resourcememory-mb:40GBminallocation-mb:1GBhadoop集群中的Vcor​​es显示为8GB,但我不知道如何计算或在哪里配置它。希望有人能帮助我。 最佳答案 简答题如果您只是在单节点集群或小型个人分布式集群上开箱即用地运行hadoop,这很可能无关紧要。您只需要担心内存。长答案vCore用于较大的集群,

java - yarn : Containers and JVM

谁能帮我理解一下YARN中JVM和容器之间的关系?JVM是如何创建的,是不是每个任务都有一个JVM?多个任务可以同时在同一个JVM中运行吗?(我知道ubertasking,其中许多任务(maps/reduce)可以在同一个JVM中一个接一个地运行)。每个容器一个JVM吗?还是单个JVM中的多个容器?还是JVM和容器没有关系?当资源管理器为作业分配容器时,同一个作业中的多个任务是否对在同一节点中运行的任务使用同一个容器?还是根据可用性为每个任务单独的容器?指向一些有用链接的指针也会有所帮助。 最佳答案 IsitoneJVMforeac

Hadoop YARN - 如何限制请求的内存?

尝试从hadoop-mapreduce-examples-2.2.0.jar运行PI示例时,出现以下异常:org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.yarn.exceptions.InvalidResourceRequestException):Invalidresourcerequest,requestedmemorymaxconfigured,requestedMemory=1536,maxMemory=512不确定1536来自哪里,但512是我在mapred-site.xml中为子任务设置的最大堆大小:mapr

hadoop - AWS EMR 上的 YARN 日志聚合 - UnsupportedFileSystemException

我正在努力为我的AmazonEMR集群启用YARN日志聚合。我正在按照此文档进行配置:http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-plan-debugging.html#emr-plan-debugging-logs-archive在标题为“使用AWSCLI在AmazonS3中聚合日志”的部分下。我已验证hadoop-config引导操作将以下内容放入yarn-site.xmlyarn.log-aggregation-enabletrueyarn.log-aggregation.retain

scala - yarn 上的 Spark ;如何将指标发送到 Graphite 水槽?

我是spark的新手,我们正在运行sparkonyarn。我可以很好地运行我的测试应用程序。我正在尝试收集Graphite中的Spark指标。我知道要对metrics.properties文件进行哪些更改。但是我的spark应用程序将如何看到这个conf文件?/xxx/spark/spark-0.9.0-incubating-bin-hadoop2/bin/spark-classorg.apache.spark.deploy.yarn.Client--jar/xxx/spark/spark-0.9.0-incubating-bin-hadoop2/examples/target/sca

apache-spark - spark over kubernetes vs yarn/hadoop 生态系统

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我看到spark比kubernetes有很大的吸引力。它比在Hadoop上运行spark更好吗?这两种方法都以分布式方法运行。有人可以帮助我了解在kubernetes上运行spark与在Hadoop生态系统上运行之间的区别/比较吗?谢谢