草庐IT

YARN-Cgroups

全部标签

hadoop2 在没有 yarn 和 mapreduce 的情况下构建 hdfs

我想根据已发表的论文对hadoophdfs进行一些更改。之后我只需要构建HDFS并让它运行起来。我该怎么做? 最佳答案 引用以下Hadoop文档http://wiki.apache.org/hadoop/HowToContribute 关于hadoop2在没有yarn和mapreduce的情况下构建hdfs,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/23050595/

hadoop yarn 类未在同一个 jar 中找到,但在运行作业期间包不同

我以“Hadoop:权威指南2/e”一书为例。我遇到了一个问题..:-(。我用的是ubuntu12.04,hadoop2.2.0。我使用eclipse制作了job.jar。map_reduce.programming.v1.MaxTemperatureReducer类在jar中,但包不同。当我运行作业时,我遇到类未找到异常。下面是ma​​pred-site.xmlmapreduce.framework.nameyarn如果将值更改为local而不是yarn,它会起作用。但如果是yarn,则不起作用。HADOOP_CLASS_PATH包括包含job.jar的路径。根本原因是什么?pack

ubuntu - 如何调试 apache yarn 中的作业失败

我有hadoopapacheyarn(2.4.0)多节点集群,有2个数据节点和1个主节点。我的设置工作正常,但是当我运行包中的hadoop字数统计示例时。我的工作停止在14/08/2815:44:13INFOmapreduce.Job:Runningjob:job_1409220779657_0001Howtodebugdebugtheproblemaboutthis...这背后的错误是什么...注意:我使用下面的命令来运行字数统计示例bin/hadoopjarshare/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.0.jarwordc

java - Yarn 容器上的 ExitCodeException

我在运行一个简单的YARN应用程序时遇到以下异常,我如何才能获得更多信息来调试该问题?Oct14,201412:29:19PMdz.lab.yarn.simple.handler.RMCallbackHandleronContainersCompletedINFO:container'container_1410790353365_0036_02_000002'statusisContainerStatus:[ContainerId:container_1410790353365_0036_02_000002,State:COMPLETE,Diagnostics:Exceptionfr

hadoop - YARN ResourceTrackerService 在 STARTED 状态下失败

我正在尝试在共享磁盘上具有HadoopDirectory的几台机器上设置hadoop集群。HDFS运行良好。但是当我尝试启动YARN时,ResourceTracker抛出BindException。ResourceTracker配置运行的节点(ahti.d.umn.edu-131.212.41.9)可以访问(我可以通过SSH连接到它)并且端口(28025)也已打开。org.apache.hadoop.yarn.server.resourcemanager.ResourceTrackerServicefailedinstateSTARTED;cause:org.apache.hadoop

java - 如何编写可以使用 "hadoop -jar"运行的独立 YARN 应用程序?

我必须在Hadoop集群中运行一些无法用Map/Reduce表达的东西。我想到了为它编写一个YARN应用程序。我发现了SpringYarn对于spring-boot并遵循入门指南(请参阅链接)。到目前为止,这是有效的,但存在一些缺陷:在教程中生成了三个JAR(一个用于客户端,一个用于appmaster,一个用于容器),在提交应用程序时它们必须位于特定的文件夹结构中我必须在application.yml中对HDFSURI和资源管理器主机/端口进行硬编码,或者将它们作为命令行参数提供由于它是基于SpringBoot,应用程序是用java-jar启动的,所以创建的JAR文件非常大,里面基本上

scala - SparkPi 程序在 Yarn/Spark/Google Compute Engine 下保持运行

在GoogleComputeEngine上部署了一个Hadoop(Yarn+Spark)集群,其中有一个主节点和两个从节点。当我运行以下shell脚本时:spark-submit--classorg.apache.spark.examples.SparkPi--masteryarn-cluster--num-executors1--driver-memory1g--executor-memory1g--executor-cores1/home/hadoop/spark-install/lib/spark-examples-1.1.0-hadoop2.4.0.jar10作业一直在运行,每

hadoop - Spark : yarn cluster mode can't read hdfs path (No such file or directory)

我在yarn模式下使用spark提交,但我收到了这个错误:显然我的输入路径hdfs://缺少一个'/'我正在通过hdfs://master:8020/usr/jimmy/Test/,但是日志输出是日志文件中的hdfs:/master:8020/usr/jimmy/Test/Personal1(Personal1在我的代码中指定)缺少的'/'显然是问题所在我能做什么?请帮帮我我的命令:./bin/spark-submit--masteryarn-cluster--classMovie.Movies/usr/jimmy/Move.jarhdfs://master:8020/usr/jimm

hadoop - yarn 如何管理 hadoop 中的额外资源?

考虑有3个顶级队列,q1、q2、q3。CapacitySchedulerq1和q2的用户将他们的作业提交到各自的队列,他们保证获得分配的资源。现在q3未使用的资源必须由q1和q2使用。yarn在划分额外资源时考虑了哪些因素?谁(q1,q2)得到偏好? 最佳答案 CapacityScheduler中的每个队列都有2个重要属性(根据可用资源总量的百分比定义),它们决定了调度:保证队列的容量(由配置“yarn.scheduler.capacity.{queue-path}.capacity”决定)队列可以增长到的最大容量(由配置“yarn

hadoop - 为什么 Hadoop yarn(2.7.1) 中的平均合并时间为零?以及如何获得这个时间的精确度

我对Hadoopyarn2.7.1中的平均合并时间有疑问我在具有7个节点的集群上运行了一个wordcount示例,其中包含一个txt文件(1.5GB)正如您在下图中看到的那样,一个作业有12个map任务和一个reduce任务什么平均合并时间为零?这是否意味着12个map输出的排序或合并为零?screenshot请指导我 最佳答案 没有,平均合并时间为avg(sortFinishTime-shuffleFinishTime)Reducer在shuffle期间接收来自多个映射器的输入。收到输入后,这些输入将附加到reducer(本地)的