YARN-Cgroups

hadoop2 在没有 yarn 和 mapreduce 的情况下构建 hdfs

我想根据已发表的论文对hadoophdfs进行一些更改。之后我只需要构建HDFS并让它运行起来。我该怎么做？最佳答案引用以下Hadoop文档http://wiki.apache.org/hadoop/HowToContribute 关于hadoop2在没有yarn和mapreduce的情况下构建hdfs，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/23050595/

hadoop yarn 类未在同一个 jar 中找到，但在运行作业期间包不同

我以“Hadoop:权威指南2/e”一书为例。我遇到了一个问题..:-(。我用的是ubuntu12.04，hadoop2.2.0。我使用eclipse制作了job.jar。map_reduce.programming.v1.MaxTemperatureReducer类在jar中，但包不同。当我运行作业时，我遇到类未找到异常。下面是mapred-site.xmlmapreduce.framework.nameyarn如果将值更改为local而不是yarn，它会起作用。但如果是yarn，则不起作用。HADOOP_CLASS_PATH包括包含job.jar的路径。根本原因是什么？pack

hadoop yarn mapreduce mapred jobs hadoop-yarn

ubuntu - 如何调试 apache yarn 中的作业失败

我有hadoopapacheyarn(2.4.0)多节点集群，有2个数据节点和1个主节点。我的设置工作正常，但是当我运行包中的hadoop字数统计示例时。我的工作停止在14/08/2815:44:13INFOmapreduce.Job:Runningjob:job_1409220779657_0001Howtodebugdebugtheproblemaboutthis...这背后的错误是什么...注意:我使用下面的命令来运行字数统计示例bin/hadoopjarshare/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.0.jarwordc

ubuntu apache section yarn hadoop hadoop-yarn

java - Yarn 容器上的 ExitCodeException

我在运行一个简单的YARN应用程序时遇到以下异常，我如何才能获得更多信息来调试该问题？Oct14,201412:29:19PMdz.lab.yarn.simple.handler.RMCallbackHandleronContainersCompletedINFO:container'container_1410790353365_0036_02_000002'statusisContainerStatus:[ContainerId:container_1410790353365_0036_02_000002,State:COMPLETE,Diagnostics:Exceptionfr

ExitCodeException 容器 java section ThreadPoolExecutor hadoop hadoop-yarn

hadoop - YARN ResourceTrackerService 在 STARTED 状态下失败

我正在尝试在共享磁盘上具有HadoopDirectory的几台机器上设置hadoop集群。HDFS运行良好。但是当我尝试启动YARN时，ResourceTracker抛出BindException。ResourceTracker配置运行的节点(ahti.d.umn.edu-131.212.41.9)可以访问(我可以通过SSH连接到它)并且端口(28025)也已打开。org.apache.hadoop.yarn.server.resourcemanager.ResourceTrackerServicefailedinstateSTARTED;cause:org.apache.hadoop

ResourceTrackerService STARTED hadoop resourcemanager apache hadoop-yarn

java - 如何编写可以使用 "hadoop -jar"运行的独立 YARN 应用程序？

我必须在Hadoop集群中运行一些无法用Map/Reduce表达的东西。我想到了为它编写一个YARN应用程序。我发现了SpringYarn对于spring-boot并遵循入门指南(请参阅链接)。到目前为止，这是有效的，但存在一些缺陷:在教程中生成了三个JAR(一个用于客户端，一个用于appmaster，一个用于容器)，在提交应用程序时它们必须位于特定的文件夹结构中我必须在application.yml中对HDFSURI和资源管理器主机/端口进行硬编码，或者将它们作为命令行参数提供由于它是基于SpringBoot，应用程序是用java-jar启动的，所以创建的JAR文件非常大，里面基本上

amp 编写 code li section java hadoop hadoop-yarn

scala - SparkPi 程序在 Yarn/Spark/Google Compute Engine 下保持运行

在GoogleComputeEngine上部署了一个Hadoop(Yarn+Spark)集群，其中有一个主节点和两个从节点。当我运行以下shell脚本时:spark-submit--classorg.apache.spark.examples.SparkPi--masteryarn-cluster--num-executors1--driver-memory1g--executor-memory1g--executor-cores1/home/hadoop/spark-install/lib/spark-examples-1.1.0-hadoop2.4.0.jar10作业一直在运行，每

SparkPi Compute section code br scala hadoop apache-spark google-compute-engine hadoop-yarn

hadoop - Spark : yarn cluster mode can't read hdfs path (No such file or directory)

我在yarn模式下使用spark提交，但我收到了这个错误:显然我的输入路径hdfs://缺少一个'/'我正在通过hdfs://master:8020/usr/jimmy/Test/，但是日志输出是日志文件中的hdfs:/master:8020/usr/jimmy/Test/Personal1(Personal1在我的代码中指定)缺少的'/'显然是问题所在我能做什么？请帮帮我我的命令:./bin/spark-submit--masteryarn-cluster--classMovie.Movies/usr/jimmy/Move.jarhdfs://master:8020/usr/jimm

directory cluster code hdfs master hadoop apache-spark

hadoop - yarn 如何管理 hadoop 中的额外资源？

考虑有3个顶级队列，q1、q2、q3。CapacitySchedulerq1和q2的用户将他们的作业提交到各自的队列，他们保证获得分配的资源。现在q3未使用的资源必须由q1和q2使用。yarn在划分额外资源时考虑了哪些因素？谁(q1，q2)得到偏好？最佳答案 CapacityScheduler中的每个队列都有2个重要属性(根据可用资源总量的百分比定义)，它们决定了调度:保证队列的容量(由配置“yarn.scheduler.capacity.{queue-path}.capacity”决定)队列可以增长到的最大容量(由配置“yarn

hadoop yarn strong section capacity hadoop-yarn resourcemanager

hadoop - 为什么 Hadoop yarn(2.7.1) 中的平均合并时间为零？以及如何获得这个时间的精确度

我对Hadoopyarn2.7.1中的平均合并时间有疑问我在具有7个节点的集群上运行了一个wordcount示例，其中包含一个txt文件(1.5GB)正如您在下图中看到的那样，一个作业有12个map任务和一个reduce任务什么平均合并时间为零？这是否意味着12个map输出的排序或合并为零？screenshot请指导我最佳答案没有，平均合并时间为avg(sortFinishTime-shuffleFinishTime)Reducer在shuffle期间接收来自多个映射器的输入。收到输入后，这些输入将附加到reducer(本地)的

hadoop section strong stackoverflow merge mapreduce

41 42 434445 46 47