草庐IT

YARN-Cgroups

全部标签

hadoop - 在 YARN 上运行时,Spark 调度程序池如何工作?

我有混合的Spark版本(1.6、2.0、2.1),全部部署在YARN(Hadoop2.6.0/CDH5.5)上。我试图保证某个应用程序永远不会缺少我们YARN集群上的资源,无论那里可能正在运行什么。我启用了随机播放服务并设置了一些FairSchedulerPools如Spark文档中所述。我为我希望永远不会资源匮乏的高优先级应用程序创建了一个单独的池,并为它提供了minShare资源:FAIR10FAIR124当我在YARN集群上运行Spark应用程序时,我可以看到我配置的池已被识别:17/04/0411:38:20INFOscheduler.FairSchedulableBuild

Hadoop yarn 节点列表显示奴隶作为 localhost.localdomain :#somenumber. 连接拒绝异常

我在尝试运行wordcount程序时遇到从localhost.localdomain/127.0.0.1到localhost.localdomain:55352的连接拒绝异常。yarn节点列表给出hduser@localhost:/usr/local/hadoop/etc/hadoop$yarnnode-list15/05/2707:23:54INFOclient.RMProxy:ConnectingtoResourceManageratmaster/192.168.111.72:8040TotalNodes:2Node-IdNode-StateNode-Http-AddressNum

configuration - 如何使用 CDH4 和 Yarn 查看我的 Hadoop 作业历史记录和日志?

我用Yarn下载了Hadoop的CDH4tar,作业运行良好,但我不知道从哪里查看我的作业日志。在MRv1中,我只是访问了JobTracker网络应用程序,它具有工作历史记录。也可以从这里访问单个作业的日志,或者转到logs/userlogs目录。在我的新Yarn设置中(仅在单台计算机上运行),我有日志目录,但没有日志/用户日志文件夹。当我转到ResourceManager网页localhost:8088时,有一个“所有应用程序”部分,但此处没有显示任何条目。当我转到JobHistory网页时,localhost:19888,没有列出任何工作。我想知道是否存在配置问题。这是我的yarn

hadoop - Apache Spark 在 YARN 错误上运行 spark-shell

我从http://spark.apache.org/downloads.html下载:spark-2.1.0-bin-hadoop2.7.tgz.我的HadoopHDFS和YARN以$start-dfs.sh和$start-yarn.sh开头。但是运行$spark-shell--masteryarn--deploy-modeclient给我以下错误:$spark-shell--masteryarn--deploy-modeclientSettingdefaultloglevelto"WARN".Toadjustlogginglevelusesc.setLogLevel(newLevel

scala - 在 Yarn 集群上提交 Spark 作业

我现在已经为以下问题苦苦挣扎了2天多。我用Scala编写了一个基本的“HelloWorld”脚本:objectHelloextendsApp{println("WELCOMETOAFIRSTTESTWITHSCALACOMPILEDWITHSBTcountingfr.1:15withsleep1")valdata=1to15for(a然后我用SBT编译以获得JAR编译版本。然后我使用HDP2.2.4.2将所有内容传输到集群(这是在虚拟Linux机器上运行的Horthonworks沙箱)。我实际上能够使用yarn-client在集群上使用以下命令运行该作业:spark-submit--v

Hadoop:为distcp指定 yarn 队列

在我们的集群上,我们设置了动态资源池。规则设置为首先yarn将查看指定的队列,然后是用户名,然后是主要组......但是对于distcp我似乎无法指定队列,它只是将其设置为主要组。这就是我现在运行它的方式(这是行不通的):hadoopdistcp-Dmapred.job.queue.name:root.default....... 最佳答案 您在指定参数时犯了错误。您不应该使用“:”来分隔键/值对。你应该使用“=”。命令应该是hadoopdistcp-Dmapred.job.queue.name=root.default......

Hadoop/YARN 作业失败 - "exited with exitCode: -1000 due to: Could not find any valid local directory for nmPrivate..."

我正在尝试使用Hadoop、YARN和Accumulo运行MapReduce作业。我收到以下输出,但我无法找到问题所在。看起来是YARN问题,但我不确定它在寻找什么。我在$HADOOP_PREFIX/grid/hadoop/hdfs/yarn/logs位置有一个nmPrivate文件夹。这是它说找不到的文件夹吗?14/03/3108:48:46INFOmapreduce.Job:Jobjob_1395942264921_0023failedwithstateFAILEDdueto:Applicationapplication_1395942264921_0023failed2times

hadoop - Yarn : Make yarn-site. xml 更改对集群中的工作节点有效

我们有一个在HDFS2.7.3上运行的Spark流应用程序,使用Yarn作为资源管理器。运行应用程序时,这两个文件夹:/tmp/hadoop/data/nm-local-dir/filecache/tmp/hadoop/data/nm-local-dir/filecache正在填满磁盘。因此,根据我的研究发现,在yarn-site.xml中配置这两个属性会有所帮助。yarn.nodemanager.localizer.cache.cleanup.interval-ms2000yarn.nodemanager.localizer.cache.target-size-mb2048我已经在每

hadoop - YARN FairScheduler 配置

ResourcemodelinHadoop3允许我们定义自定义资源类型。我进行了一些谷歌搜索,但找不到任何可以说明如何配置YARNFairScheduler以在其池中分配/隔离这些资源的信息。 最佳答案 找到JIRA[Umbrella]YARNResourceProfilesphase#2enhancements,以及一些与RMUI和FairScheduler的内部工作相关的子任务,例如“Addsupportfordynamicresourceupdateswithmultipleresourcetypes”。截至2019年7月,部

hadoop - YARN REST API - Spark 作业提交

我正在尝试使用YARNRESTAPI提交spark-submit作业,我通常通过命令行运行它。我的命令行spark-submit看起来像这样JAVA_HOME=/usr/local/java7/HADOOP_CONF_DIR=/etc/hadoop/conf/usr/local/spark-1.5/bin/spark-submit\--driver-class-path"/etc/hadoop/conf"\--classMySparkJob\--masteryarn-cluster\--conf"spark.executor.extraClassPath=/usr/local/hado