在Hadoop2中,是否可以使用restAPI获得与以下相同的结果:yarnlogs-applicationId 最佳答案 这很痛苦,我没有满意的答案,但我可以为您指出一些资源。YARNCLI通过转到filesystem转储日志.如果您的应用程序可以访问HDFS,它也可以做同样的事情(但这并不简单)。或者,您可以使用rest调用http:///ws/v1/cluster/apps/{appid}获取应用程序主日志URL(但不是日志内容).从此URL中,您可以获取包含日志内容的HTML页面,该页面将在中返回。带有编码HTML实体的标签
我在设置以下调度程序队列参数时遇到了一些问题:有2个队列Dev和Prod根100%开发30%生产率70%(如果只有一个使用它应该充当100%的集群)每个队列由多个用户使用,资源应该被平均共享,但是当只有一个用户存在时(在每个队列中)它应该使用队列的全部容量。如果用户单独在集群中,它应该使用100%的集群以防第二个用户加入,调度程序应该共享可用资源我现在有什么,示例流程:集群没有作业用户队列Dev中的提交作业。(它现在使用100%的集群)用户B在队列Dev提交作业(它卡在已接受并等待第一个作业完成)我想要什么:在这种情况下,因为第二个作业在同一个队列中,每个作业都应该接收队列的50%,即
这个问题在这里已经有了答案:HowtoknowwhatisthereasonforClosedChannelExceptionswithspark-shellinYARNclientmode?(4个答案)关闭3年前。我有三个虚拟机作为分布式Spark集群运行。我正在使用Spark1.3.0和底层Hadoop2.6.0。如果我运行SparkPi示例/usr/local/spark130/bin/spark-submit--classorg.apache.spark.examples.SparkPi--masteryarn-client/usr/local/spark130/example
我正在调用yarnRESTAPI以发现有关工作的信息。我可以点击http://server:8088/ws/v1/cluster/apps在Postman中获取JSON格式的应用程序列表:太棒了。我现在想获取有关每个单独应用程序的信息。根据HadoopYARN-IntroductiontothewebservicesRESTAPI's电话是:但是当我尝试将该URL(好吧,我的服务器和应用程序的等效项)粘贴到我的浏览器时,我被发送到:我想要一个按照上面文档的JSON文档,但我没有得到它。根据文档,我尝试使用curl但一无所获:尝试改用PowerShell:如您所见,它返回的是HTML,而
YARN如何处理软件/硬件故障?具体来说,如果容器出现故障/崩溃,会发生什么情况? 最佳答案 容器和任务故障由节点管理器处理。当容器发生故障或死亡时,节点管理器会检测到故障事件并启动一个新容器来替换发生故障的容器并在新容器中重新启动任务执行。如果application-master发生故障,资源管理器会检测到故障并使用新容器启动application-master的新实例。查找详情here 关于hadoop-如何为YARNMapReduce作业处理容器故障?,我们在StackOverfl
我想用yarn提交多个spark-submit作业。当我运行时spark-submit--classmyclass--masteryarn--deploy-modeclusterblahblah现在,我必须等待作业完成才能提交更多作业。我看到了心跳:16/09/1916:12:41INFOyarn.Client:application_1474313490816_0015的申请报告(状态:RUNNING)16/09/1916:12:42INFOyarn.Client:application_1474313490816_0015的申请报告(状态:RUNNING)我怎样才能让yarn从同一
我正在为一个项目评估YARN。我正在尝试让简单的分布式shell示例工作。我已将申请提交到提交阶段,但它从未开始。这是从这一行报告的信息:ApplicationReportreport=yarnClient.getApplicationReport(appId);应用程序已添加到调度程序,但尚未激活。跳过AM分配,因为集群资源为空。详细信息:AM分区=DEFAULT_PARTITION;AM资源请求=内存:1024,vCores:1;AM的队列资源限制=内存:0,vCores:0;队列的用户AM资源限制=内存:0,vCores:0;队列AM资源使用=memory:128,vCores:
我正在尝试使用sparkoveryarn(CentOS上的ClouderaHadoop5.2)运行一个简单的Map/Reducejava程序。我已经尝试了这两种不同的方式。第一种方式如下:YARN_CONF_DIR=/usr/lib/hadoop-yarn/etc/hadoop/;/var/tmp/spark/spark-1.4.0-bin-hadoop2.4/bin/spark-submit--classMRContainer--masteryarn-cluster--jars/var/tmp/spark/spark-1.4.0-bin-hadoop2.4/lib/spark-ass
提交给Yarn的单个HIVE查询是否会创建多个作业(即多个YARN应用程序)?在这里,我将工作和应用程序视为YARN上下文中的相同想法。据我了解——Yarn会为每个“应用程序”创建一个应用程序主机(AM)。因此,这里可以将单个HIVE查询视为“应用程序”。因此,资源管理器将在某个节点上创建容器并在该容器中启动AM。该容器反过来可能会创建多个“任务”(不是应用程序),即为该AM保留的其他容器内的映射器和缩减器(在相同或不同的节点上——这在这里并不重要)。现在,所有这些ApplicationMaster的集合都致力于解决提交给YARN的单个HIVE查询。事实上,这就是为什么我们说AM是针对
我有一个关于YARN“FairScheduler”的基本问题。根据thedefinition“公平调度程序-公平调度是一种将资源分配给应用程序的方法,以便所有应用程序平均随着时间的推移获得相等的资源份额”。以下是我的理解和疑问。(1)如果多个应用程序在YARN上运行,那么它将确保所有应用程序在一段时间内或多或少地获得相等的资源份额。(2)我的问题是,如果在YARN中这个属性设置为true那么如果我们在提交spark-submit时使用以下配置会有什么不同吗?(i)driver-memory(ii)executor-memory(iii)num-executors(iv)executor