草庐IT

scheduler

全部标签

amazon-web-services - 有没有办法在运行时配置和更改 Yarn 调度程序?

目前我正在使用默认的Yarn调度器,但我想做一些类似的事情-RunYarnusingthedefaultschedulerIf(numberofjobsinqueue>X){ChangetheYarnschedulertoFIFO}这甚至可以通过代码实现吗?请注意,我正在使用Yarn作为RM在awsEMR集群上运行Spark作业。 最佳答案 好吧,这可以通过轮询器检查当前队列(使用RMAPI)并更新yarn-site.xml+可能重启RM来实现。但是,重新启动RM可能会影响您的队列,因为当前作业将被终止或关闭(并且可能稍后重试)。如

hadoop - 如何增加 AM 可以在 Hadoop 中使用的最大 vCores?

我正在努力处理一些hadoop配置。我正在寻求增加ApplicationsMaster可以使用的最大vCore数量。我的问题是目前只能使用1个vCore(见下图),因此我一次只能运行一项作业。其他作业将保持在ACCEPT阶段。我已经找到如何增加文件capacity-scheduler.xml中允许的内存。就我而言:yarn.scheduler.capacity.maximum-am-resource-percent0.8yarn.scheduler.capacity.maximum-applications10000yarn.scheduler.capacity.node-locali

hadoop - 使用 Capacity Scheduler 在 Hadoop 集群中设置队列

我尝试设置3个队列。为此,我配置了CapacityScheduler.xml,如下所示。但在此之后,jobtracker正在关闭。我还将这些队列的名称添加到mapred-site.xml中。谁知道原因。entercodehere*mapred.capacity-scheduler.queue.BatchJobsQueue.capacity70mapred.capacity-scheduler.queue.BatchJobsQueue.supports-priorityfalsemapred.capacity-scheduler.queue.BatchJobsQueue.minimum-

hadoop - 并行 hadoop 作业不会通过

我正在运行一个本地hadoop集群并尝试同时提交两个作业,但我的第一个作业通过了,第二个没有,并且一直处于未分配状态,直到第一个作业完成。我预感内存有问题,但我不太明白。这是我为容器、映射器、reduce、jvm等设置的值。yarn.nodemanager.resource.memory-mb=40960yarn.scheduler.minimum-allocation-mb=4096yarn.scheduler.maximum-allocation-mb=10240mapreduce.map.java.opts=-Xmx5120mmapreduce.reduce.java.opts=

hadoop - 映射阶段的进度(LATE 调度程序)- Hadoop

我想找出maptask的进度。如果有人可以帮助我,那就太好了!谢谢!! 最佳答案 我们可以通过两种方式监控作业中Map和Reduce的进度。首先是网络界面。http://pdhadoop1:50030其中pdhadoop1是您的名称节点机器。另一种方式是从作业驱动程序内部,可以输出到控制台(或其他地方)作业提交后,我们进入while循环并检查job.isComplete()。在循环中我们做System.out.println(String.format("ProgressofPageviewsETLJob%s:",job.getJo

hadoop - 我们可以在同一个 hadoop 集群中同时使用 Fair scheduler 和 Capacity Scheduler

我们可以在同一个hadoop集群中同时使用Fairscheduler和CapacityScheduler吗?哪个调度器是好的和有效的。谁能帮帮我? 最佳答案 我认为两者不能同时使用。这也没有意义。为什么要在同一个集群中使用这两种类型的调度?由于特定的用例,两种调度算法都出现了。Fairschedulingisamethodofassigningresourcestojobssuchthatalljobsget,onaverage,anequalshareofresourcesovertime.Whenthereisasinglejo

hadoop - 使用 Fair Scheduler 时,如何确保某些 hadoop 作业最终不会在同一个数据节点中运行?

当使用nutch爬虫时,抓取作业的创建使得来自同一主机的URL最终出现在单个数据节点中以保持抓取礼貌(1QPS)。但是,某些主机允许超过1QPS,因此URL会相应地进行分区。对于此类主机,URL将位于两个意味着在两个不同数据节点上运行的获取作业中。但有时公平调度程序会将这些作业(reducetask)调度到同一个数据节点。那么有什么办法可以解决这个问题吗?非常感谢任何帮助。谢谢 最佳答案 我不确定你是否想做这样的事情,因为它会影响你的Hadoop集群的其余部分......您可以将每个节点的reduce插槽数设置为1。您要为此更改的配

python - 不存在的表的 luigi 目标

我正在尝试使用luigi.hive.HiveTableTarget为luigi任务设置一个简单的表存在性测试我在hive中创建了一个简单的表,只是为了确保它在那里:createtabletest_table(aint);接下来我用luigi设置目标:fromluigi.hiveimportHiveTableTargettarget=HiveTableTarget(table='test_table')>>>target.exists()True太好了,接下来我尝试使用一个我知道不存在的表来确保它返回false。target=HiveTableTarget(table='test_tab

hadoop - yarn 中的 AM 极限是多少?

在yarn大数据集群中运行作业的上下文中,我多次听到AM限制一词。这里也提到了:https://issues.apache.org/jira/browse/YARN-6428这是什么意思? 最佳答案 这是一个保证你不会活锁你的集群的设置。Map-Reduce作业有一个AM,它会生成映射器和缩减器。如果您的队列只有AM任务,那么您将无法运行任何映射器或缩减器,这意味着您的任何AM都不会完成,您也无法做任何有意义的工作。您处于活锁场景中。CapacityScheduler和FairScheduler都有一种方法可以限制AM可以持有的任务

hadoop - 在 Hortonworks 数据平台上从 Capacity Scheduler 切换到 Fair Scheduler

我的组织目前正在使用HortonworksHDP来管理我们的Hadoop集群。默认的YARN调度器是CapacityScheduler。我想切换到FairScheduler。我对HDP完全陌生。在没有集群管理套件的情况下,这将通过编辑yarn-site.xml并将yarn.resourcemanager.scheduler.class属性更改为org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler并创建一个额外的fair-scheduler.xml文件来指定队列配置,如前所述here然后通过在