草庐IT

云计算学习笔记5——集群资源调度策略

kathyaier 2023-12-18 原文

一、资源调度策略

多用户多作业的环境下,如何将集群资源在它们之间进行分配,需要特定的策略。

  • FIFO
  • 公平调度器
  • 能力调度器
  • 延迟调度策略
  • 主资源公平调度策略

1. FIFO

  • 最简单的资源调度策略。
  • 提交的作业,按照提交时间先后顺序,或者优先级次序,将其放入线性队列相应位置,先进先出调度和分配资源。
  • 缺点:多用户场景下,新加入的作业容易出现长时间等待调度的现象。

2. 公平调度器

  • Facebook为Hadoop开发的多用户多作业调度器。
  • 用户的任务分配到多个资源池(pool)。
  • 每个资源池设定资源分配的最低保障和最高上限。
  • 管理员可以指定资源池的优先级。
  • 调度过程:

                1. 根据每个资源池的最低保障,将部分资源分配。

                2. 按照资源池的指定优先级将剩余资源,按照比例分配给各个资源池。

                3. 各个资源池中,按照作业优先级或者公平策略,将资源分配给各个作业。

3. 能力调度器

  • Yahoo为Hadoop开发的多用户多作业调度器。
  • 与公平调度器相比,其更强调资源在用户之间,而非作业之间的公平性。
  • 面向用户划分成多个队列,每个队列设定资源分配的最低保障和使用上限。
  • 当一个队列的资源有剩余时,可以暂时将其分享给其他队列。
  • 调度时,优先将资源分配给资源使用率最低的队列。
  • 队列内部按照FIFO调度。

4. 延迟调度策略

  • 不是一种独立的调度方式,作为其他调度策略的辅助措施来增加调度的数据局部性,以此增加任务执行效率。
  • 对于当前要分配资源的任务i,如果当前资源不满足数据局部性,那么可以暂时放弃分配公平性,跳过i分配资源给其他任务。
  • 如果i在被跳过k次后仍然等不到满足局部性的资源,则放弃数据局部性,启动i。

5. 主资源公平调度策略DRF

  • Mesos中央调度器采用的公平调度策略,是最大最小公平算法的一个具体体现。
  • 最大最小公平算法:最大化目前分配到最少资源的用户或者任务的资源量。用来对单个资源进行公平分配。
  • DRF将其扩展到了多个资源的公平分配场景下。
  • 对于每个用户计算分配给他的所有资源的各自分享量,一个用户各个资源分享量中的最大值被称为“主分享量”,对应的资源为“主资源”。
  • DRF旨在使得不同用户的各自“主分享量”最大化地保持公平。

二、负载均衡

1. 概念:

  • 含义:将负载(工作任务)进行平衡、分摊到多个操作单元上进行运行。
  • 在并行系统中,使各个节点尽量均衡的分配工作任务的技术。
  • 通过在处理机之间均衡的、合理的分配计算任务,以获得最大可能的执行速度。
  • 通过调度程序实现。
  • 调度的目的:通过将任务正确的分配给各个处理机,并使其按照一定顺序执行,以尽可能少的时间完成并行应用任务。
  • 静态调度中,调度通常在编译时进行。并行程序的特点在程序执行之前都是已知的。
  • 动态调度中,调度在程序执行时进行。并行程序的特点在程序执行之前知道的很少。使程序的执行时间和调度时间尽可能最小。

2. 静态负载均衡(平衡)

进程执行之前所进行的负载均衡称为静态负载均衡

静态负载均衡的优点:

  • 一般比动态负载均衡省时。
  • 一般在每个处理机上仅生成一个进行,从而减少了进程建立、同步和终止的开销。
  • 可用来评估并行算法的加速比和性能。

利用静态调度的并行程序可以由一个有向无回路图G =(V,E)来表示:

  • 一个顶点表示一个子任务。
  • 一条边表示任务间的依赖关系。
  • 顶点的权值为计算开销。
  • 有向边的权值为相邻点的通信开销。

 表调度

最优调度:对给定一个任务图和处理机数,使任务总的执行时间最小化的调度。

关于最优调度的结论:

  • 如果所有子任务执行时间相同,且任务图是一个森林:算法可在多项式时间能找到最优调度。
  • 如果所有任务执行时间不同,或有两个以上处理机:在最坏情况下,寻找最优调度的最好算法需要指数时间

3. 动态负载均衡(平衡)

  • 在进程的执行过程中完成的负载平衡。
  • 通过分析并行系统的实时负载信息,动态地将任务在各处理机之间进行分配和调整,来消除系统中负载分布的不均匀性。
  • 虽然会有额外开销,但在负载不易均衡的情况下,它比静态~更有效。

 一致性哈希算法

1997,麻省理工学院提出。

  1. 把服务器通过hash算法映射到环上;
  2. 把URL通过hash算法映射到环上,按顺时针方向找到处理该URL的服务器;
  3. 服务器增删,对系统影响较小,架构扩展性强。

三、常用系统示例

当前较为有名的开源资源管理与调度系统:

  • MesosApache下的开源分布式资源管理框架,被称为是分布式系统的内核。最初是由加州大学伯克利分校的AMPLab开发的,后在Twitter得到广泛使用。
  • YARN:hadoop 2.0的重要组成部分,也被称作MRV2,全称“另一种资源协调器”,是一个独立的资源管理系统。

1. Mesos

1.1 基本范型

  • 基本框架:框架调度器+中央调度器 典型的两级调度器
  • 中央调度器采取极简功能和极小接口,只根据一定策略决定分配给各个框架多少资源,将数据局部性保证等具体资源调度策略下推到各个框架
  • 一方面减少中央调度器的负载,增加调度效率;
  • 另一方面使得中央调度器为了支持新出现的框架而改动最小化,增强可扩展性。

1.2 中央调度器部分

  • 中央调度器由多个主控服务器(Master)构成,通过ZooKeeper来保证Master故障时备用主控服务器(Standby Master)可以快速接管工作,增加整个系统的健壮性。
  • Master使用“资源供应”,来将集群内的资源分配给各个计算框架,代表集群内可用的资源列表,Master通过列表决定为每个框架提供多少资源,每个框架自身的二级调度器做更细致的任务间资源分配。
  • 中央调度器的调度策略模块设置成可插拔的,系统管理者可以按需设置中央调度策略。

1.3 计算框架部分

  • 每个计算框架需要向Mesos注册两个接口:框架调度器(scheduler)和执行器(Executor)。
  • 框架调度器起到二级调度器中的第二级调度功能。
  • 执行器从节点(Slave)中执行具体任务;执行器相互之间的资源隔离由Mesos通过Linux Container来获得保证。

 1.4 Mesos 数据局部性&Filter

问题:Mesos不支持计算框架指定资源要求或者约束条件,计算框架只能被动接受被分配的资源,这样很难保证数据局部性。

方案:框架在接收到“资源供应”后,可拒绝接受不满足需求的资源分配而等待后续资源分配。

——缺点:与框架的反复交互降低资源分配效率。

方案

  • Mesos中增加过滤器机制。
  • 计算框架可以向中央调度器注册“过滤器”,过滤器对框架希望接收的资源做出了描述。
  • 如“只从机器列表L中提供资源“。
  • 增加中央调度器和二级调度器之间的交互效率。

2. YARN

 2.1 概念

  • YARN是个典型的两级调度器。
  • ResourceManager(RM)负责整个集群的资源管理功能,类似于中央调度器。
  • 每个任务单独有一个ApplicationMaster负责完成任务所需资源的申请管理与任务生命周期管理功能,类似于二级调度器。
  • AM负责向RM申请作业所需资源,并在作业的众多任务中进行资源分配与协调。

2.2 资源管理器RM部分

  • 负责全局资源管理工作,内部主要功能部件包括:
  • 调度器:提供各种调度策略,支持可插拔方式,系统管理者可指定全局的资源分配策略;
  • AMService:负责系统内所有AM的启动与运行状态管理;
  • Client-RM接口:负责按照一定协议管理客户提交的作业;
  • RM-NM接口:主要和各个机器的NM通过心跳方式进行通信,以此来获知各个机器可用的资源以及机器是否产生故障等信息。

2.3 应用服务器AM部分

  • AM功能类似于Hadoop 1.0的JobTracker,负责向RM申请启动任务所需的资源,同时协调作业内各个任务的运行过程。
  • AM像普通任务一样运行在某台机器的容器内。
  • RM的AMS负责为作业的AM申请资源并启动它,使得整个作业能够运转起来。之后各种任务管理工作都交由AM来负责。
  • AM作为二级调度器,也负责任务间资源分配时的数据局部性等优化调度策略。

2.4 节点管理器NM部分

  • NM部署在每台机器上。
  • 主要负责机器内的容器资源管理,比如容器间的依赖关系/监控容器执行以及为容器提供资源隔离等各种服务。
  • NM启动以后,向RM进行注册,之后通过心跳方式向RM汇报节点状态(RM-NM接口),并执行RM发送来的命令。
  • NM也接收AM发来的命令,比如启动活着杀死某个容器内运行的任务等。

有关云计算学习笔记5——集群资源调度策略的更多相关文章

  1. ruby-on-rails - 使用一系列等级计算字母等级 - 2

    这里是Ruby新手。完成一些练习后碰壁了。练习:计算一系列成绩的字母等级创建一个方法get_grade来接受测试分数数组。数组中的每个分数应介于0和100之间,其中100是最大分数。计算平均分并将字母等级作为字符串返回,即“A”、“B”、“C”、“D”、“E”或“F”。我一直返回错误:avg.rb:1:syntaxerror,unexpectedtLBRACK,expecting')'defget_grade([100,90,80])^avg.rb:1:syntaxerror,unexpected')',expecting$end这是我目前所拥有的。我想坚持使用下面的方法或.join,

  2. ruby - 安装 Ruby 时遇到问题(无法下载资源 "readline--patch") - 2

    当我尝试安装Ruby时遇到此错误。我试过查看this和this但无济于事➜~brewinstallrubyWarning:YouareusingOSX10.12.Wedonotprovidesupportforthispre-releaseversion.Youmayencounterbuildfailuresorotherbreakages.Pleasecreatepull-requestsinsteadoffilingissues.==>Installingdependenciesforruby:readline,libyaml,makedepend==>Installingrub

  3. ruby-on-rails - Rails 3,嵌套资源,没有路由匹配 [PUT] - 2

    我真的为这个而疯狂。我一直在搜索答案并尝试我找到的所有内容,包括相关问题和stackoverflow上的答案,但仍然无法正常工作。我正在使用嵌套资源,但无法使表单正常工作。我总是遇到错误,例如没有路线匹配[PUT]"/galleries/1/photos"表格在这里:/galleries/1/photos/1/edit路线.rbresources:galleriesdoresources:photosendresources:galleriesresources:photos照片Controller.rbdefnew@gallery=Gallery.find(params[:galle

  4. LC滤波器设计学习笔记(一)滤波电路入门 - 2

    目录前言滤波电路科普主要分类实际情况单位的概念常用评价参数函数型滤波器简单分析滤波电路构成低通滤波器RC低通滤波器RL低通滤波器高通滤波器RC高通滤波器RL高通滤波器部分摘自《LC滤波器设计与制作》,侵权删。前言最近需要学习放大电路和滤波电路,但是由于只在之前做音乐频谱分析仪的时候简单了解过一点点运放,所以也是相当从零开始学习了。滤波电路科普主要分类滤波器:主要是从不同频率的成分中提取出特定频率的信号。有源滤波器:由RC元件与运算放大器组成的滤波器。可滤除某一次或多次谐波,最普通易于采用的无源滤波器结构是将电感与电容串联,可对主要次谐波(3、5、7)构成低阻抗旁路。无源滤波器:无源滤波器,又称

  5. CAN协议的学习与理解 - 2

    最近在学习CAN,记录一下,也供大家参考交流。推荐几个我觉得很好的CAN学习,本文也是在看了他们的好文之后做的笔记首先是瑞萨的CAN入门,真的通透;秀!靠这篇我竟然2天理解了CAN协议!实战STM32F4CAN!原文链接:https://blog.csdn.net/XiaoXiaoPengBo/article/details/116206252CAN详解(小白教程)原文链接:https://blog.csdn.net/xwwwj/article/details/105372234一篇易懂的CAN通讯协议指南1一篇易懂的CAN通讯协议指南1-知乎(zhihu.com)视频推荐CAN总线个人知识总

  6. 深度学习部署:Windows安装pycocotools报错解决方法 - 2

    深度学习部署:Windows安装pycocotools报错解决方法1.pycocotools库的简介2.pycocotools安装的坑3.解决办法更多Ai资讯:公主号AiCharm本系列是作者在跑一些深度学习实例时,遇到的各种各样的问题及解决办法,希望能够帮助到大家。ERROR:Commanderroredoutwithexitstatus1:'D:\Anaconda3\python.exe'-u-c'importsys,setuptools,tokenize;sys.argv[0]='"'"'C:\\Users\\46653\\AppData\\Local\\Temp\\pip-instal

  7. 计算机毕业设计ssm+vue基本微信小程序的小学生兴趣延时班预约小程序 - 2

    项目介绍随着我国经济迅速发展,人们对手机的需求越来越大,各种手机软件也都在被广泛应用,但是对于手机进行数据信息管理,对于手机的各种软件也是备受用户的喜爱小学生兴趣延时班预约小程序的设计与开发被用户普遍使用,为方便用户能够可以随时进行小学生兴趣延时班预约小程序的设计与开发的数据信息管理,特开发了小程序的设计与开发的管理系统。小学生兴趣延时班预约小程序的设计与开发的开发利用现有的成熟技术参考,以源代码为模板,分析功能调整与小学生兴趣延时班预约小程序的设计与开发的实际需求相结合,讨论了小学生兴趣延时班预约小程序的设计与开发的使用。开发环境开发说明:前端使用微信微信小程序开发工具:后端使用ssm:VU

  8. ruby - 如何计算 Liquid 中的变量 +1 - 2

    我对如何计算通过{%assignvar=0%}赋值的变量加一完全感到困惑。这应该是最简单的任务。到目前为止,这是我尝试过的:{%assignamount=0%}{%forvariantinproduct.variants%}{%assignamount=amount+1%}{%endfor%}Amount:{{amount}}结果总是0。也许我忽略了一些明显的东西。也许有更好的方法。我想要存档的只是获取运行的迭代次数。 最佳答案 因为{{incrementamount}}将输出您的变量值并且不会影响{%assign%}定义的变量,我

  9. ruby - 使用 Ruby,计算 n x m 数组的每一列中有多少个 true 的简单方法是什么? - 2

    给定一个nxmbool数组:[[true,true,false],[false,true,true],[false,true,true]]有什么简单的方法可以返回“该列中有多少个true?”结果应该是[1,3,2] 最佳答案 使用转置得到一个数组,其中每个子数组代表一列,然后将每一列映射到其中的true数:arr.transpose.map{|subarr|subarr.count(true)}这是一个带有inject的版本,应该在1.8.6上运行,没有任何依赖:arr.transpose.map{|subarr|subarr.in

  10. ruby - 我正在学习编程并选择了 Ruby。我应该升级到 Ruby 1.9 吗? - 2

    我完全不是程序员,正在学习使用Ruby和Rails框架进行编程。我目前正在使用Ruby1.8.7和Rails3.0.3,但我想知道我是否应该升级到Ruby1.9,因为我真的没有任何升级的“遗留”成本。缺点是什么?我是否会遇到与普通gem的兼容性问题,或者甚至其他我不太了解甚至无法预料的问题? 最佳答案 你应该升级。不要坚持从1.8.7开始。如果您发现不支持1.9.2的gem,请避免使用它们(因为它们很可能不被维护)。如果您对gem是否兼容1.9.2有任何疑问,您可以在以下位置查看:http://www.railsplugins.or

随机推荐