草庐IT

Hadoop虚拟化扩展(HVE)之资源扩展技术

vBigData 2023-03-28 原文
背景在虚拟化的云环境中,Hadoop可以有更好的“弹性”,这是云计算的一个重要优势,例如亚马逊的EMR(ElasticMapReduce)服务, 用户可以迅速的在云中根据需求部署一个Hadoop集群,运行计算任务,并且用户可以向集群动态的添加或删除计算节点。

这里存在着一个潜在问题,Haodop的数据节点并非天生的有弹性,删除一个数据节点意味着需要重新复制存储在这个节点的数据,这是一个缓慢的过程,并且占用网络带宽。

图1:存储计算分离

存储计算分离可以很好的解决这个问题,如上图所示,我们可以静态的为每个物理结点部署一个数据节点,动态的部署和调整每个物理节点上的计算节点。另外可以利用虚拟机更好的隔离性,为每个租户提供单独的计算节点,提供多租户(Multi-Tenancy)服务。

HVE的资源扩展技术就是对Hadoop计算层的扩展,通过增加Hadoop垂直扩展和水平扩展的动态性,配合资源共享,最终达到优化资源利用的目的。


技术

资源过量配置(Resource Overcommitment)

虚拟机之间的资源共享通常是通过资源过量配置来实现的。大多数的虚拟机Hypervisor,比如VMwareXen,都支持资源过量配置。以VMware ESX为例,他允许为每个虚拟机配置预留资源(Reservation),最大资源(Limit)和共享(Share)来控制同一物理机上多个虚拟机之间的资源共享,以及资源不足时的分配策略。

图2:资源过量配置

有了这个技术,多个应用之间就可以共享资源,比如在其他应用繁忙的时候,可以使Hadoop计算节点少占用一部分资源,而在其他应用空闲的时候,Hadoop节点可以分配到更多资源。


Hadoop计算节点垂直扩展

仅仅通过Hypervisor的资源调度并不能很好的达到资源共享的目的,目前Hadoop的资源配置是静态的:

1. MapReduce v1中,资源通过每个TaskTracker的槽位数配置项配置,槽位就是一定量CPU和内存资源抽象

2. MapReduce v2中,资源通过每个NodeManagerCPU和内存配置项直接配置

这些配置已经启动是无法动态调整的,这样在计算节点虚拟机资源不足的情况下,Hadoop仍然会分配过量的任务到这个节点,任务的执行速度会大幅度降低,从而影响整个集群的性能。

HVE的资源扩展技术通过动态化Hadoop资源配置来解决这个问题:

1. 在计算节点运行过程中,用户可以动态设置每个计算节点的槽位数(MRv1)或者资源数(MRv2)

2. 当计算节点资源不足时,用户或者VHM(Virtual Hadoop Manager)可以自动调整其资源配置,尽量避免资源竞争导致的性能下降

  • MRv1中,调整槽位后,正在运行的任务如果超过了槽位数,任务也不会被杀死,而是不再接受新任务,直至多余的任务完成,所以资源回收的速度可能会比较慢

  • MRv2中,社区正在开发任务抢占功能,有了抢占功能后,预计可以提高资源回收的速度

图3:MRv1的动态资源调整

图4:MRv2的动态资源调整


Hadoop计算节点水平扩展


除了对每个计算节点内部的垂直式的资源伸缩,Hadoop广为人知的还是其良好的水平可扩展性,Hadoop可以动态的上线或者下线(Decommission)计算节点。在虚拟化环境中,为支持更好的弹性,计算节点的上下线操作会更加频繁。

图5:虚拟化环境下的Hadoop水平扩展

这样引发一个问题,就是在下线计算节点时,其上正在运行的任务会被杀死,已经完成的Map任务的中间结果也会丢失,所以强制下线节点会导致大量任务重新执行,延迟整个作业的执行。

HVE的资源扩展技术通过增加安全下线(Graceful Decommission)功能来解决这个问题:

1. 用户发出安全下线计算节点命令后,先将该计算节点的槽位数或者资源配置为0,使其不再接受新任务

2. 等待该计算节点上任务都执行完毕,中间数据也都被使用过之后,再停止该计算节点。


总结HVE的资源扩展技术通过对Hadoop核心添加动态资源特性,以支持对Hadoop集群计算层的动态的水品和垂直扩展,为Hadoop部署在虚拟化环境中增加了如下优点:

1. 能够使Hadoop与其他应用,或者多个Hadoop集群之间动态共享资源,可以根据资源需求动态的扩展或者收缩集群,提高资源利用率;

2. 更好的多租户支持,通过将不同的用户的作业隔离在不同的虚拟节点,可以在保证资源利用率的基础上提高隔离性和安全性。

本文简要介绍了HVE资源扩展技术,详细的设计实现可以参考参考文档中的相关JIRA。


参考文档1.MemoryOvercommitment in the ESX Server: http://labs.vmware.com/vmtj/memory-overcommitment-in-the-esx-server

2.Dynamicresource configuration JIRA: YARN-291, MAPREDUCE-4900

3. Graceful Decommission JIRA: YARN-914, MAPREDUCE-5381



关于vSphere Big Data Extensions:

VMware vSphere Big Data Extensions(简称BDE)基于vSphere平台支持大数据和Apache Hadoop作业。BDE以开源Serengeti项目为基础,为企业级用户提供一系列整合的管理工具,通过在vSphere上虚拟化Apache Hadoop,帮助用户在基础设施上实现灵活、弹性、安全和快捷的大数据部署、运行和管理工作。了解更多关于VMware vSphere Big Data Extensions的信息,请参见http://www.vmware.com/hadoop


作者介绍

常冰琳(Binglin Chang)

VMware开发工程师

Hadoop 代码贡献者,参与开发Hadoop虚拟化扩展。在VMware之前,就职于百度,长期从事Hadoop以及其他分布式系统的设计开发工作。


有关Hadoop虚拟化扩展(HVE)之资源扩展技术的更多相关文章

  1. ruby - 使用 C 扩展开发 ruby​​gem 时,如何使用 Rspec 在本地进行测试? - 2

    我正在编写一个包含C扩展的gem。通常当我写一个gem时,我会遵循TDD的过程,我会写一个失败的规范,然后处理代码直到它通过,等等......在“ext/mygem/mygem.c”中我的C扩展和在gemspec的“扩展”中配置的有效extconf.rb,如何运行我的规范并仍然加载我的C扩展?当我更改C代码时,我需要采取哪些步骤来重新编译代码?这可能是个愚蠢的问题,但是从我的gem的开发源代码树中输入“bundleinstall”不会构建任何native扩展。当我手动运行rubyext/mygem/extconf.rb时,我确实得到了一个Makefile(在整个项目的根目录中),然后当

  2. c - mkmf 在编译 C 扩展时忽略子文件夹中的文件 - 2

    我想这样组织C源代码:+/||___+ext||||___+native_extension||||___+lib||||||___(Sourcefilesarekeptinhere-maycontainsub-folders)||||___native_extension.c||___native_extension.h||___extconf.rb||___+lib||||___(Rubysourcecode)||___Rakefile我无法使此设置与mkmf一起正常工作。native_extension/lib中的文件(包含在native_extension.c中)将被完全忽略。

  3. Unity 热更新技术 | (三) Lua语言基本介绍及下载安装 - 2

    ?博客主页:https://xiaoy.blog.csdn.net?本文由呆呆敲代码的小Y原创,首发于CSDN??学习专栏推荐:Unity系统学习专栏?游戏制作专栏推荐:游戏制作?Unity实战100例专栏推荐:Unity实战100例教程?欢迎点赞?收藏⭐留言?如有错误敬请指正!?未来很长,值得我们全力奔赴更美好的生活✨------------------❤️分割线❤️-------------------------

  4. MIMO-OFDM无线通信技术及MATLAB实现(1)无线信道:传播和衰落 - 2

     MIMO技术的优缺点优点通过下面三个增益来总体概括:阵列增益。阵列增益是指由于接收机通过对接收信号的相干合并而活得的平均SNR的提高。在发射机不知道信道信息的情况下,MIMO系统可以获得的阵列增益与接收天线数成正比复用增益。在采用空间复用方案的MIMO系统中,可以获得复用增益,即信道容量成倍增加。信道容量的增加与min(Nt,Nr)成正比分集增益。在采用空间分集方案的MIMO系统中,可以获得分集增益,即可靠性性能的改善。分集增益用独立衰落支路数来描述,即分集指数。在使用了空时编码的MIMO系统中,由于接收天线或发射天线之间的间距较远,可认为它们各自的大尺度衰落是相互独立的,因此分布式MIMO

  5. 在VMware16虚拟机安装Ubuntu详细教程 - 2

    在VMware16.2.4安装Ubuntu一、安装VMware1.打开VMwareWorkstationPro官网,点击即可进入。2.进入后向下滑动找到Workstation16ProforWindows,点击立即下载。3.下载完成,文件大小615MB,如下图:4.鼠标右击,以管理员身份运行。5.点击下一步6.勾选条款,点击下一步7.先勾选,再点击下一步8.去掉勾选,点击下一步9.点击下一步10.点击安装11.点击许可证12.在百度上搜索VM16许可证,复制填入,然后点击输入即可,亲测有效。13.点击完成14.重启系统,点击是15.双击VMwareWorkstationPro图标,进入虚拟机主

  6. kvm虚拟机安装centos7基于ubuntu20.04系统 - 2

    需求:要创建虚拟机,就需要给他提供一个虚拟的磁盘,我们就在/opt目录下创建一个10G大小的raw格式的虚拟磁盘CentOS-7-x86_64.raw命令格式:qemu-imgcreate-f磁盘格式磁盘名称磁盘大小qemu-imgcreate-f磁盘格式-o?1.创建磁盘qemu-imgcreate-fraw/opt/CentOS-7-x86_64.raw10G执行效果#ls/opt/CentOS-7-x86_64.raw2.安装虚拟机使用virt-install命令,基于我们提供的系统镜像和虚拟磁盘来创建一个虚拟机,另外在创建虚拟机之前,提前打开vnc客户端,在创建虚拟机的时候,通过vnc

  7. hadoop安装之保姆级教程(二)之YARN的配置 - 2

    1.1.1 YARN的介绍 为克服Hadoop1.0中HDFS和MapReduce存在的各种问题⽽提出的,针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜,提出了全新的资源管理框架YARN. ApacheYARN(YetanotherResourceNegotiator的缩写)是Hadoop集群的资源管理系统,负责为计算程序提供服务器计算资源,相当于⼀个分布式的操作系统平台,⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。 YARN被引⼊Hadoop2,最初是为了改善MapReduce的实现,但是因为具有⾜够的通⽤性,同样可以⽀持其他的分布式计算模

  8. ruby-on-rails - 向 Rails 3 添加 Ruby 扩展方法的最佳实践? - 2

    我有一个要在我的Rails3项目中使用的数组扩展方法。它应该住在哪里?我有一个应用程序/类,我最初把它放在(array_extensions.rb)中,在我的config/application.rb中我加载路径:config.autoload_paths+=%W(#{Rails.root}/应用程序/类)。但是,当我转到railsconsole时,未加载扩展。是否有一个预定义的位置可以放置我的Rails3扩展方法?或者,一种预先定义的方式来添加它们?我知道Rails有自己的数组扩展方法。我应该将我的添加到active_support/core_ext/array/conversion

  9. ruby - 如何在 ruby​​ 中复制目录结构,不包括某些文件扩展名 - 2

    我想编写一个ruby​​脚本来递归复制目录结构,但排除某些文件类型。因此,给定以下目录结构:folder1folder2file1.txtfile2.txtfile3.csfile4.htmlfolder2folder3file4.dll我想复制这个结构,但不包含.txt和.cs文件。因此,生成的目录结构应如下所示:folder1folder2file4.htmlfolder2folder3file4.dll 最佳答案 您可以使用查找模块。这是一个代码片段:require"find"ignored_extensions=[".cs"

  10. ruby - 扩展类和实例 - 2

    这个问题有两个部分。在RubyProgrammingLanguage一书中,有一个使用模块扩展字符串对象和类的示例(第8.1.1节)。第一个问题。为什么如果您使用新方法扩展类,然后创建该类的对象/实例,则无法访问该方法?irb(main):001:0>moduleGreeter;defciao;"Ciao!";end;end=>nilirb(main):002:0>String.extend(Greeter)=>Stringirb(main):003:0>String.ciao=>"Ciao!"irb(main):004:0>x="foobar"=>"foobar"irb(main):

随机推荐