4种典型限流实践保障应用高可用｜云效工程师指北

云效DevOps 2023-03-28 原文

大家好，我叫黄博文，花名延枚，目前负责云效旗下产品Flow流水线的设计和开发。在微服务架构下，服务越来越多，服务之间的调用也会越来越复杂。如何保障服务的高可用性就成为了一个挑战。之前我参与过的某个产品就曾出过故障，原因是某个API调用突然间增加了数十倍，导致服务负载过高，影响了用户使用。如果当时能够有一种机制能快速对这个异常的API进行限流或熔断，就能避免服务陷入不稳定的状况。云效自身使用阿里云 AHAS (Application High Availability Service)来保障应用的高可用，本文总结了一份AHAS限流实践指南，如果你的系统有被恶意用户攻击的风险，或者系统中某个应用出现异常可能会造成雪崩效应，那么这篇文章会对你有所帮助。

一个完善的应用高可用解决方案，首先需要对应用的接口进行监控，能够实时统计当前应用接口的QPS情况。其次要能够针对不同API和场景配置各种限流和熔断规则，比如如果某个API QPS超过300了就需要对超过的调用做限流处理。能够提供限流的工具很多，流行的有guava RateLimiter、Hystrix等。但这些工具上手成本较高，搭建起整个体系并不简单。

如何快速建立应用的限流体系？这就要介绍阿里云提供的应用高可用服务 AHAS (Application High Availability Service)。AHAS 是经阿里巴巴内部多年高可用体系沉淀下来的云产品，基于阿里开源流控降级组件 Sentinel，以流量与容错为切入点，从流量控制、不稳定调用隔离、熔断降级、热点流量防护、系统自适应过载保护、集群流控、服务防抖动等多个维度来帮助保障服务和网关的稳定性，同时提供秒级的流量监控分析功能。AHAS 不仅在阿里内部淘宝、天猫等电商领域有着广泛的应用，在互联网金融、在线教育、游戏、直播行业和其他大型政央企行业也有着大量的实践。

限流限的是什么

限流的目的是为了避免系统承受过大的流量导致不可用。那么这些流量会来自哪里呢？

按照访问的方式，可以分为：

HTTP的同步调用。比如你在通过浏览器访问一个站点的页面时候，就会产生这种流量。
后台任务调用。这个取决于业务形态，比如一个站点向用户开放了定时执行任务的能力，那么用户每多配置一个这种任务，就会对系统造成更多的流量。

按照访问的意图，可以分为：

正常业务增长。比如用户增加了，做了运营活动等等，都会导致整体的业务量增加。
恶意用户的恶意行为。比如某个用户对站点进行DDOS攻击，或者对于上面提到的那种提供定时执行任务能力的网站而言，恶意的配置大量的定时任务，从而间接对系统造成巨大的负载，等等。

按照访问的来源，可以分为：

终端用户。这些用户是最终使用者，其总访问量会随着正常业务的增长而增长。
系统调用。比如有其他系统基于你的能力构建自己的产品，那么就要和这些系统进行约定，访问的最大频率是多少，并把这些频率的值落地在限流策略中。

了解了流量的来源之后，我们就知道应该限制什么了。

限制整个系统的使用频率，这个在实际的使用中，通常会换算成单机的使用频率，保证单机不被压垮。同时配合告警，出现瓶颈时候，通过紧急扩容来解决问题。
限制单个用户（或者单个租户，取决于你的业务形态）的使用频率。
限制上游不同的系统调用的使用频率。
针对上述的限制，都需要能够支持HTTP的同步调用和后台任务调用。

接下来我们从保证系统整体可用性、防止个别用户滥用、隔离上游系统异常调用以及全方位限流4个方面，具体讲解如何使用阿里云AHAS实现限流。

保证系统整体可用性

配置限流时，我们需要建立一个通用的限流规则保障核心接口的稳定性，避免单点瓶颈引发全局问题。

一个流控规则包含以下内容：

接口名称：即对哪个接口进行流控。
来源应用：设置为default，即对所有调用方都一视同仁，对整个系统的调用进行限流。关于这个配置的用法，会在后面的“针对其他上游系统调用的限流”部分展开讨论。
单机QPS阈值：单机的QPS容量，超过阈值后会被限流
流控效果：当接口调用超过QPS阈值后的处理措施

我们也可以配置触发限流后的接口返回值。对于Web接口而言，通常被限流的接口会返回429 Too Many Requests错误码，告知调用方请求太频繁。

对一个接口进行限流时，难点是填写具体的QPS阈值。我们可以在性能测试环境对应用进行压测，压出单机下某个接口的QPS极限值，然后将阈值定为极限值的某个比例，比如极限值的90%。比如某个接口单机可承受极限为200QPS，那么阈值可定为200*90%= 180。

防止个别用户滥用

这个场景下，需要先梳理出来系统的核心业务入口，通常是service层的一个入口函数，针对每个入口函数预设单个用户合理的使用频率，然后就可以利用AHAS的热点参数流控能力，来并进行限制。

在入口函数上添加注解：

@SentinelResource(value = "biz1")
public Result doBussinessLogic(String uid, int type) {
    // uid参数索引为0，type参数索引为1。
    // some logic here...
}

代码中需要做两件事情

从请求中提取出需要防护的维度，比如上面代码中的uid，即用户的标识。并保证该标识作为业务入口函数的入参传入。
给该函数添加@SentinelResource注解。其中的value="biz1"为这个资源的标识，会用在控制台配置中进行引用。

然后在控制台进行配置。假设我们希望，在服务级别每分钟单用户最多调用20次，服务共有5个实例。可以进行如下配置。意思是在第0个参数，也就是用户，这个维度上进行限流，单机最多每60s进行4次调用，则集群维度就是每分钟最多20次调用。

目前AHAS还不支持直接进行集群维度的配置，实际使用中需要简单的换算下。

详细说明，请参考：
https://help.aliyun.com/document_detail/147896.html 。

隔离上游系统异常调用

对于一个应用的接口来说，通常会被上游多个系统调用。上面虽然介绍了如何对单个接口进行整体限流，但实际场景中，我们会需要对不同的上游系统采用不同的限流阈值。比如上游调用方A是主链路，希望QPS阈值能高一些，上游调用方B为旁支链路，QPS阈值可以低一些。那么我们需要在Web容器启动时注入抽取租户特征值的拦截器。根据来源应用标识来对不同来源给予不同的阈值。

@Configuration
public class InterceptorConfiguration extends WebMvcConfigurerAdapter {
    
    @PostConstruct
    public void setOriginParser() {
        WebCallbackManager.setRequestOriginParser(httpServletRequest -> httpServletRequest.getHeader("income"));
    }
}

WebCallbackManager.setRequestOriginParser 接受一个参数为HttpServletRequest的回调，我们需要通过HttpServletRquest对象中的内容来区分调用方A和B。比如应用A和B在调用接口时会传入不同的header income，那么就可以通过该header来区分来源应用A和B。最后在流控规则中建立起对A和B不同限流阈值。如下图所示。

全方位限流，不限于HTTP

AHAS可以快速的把Web接口纳入到流控之中。但如果我们应用的一些代码不属于Web接口，但也想启用流控，那么仍然可以使用AHAS提供的热点规则的能力。以下是个示例。

    @SentinelResource(blockHandler = "blockHandlerExecuteTask")
  public Boolean executeTask(Long taskId) throws Exception {
    return taskService.executeTask(taskId);
    }


    public Boolean blockHandlerExecuteTask(Long taskId, BlockException ex) {
        throw new RuntimeException("execute task exceed");
    }

重启应用后，在接口详情页的自定义埋点tab中，就可以看到AHAS收集的自定义埋点接口数据，接口名称组成为类名:方法名的格式。

接着可以给这个埋点接口配置限流规则，开启防护。

以上就是我们使用AHAS服务时配置限流的常用实践，希望对大家有所帮助。

点击下方链接，免费体验云效流水线Flow。

https://www.aliyun.com/product/yunxiao/flow?channel=yy_practice

典型保障 developer-ecology developer https 软件工程

有关4种典型限流实践保障应用高可用｜云效工程师指北的更多相关文章

ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2
很好奇，就使用rubyonrails自动化单元测试而言，你们正在做什么？您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您？git中的预提交Hook？只是手动调用？我完全理解测试，但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的，并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您？最佳答案不确定您到底想听什么，但是有几个级别的自动代码库控制:在处理某项功能时，您可以使用类似autotest的内容获得关于哪些有效，哪些无效的即时反馈。要确保您的提
ruby - 将差异补丁应用于字符串/文件 - 2
对于具有离线功能的智能手机应用程序，我正在为Xml文件创建单向文本同步。我希望我的服务器将增量/差异(例如GNU差异补丁)发送到目标设备。这是计划:Time=0Server:hasversion_1ofXmlfile(~800kiB)Client:hasversion_1ofXmlfile(~800kiB)Time=1Server:hasversion_1andversion_2ofXmlfile(each~800kiB)computesdeltaoftheseversions(=patch)(~10kiB)sendspatchtoClient(~10kiBtransferred)Cl
ruby-on-rails - Rails 应用程序之间的通信 - 2
我构建了两个需要相互通信和发送文件的Rails应用程序。例如，一个Rails应用程序会发送请求以查看其他应用程序数据库中的表。然后另一个应用程序将呈现该表的json并将其发回。我还希望一个应用程序将存储在其公共(public)目录中的文本文件发送到另一个应用程序的公共(public)目录。我从来没有做过这样的事情，所以我什至不知道从哪里开始。任何帮助，将不胜感激。谢谢! 最佳答案无论Rails是什么，几乎所有Web应用程序都有您的要求，大多数现代Web应用程序都需要相互通信。但是有一个小小的理解需要你坚持下去，网站不应直接访问彼此
ruby - 无法运行 Rails 2.x 应用程序 - 2
我尝试运行2.x应用程序。我使用rvm并为此应用程序设置其他版本的ruby:$rvmuseree-1.8.7-head我尝试运行服务器，然后出现很多错误:$script/serverNOTE:Gem.source_indexisdeprecated,useSpecification.Itwillberemovedonorafter2011-11-01.Gem.source_indexcalledfrom/Users/serg/rails_projects_terminal/work_proj/spohelp/config/../vendor/rails/railties/lib/r
ruby-on-rails - Rails 应用程序中的 Rails : How are you using application_controller. rb 是新手吗？ - 2
刚入门rails，开始慢慢理解。有人可以解释或给我一些关于在application_controller中编码的好处或时间和原因的想法吗？有哪些用例。您如何为Rails应用程序使用应用程序Controller？我不想在那里放太多代码，因为据我了解，每个请求都会调用此Controller。这是真的？最佳答案 ApplicationController实际上是您应用程序中的每个其他Controller都将从中继承的类(尽管这不是强制性的)。我同意不要用太多代码弄乱它并保持干净整洁的态度，尽管在某些情况下ApplicationContr
ruby-on-rails - 如何在我的 Rails 应用程序 View 中打印 ruby 变量的内容？ - 2
我是一个Rails初学者，但我想从我的RailsView(html.haml文件)中查看Ruby变量的内容。我试图在ruby中打印出变量(认为它会在终端中出现)，但没有得到任何结果。有什么建议吗？我知道Rails调试器，但更喜欢使用inspect来打印我的变量。最佳答案您可以在View中使用puts方法将信息输出到服务器控制台。您应该能够在View中的任何位置使用Haml执行以下操作:-puts@my_variable.inspect 关于ruby-on-rails-如何在我的R
ruby-on-rails - 如何使辅助方法在 Rails 集成测试中可用？ - 2
我在app/helpers/sessions_helper.rb中有一个帮助程序文件，其中包含一个方法my_preference，它返回当前登录用户的首选项。我想在集成测试中访问该方法。例如，这样我就可以在测试中使用getuser_path(my_preference)。在其他帖子中，我读到这可以通过在测试文件中包含requiresessions_helper来实现，但我仍然收到错误NameError:undefinedlocalvariableormethod'my_preference'.我做错了什么？require'test_helper'require'sessions_hel
ruby-on-rails - 如何在 Gem 中获取 Rails 应用程序的根目录 - 2
是否可以在应用程序中包含的gem代码中知道应用程序的Rails文件系统根目录？这是gem来源的示例:moduleMyGemdefself.included(base)putsRails.root#returnnilendendActionController::Base.send:include,MyGem谢谢，抱歉我的英语不好最佳答案我发现解决类似问题的解决方案是使用railtie初始化程序包含我的模块。所以，在你的/lib/mygem/railtie.rbmoduleMyGemclassRailtie使用此代码，您的模块将在
世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2
无论您是想搭建桌面端、WEB端或者移动端APP应用，HOOPSPlatform组件都可以为您提供弹性的3D集成架构，同时，由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台（桌面/WEB/APP，而且某些客户端是“瘦”客户端）快速、方便地将数据接入到3D应用系统的解决方案，并且当访问数据时，在各个平台上的性能和用户体验保持一致，HOOPSPlatform将帮助您完成。利用HOOPSPlatform，您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品，HOOPSSDK包含的技术有：快速且准确的CAD
叮咚买菜基于 Apache Doris 统一 OLAP 引擎的应用实践 - 2
导读：随着叮咚买菜业务的发展，不同的业务场景对数据分析提出了不同的需求，他们希望引入一款实时OLAP数据库，构建一个灵活的多维实时查询和分析的平台，统一数据的接入和查询方案，解决各业务线对数据高效实时查询和精细化运营的需求。经过调研选型，最终引入ApacheDoris作为最终的OLAP分析引擎，Doris作为核心的OLAP引擎支持复杂地分析操作、提供多维的数据视图，在叮咚买菜数十个业务场景中广泛应用。作者｜叮咚买菜资深数据工程师韩青叮咚买菜创立于2017年5月，是一家专注美好食物的创业公司。叮咚买菜专注吃的事业，为满足更多人“想吃什么”而努力，通过美好食材的供应、美好滋味的开发以及美食品牌的孵