总结：弹性伸缩的五个条件与六个教训

轻风博客 2023-03-28 原文

前言
弹性伸缩是云计算时代给我们带来的一项核心技术红利，但是 IT 的世界中，没有一个系统功能可以不假思索的应用到所有的场景中。这篇文章，我们将应用企业级分布式应用服务-EDAS 的客户在进行系统架构设计时，在弹性场景下遇到的点滴做了一个系统的梳理，总结为五个条件和六个教训分享给大家。

五个条件

1.启动无需手动干预

是否需要手动干预是弹性伸缩和手动伸缩的本质区别。在传统应用的运维中，一个进程的启动往往需要在机器上手动准备一系列的事情，如：环境搭建，依赖服务的配置梳理，本地环境配置调整等。如果是在云上的应用可能还需要手动调整安全组规则，依赖服务的访问控制等；但这些需要手动执行的动作在自动弹性时都会变得不可行。

2.进程本身无状态

确切的说，无状态主要是指业务系统运行时对于数据的依赖程度，数据是在进程执行的过程中产生的，产生的数据会对后来的程序行为产生持续的影响，程序员需要在编码逻辑的时候，就考虑如果系统在一个新环境中重新拉起时，这份数据是否对于行为会造成不一致的情况？推荐做法是数据应该最终以存储系统中为准，让存储计算做到真正的分离。

3.启动的要快，走的要有“尊严”

弹性，尤其是云上的弹性，其中一个特点是会进行得很频繁。尤其是流量突发型的业务，带着一定的不确定性。而启动后的系统往往处在一个“冷”的状态，启动之后如何快速的“加热”是弹性有效性的关键。而在弹性结束之后，往往伴随着一次自动的缩容，由于这个过程也是自动的，所以我们需要能从技术上能做到自动流量摘除的能力，这里的流量不仅仅包括 HTTP/RPC，也包括消息、任务（后台线程池）调度等。

4.磁盘数据可丢失

在应用启动过程，我们的应用程序可能会使用磁盘配置一些启动依赖项之外；在进程运行的过程中，我们也会习惯性使用磁盘打印一些日志，或者记录一些数据。而弹性场景是进程快起快没，没了之后放在磁盘上的数据也都没了，所以我们要做好磁盘数据丢失的准备，可能有人会问日志怎么处理？日志应该通过日志收集组件收走，进行统一的聚合、清洗和查阅。这一点在 12 factor apps 中也做了强调。

5.依赖的服务充分可用

成规模的业务系统，往往不是一个人在战斗。最典型的架构中，也会使用到一些缓存、数据库等中心服务。一个业务弹性扩容上来之后，很容易忽略中心依赖服务的可用性。如果依赖服务出现不可用，对于整个系统可能就是一个雪崩的效应。

六个教训

1.指标值设置不合理

弹性整体分为三个阶段：指标获取、规则计算、执行伸缩；指标获取一般通过监控系统或者 PaaS 平台自带的组件获取。基础监控指标常见的如：CPU/Mem/Load 等。短期内有一些基础指标数值会存在不稳定的特点，但是时间拉长，正常来看会处在一个“平稳”的状态，我们设置指标的时候，不能以短时间的特征为依据，参考较长时间的某种水位数据才能设置一个合理值。且指标不宜过多，同时缩容指标要和扩容指标存在明显的数值差。

2.把“延时”当指标

很多时候我们识别系统可用性的一个很大的判断，就是看系统屏幕是不是在“转圈圈”，即系统很慢。常理推断，很慢就要扩容了。所以我们有一些客户直接把系统的平均 RT 当成了扩容指标，但系统的 RT 是多维度的，比如 health check 一般都是很快的，这类 API 出现的频率稍高一点，一下就拉低了平均值。也有的客户会精确到 API 级别，可是 API 也是根据参数不同逻辑不一样的从而造成 RT 不一样。总之，根据延时去做弹性策略是很危险的一种做法。

3.指定单一的扩容规格

扩容规格指的是资源的规格，比如在云上的场景中，对于同一种 4c8g 的规格，我们可以指定内存型、计算型、网络增强型等。但是云上是一个大资源池，对于某一种规格，会存在售罄现象；如果我们只指定了单一的规格，就会出现资源无法提供而出现扩容失败的情况。这里最危险的还不是扩容失败本身，是出现业务故障之后的排查过程会特别漫长。

4.只考虑RPC链路中的应用策略

针对单个应用往往都很简单的，难的是整个业务场景的梳理。梳理思路一个简单的办法就是按照应用调用的场景进行，从应用间调用的场景来看，一般来说分为三种：同步（RPC，中间件如 Spring Cloud）、异步（消息，中间件如 RocketMQ）、任务（分布式调度，中间件如 SchedulerX）。我们一般会很快整理出第一种情况，但是很容易忽略掉后面两种。而后面两种出现问题的时候，问题排查诊断又是最为耗时。

5.没有配套相应的可视化策略

弹性伸缩是一个典型的后台任务，在治理一个大集群的后台任务的时候，最好是有一块大屏进行直观的可视化治理。对于扩容失败的情形，不能静默处理。如果是核心业务出现扩容失败，可能带来的就是直接的业务故障，但是故障真正发生时，很多时候不会去关心扩容策略是否生效，如果真是因为扩容造成的故障，也很难排查到这个点。

6.事前没做正确评估

虽然云计算给弹性提供了近乎无尽的资源池，但这也只是解放了用户预备资源的工作，而微服务系统本身复杂，单一组件的容量变化会产生全链路的影响，既解除一处风险之后系统瓶颈点可能会迁移，有些隐形约束也会随着容量变化逐步显现，所以做弹性策略大多数时候不能靠力大砖飞的思想，需要做好全链路的压测、验证，演练到适应于全局的弹性配置；我们还是建议事前从高可用的多个维度了解各种技术手段，形成多套预案以备使用。

尾声
云原生场景下弹性能力更为丰富，可供弹性的指标也更具备业务定制能力。应用 PaaS 平台（如企业级分布式应用服务 EDAS/ Serverless 应用引擎 SAE 等）能结合云厂商在计算、存储、网络上的技术基础能力，能让使用云的成本更低。但是这里对于业务应用会提出一点点挑战（如：无状态/配置代码解耦等等）。从更广的侧面来看，这是云原生时代应用架构面临的挑战。不过应用越来越原生的话，云的技术红利也会离我们越来越近。

作者 | 孤弋

伸缩教训 strong span 的架构设计

有关总结：弹性伸缩的五个条件与六个教训的更多相关文章

ruby - 如何根据特征实现 FactoryGirl 的条件行为 - 2
我有一个用户工厂。我希望默认情况下确认用户。但是鉴于unconfirmed特征，我不希望它们被确认。虽然我有一个基于实现细节而不是抽象的工作实现，但我想知道如何正确地做到这一点。factory:userdoafter(:create)do|user,evaluator|#unwantedimplementationdetailshereunlessFactoryGirl.factories[:user].defined_traits.map(&:name).include?(:unconfirmed)user.confirm!endendtrait:unconfirmeddoenden
ruby - 在 Ruby 中有条件地定义函数 - 2
我有一些代码在几个不同的位置之一运行:作为具有调试输出的命令行工具，作为不接受任何输出的更大程序的一部分，以及在Rails环境中。有时我需要根据代码的位置对代码进行细微的更改，我意识到以下样式似乎可行:print"Testingnestedfunctionsdefined\n"CLI=trueifCLIdeftest_printprint"CommandLineVersion\n"endelsedeftest_printprint"ReleaseVersion\n"endendtest_print()这导致:TestingnestedfunctionsdefinedCommandLin
ruby - 定义方法参数的条件 - 2
我有一个只接受一个参数的方法:defmy_method(number)end如果使用number调用方法，我该如何引发错误？？通常，我如何定义方法参数的条件？比如我想在调用的时候报错:my_method(1) 最佳答案您可以添加guard在函数的开头，如果参数无效则引发异常。例如:defmy_method(number)failArgumentError,"Inputshouldbegreaterthanorequalto2"ifnumbereputse.messageend#=>Inputshouldbegreaterthano
SPI接收数据异常问题总结 - 2
SPI接收数据左移一位问题目录SPI接收数据左移一位问题一、问题描述二、问题分析三、探究原理四、经验总结最近在工作在学习调试SPI的过程中遇到一个问题——接收数据整体向左移了一位（1bit）。SPI数据收发是数据交换，因此接收数据时从第二个字节开始才是有效数据，也就是数据整体向右移一个字节（1byte）。请教前辈之后也没有得到解决，通过在网上查阅前人经验终于解决问题，所以写一个避坑经验总结。实际背景：MCU与一款芯片使用spi通信，MCU作为主机，芯片作为从机。这款芯片采用的是它规定的六线SPI，多了两根线：RDY和INT，这样从机就可以主动请求主机给主机发送数据了。一、问题描述根据从机芯片手
ruby-on-rails - 使用包含多个关联和单独的条件 - 2
我的Gallery模型中有以下查询:media_items.includes(:photo,:video).rank(:position_in_gallery)我的图库模型有_许多媒体项，每个都有一个照片或视频关联。到目前为止，一切正常。它返回所有media_items包括它们的photo或video关联，由media_item的position_in_gallery属性排序。但是我现在需要将此查询返回的照片限制为仅具有is_processing属性的照片，即nil。是否可以进行相同的查询，但条件是返回的照片等同于:.where(photo:'photo.is_processingIS
ruby-on-rails - 在 haml View 中重构条件 - 2
除了可访问性标准不鼓励使用这一事实指向当前页面的链接，我应该怎么做重构以下View代码？#navigation%ul.tabbed-ifcurrent_page?(new_profile_path)%li{:class=>"current_page_item"}=link_tot("new_profile"),new_profile_path-else%li=link_tot("new_profile"),new_profile_path-ifcurrent_page?(profiles_path)%li{:class=>"current_page_item"}=link_tot("p
ruby-on-rails - 在具有 ActiveRecord 条件的相关模型中按字段排序 - 2
我正在尝试按Rails相关模型中的字段进行排序。我研究的所有解决方案都没有解决如果相关模型被另一个参数过滤？元素模型classItem相关模型:classPriority我正在使用where子句检索项目:@items=Item.where('company_id=?andapproved=?',@company.id,true).all我需要按相关表格中的“位置”列进行排序。问题在于，在优先级模型中，一个项目可能会被多家公司列出。因此，这些职位取决于他们拥有的company_id。当我显示项目时，它是针对一个公司的，按公司内的职位排序。完成此任务的正确方法是什么？感谢您的帮助。PS-我
ruby - 如果满足给定条件，则结束 ruby 程序 - 2
基本上，我只是试图在满足特定条件时停止程序运行其余行。unlessraw_information.firstputs"Noresultswerereturnedforthatquery"breakend然而，在程序运行之前我得到了这个错误:Invalidbreakcompileerror(SyntaxError)执行此操作的正确方法是什么？最佳答案 abort("Noresultswerereturnedforthatquery")unlesscondition或unlessconditionabort("Noresultswer
ruby-on-rails - 如果条件与 &&，是否有任何性能提升 - 2
如果用户是所有者，我有一个条件来检查说删除和文章。delete_articleifuser.owner?另一种方式是user.owner?&&delete_article选择它有什么好处还是它只是一种写作风格最佳答案性能不太可能成为该声明的问题。第一个要好得多-它更容易阅读。您future的自己和其他将开始编写代码的人会为此感谢您。关于ruby-on-rails-如果条件与&&，是否有任何性能提升，我们在StackOverflow上找到一个类似的问题：
ruby - 与条件正则表达式作斗争 - 2
我有一个简单的问题，但我无法解决这个问题。我的字符串格式为ID:dddd，具有以下正则表达式:/^ID:([a-z0-9]*)$/或者如下:ID:1234Status:232，所以用下面的正则表达式:/^ID:([a-z0-9]*)Status:([a-z0-9]*)$/现在我想制作一个可以处理两者的正则表达式。我想到的第一件事是:/^ID:([a-z0-9]*)$|^ID:([a-z0-9]*)Status:([a-z0-9]*)$/它匹配，但我正在研究条件正则表达式，并认为应该可以按照(伪代码)ifthestringcontains/Status://^ID:([a-z0-9]*)