一、问题与挑战从图中可以看到,从17年开始,vivo的机器规模、服务数量都有很大的增长。在机器规模方面,从17年到22年大概是增长了五倍的左右,在服务数量方面也是基本上增长了十几倍。在规模增长的情况下,挑战和复杂度肯定随之上升,在vivo比较典型的挑战主要分为变更挑战和故障挑战。1、变更挑战变更中还是存在着或多或少的手工变更场景;我们的单次的发布时间是比较长的;存在很多的业务大量迁移的场景;谷歌SRE有这样一个概念:70%的故障是由变更引起的。对应到vivo也确实是存在这种情况,变更对线上稳定性确实存在很大的影响。2、故障挑战机房级故障风险(大小公司都会遇到,光纤挖断或机房内部故障等);业务快