草庐IT

【原创】k8s 微服务滚动发布(服务持续可用)实践笔记

车江毅的博客 2023-04-18 原文

背景

     对于业务和产品来讲,随时都有紧急小版本功能上线,对于研发人员来讲,线上如果有一些紧急的bug,都需要随时发版修正;而对于产品使用用户来讲,任何的功能和版本发布,要尽可能对用户无感知。

方案

  • 灰度发布,自动小批量流量切换。
  • 产品层面要切分小版本,研发设计细节上要向上兼容(诸如接口层面)。
  • 服务发布要实现滚动发布,发布异常要自动回滚,中间不断服。
     其中一部分是工具实现,一部分是项目管理实现,最后一部分是运维层面及架构层面要做的适配和兼容。

k8s 滚动发布方案:

1. 历史实践方案- rancher

k8s采用rancher部署。
1)采用rancher cli 客户端工具登陆rancher,获取发布日志,扫描启动日志“成功标记位”,超过扫描周期,判定为发布失败,通知rancher进行回滚。
2)应用进程关闭前自动通知网关注销节点,通知eureka下线,关闭流量。如果关闭进程超时,则强杀!
实践心得:正常发布情况下基本可用,回滚情况下基本可用;如果出现超时,可能会出现流量少量时间异常。因为靠超时保证稳定性,所以有时发布周期较长。
 

2. 现有实践方案 - 阿里云k8s

k8s采用阿里云部署。
1) 采用kubectl 工具,yml文件部署。
2)yml定义readinessProbe 就绪探针实现优雅上线,preStop 关闭前事件实现优雅下线。
3)采用发布“部署结果”状态检测,如果发布超过时间(超时),则立即通知回滚上一个版本。
 
yml定义文件如图所示:

 

一. 优雅上线的http状态请求实现

1. 基于bsf框架底层(业务统一使用的底层基础架构),内部实现基于springboot的生命周期,识别应用进程所处的“启动完成”,“关闭事件”,从而识别应用是否已完全启动成功以及下线后撤销就绪状态。同样业务也可以订阅生命周期事件并加入自定义逻辑,从而保证      业务特殊场景的初始化完成才“处于就绪状态”,开始接收业务流量。
2. 代码外层逻辑如下:bsf-statusFilter
java-stop.sh文件如图所示:

二. 优雅下线的shell脚本实现

  1. 基于bsf框架底层(业务统一使用的底层基础架构),内部实现对于eureka服务的状态修改及自动下线,从而实现应用进程关闭时通知eureka注销自身应用服务下线。同样也会通知当前生命周期处于stopping状态,从而引发“就绪探针”的就绪状态失效。
  2. 代码外层逻辑如下:bsf-eurekaStatusFilter
  3. podstopsleeptime 时间为eureka注销后,默认eureka下线真正生效时间(因为eureka客户端可能有缓存),需要看eureka情况调整。比如eureka需要调优几个参数,其中涉及到eureka消费者端的订阅实例刷新的周期,eureka实例的eureka服务端缓存时间。理论上手工下线后5秒生效,如果手工下线失效,保守时间应该是消费者端实例刷新时间+eureka服务端实例缓存时间=生效时间;在eureka客户端配置如图调优后,考虑设置为10秒。
eureka 调优参考如下:

三. 发布异常检测逻辑实现

    核心实现基于两个关键k8s 命令:
1. kubectl rollout status deploy {服务名} -n {namespace}
 定期检查当前发布状态,如果长时间没有发布成功,则通知回滚。(风险:假如此时有人工控制台或命令介入操作,会干预正常自动化发版)
2. kubectl -n {namespace} rollout undo deploy {服务名}
 通知服务回滚上一个版本。(风险:上一个版本可能失败,或者出现异常?不一定是程序问题,可能数据库出现异常等等?所以一般人工介入确认一下比较好。同时发出飞书通知提醒!)
发布异常检测处理逻辑如图:

四. 验证滚动发布是否有效

1. 外层网关验证
 采用全自动化全链路压测工具(自动流量录制,自动生成报告,压测效能提升10倍),设置自动化压测任务,进行长时间不间断扫描!验证发布/回滚时,流量验证是否出现中断!
    结论: 配置2个线程持续扫描空接口的情况下,没有出现http链接异常,在滚动发布的时候出现流量的波谷,但是服务没有中断。
压测工具报告如图所示:

 

 

 
2. 内部服务调用验证:
 基于eureka情况下,内部rpc调用是否有效?
    结论:从3个服务变成2个服务吞吐量降低1/3,中间服务稳定没有异常!
压测工具报告如图所示:

 

 

3. 多种异常情况下的发布是否正常回滚?
 诸如常见的编译错误或者系统配置一样导致打包问题,会不会影响线上(应该是终止的)。多种服务启动错误能不能自动回滚?(有些场景下应该还是不能回滚的)
4. 内部大范围项目推广验证!!!
 待实践。
 

总结:

  此为k8s滚动发布实践记录,目前已初步实现滚动发布效果。细节仍然需要检验,勤做笔记,以待备忘(帮运维打工的日子)!!!
 
by 车江毅
2022-10-20

有关【原创】k8s 微服务滚动发布(服务持续可用)实践笔记的更多相关文章

  1. ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2

    很好奇,就使用ruby​​onrails自动化单元测试而言,你们正在做什么?您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您?git中的预提交Hook?只是手动调用?我完全理解测试,但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的,并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您? 最佳答案 不确定您到底想听什么,但是有几个级别的自动代码库控制:在处理某项功能时,您可以使用类似autotest的内容获得关于哪些有效,哪些无效的即时反馈。要确保您的提

  2. ruby-on-rails - 如何使辅助方法在 Rails 集成测试中可用? - 2

    我在app/helpers/sessions_helper.rb中有一个帮助程序文件,其中包含一个方法my_preference,它返回当前登录用户的首选项。我想在集成测试中访问该方法。例如,这样我就可以在测试中使用getuser_path(my_preference)。在其他帖子中,我读到这可以通过在测试文件中包含requiresessions_helper来实现,但我仍然收到错误NameError:undefinedlocalvariableormethod'my_preference'.我做错了什么?require'test_helper'require'sessions_hel

  3. 世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2

    无论您是想搭建桌面端、WEB端或者移动端APP应用,HOOPSPlatform组件都可以为您提供弹性的3D集成架构,同时,由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台(桌面/WEB/APP,而且某些客户端是“瘦”客户端)快速、方便地将数据接入到3D应用系统的解决方案,并且当访问数据时,在各个平台上的性能和用户体验保持一致,HOOPSPlatform将帮助您完成。利用HOOPSPlatform,您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品,HOOPSSDK包含的技术有:快速且准确的CAD

  4. ruby-on-rails - 如何在发布新的 Ruby 或 Rails 版本时收到通知? - 2

    有人知道在发布新版本的Ruby和Rails时收到电子邮件的方法吗?他们有邮件列表,RubyonRails有一个推特,但我不想听到那些随之而来的喧嚣,我只想知道什么时候发布新版本,尤其是那些有安全修复的版本。 最佳答案 从therailsblog获取提要.http://weblog.rubyonrails.org/feed/atom.xml 关于ruby-on-rails-如何在发布新的Ruby或Rails版本时收到通知?,我们在StackOverflow上找到一个类似的问题:

  5. 叮咚买菜基于 Apache Doris 统一 OLAP 引擎的应用实践 - 2

    导读:随着叮咚买菜业务的发展,不同的业务场景对数据分析提出了不同的需求,他们希望引入一款实时OLAP数据库,构建一个灵活的多维实时查询和分析的平台,统一数据的接入和查询方案,解决各业务线对数据高效实时查询和精细化运营的需求。经过调研选型,最终引入ApacheDoris作为最终的OLAP分析引擎,Doris作为核心的OLAP引擎支持复杂地分析操作、提供多维的数据视图,在叮咚买菜数十个业务场景中广泛应用。作者|叮咚买菜资深数据工程师韩青叮咚买菜创立于2017年5月,是一家专注美好食物的创业公司。叮咚买菜专注吃的事业,为满足更多人“想吃什么”而努力,通过美好食材的供应、美好滋味的开发以及美食品牌的孵

  6. Observability:从零开始创建 Java 微服务并监控它 (二) - 2

    这篇文章是继上一篇文章“Observability:从零开始创建Java微服务并监控它(一)”的续篇。在上一篇文章中,我们讲述了如何创建一个Javaweb应用,并使用Filebeat来收集应用所生成的日志。在今天的文章中,我来详述如何收集应用的指标,使用APM来监控应用并监督web服务的在线情况。源码可以在地址 https://github.com/liu-xiao-guo/java_observability 进行下载。摄入指标指标被视为可以随时更改的时间点值。当前请求的数量可以改变任何毫秒。你可能有1000个请求的峰值,然后一切都回到一个请求。这也意味着这些指标可能不准确,你还想提取最小/

  7. LC滤波器设计学习笔记(一)滤波电路入门 - 2

    目录前言滤波电路科普主要分类实际情况单位的概念常用评价参数函数型滤波器简单分析滤波电路构成低通滤波器RC低通滤波器RL低通滤波器高通滤波器RC高通滤波器RL高通滤波器部分摘自《LC滤波器设计与制作》,侵权删。前言最近需要学习放大电路和滤波电路,但是由于只在之前做音乐频谱分析仪的时候简单了解过一点点运放,所以也是相当从零开始学习了。滤波电路科普主要分类滤波器:主要是从不同频率的成分中提取出特定频率的信号。有源滤波器:由RC元件与运算放大器组成的滤波器。可滤除某一次或多次谐波,最普通易于采用的无源滤波器结构是将电感与电容串联,可对主要次谐波(3、5、7)构成低阻抗旁路。无源滤波器:无源滤波器,又称

  8. ruby-on-rails - Rails 中同一个类的多个关联的最佳实践? - 2

    我认为我的问题最好用一个例子来描述。假设我有一个名为“Thing”的简单模型,它有一些简单数据类型的属性。像...Thing-foo:string-goo:string-bar:int这并不难。数据库表将包含具有这三个属性的三列,我可以使用@thing.foo或@thing.bar之类的东西访问它们。但我要解决的问题是当“foo”或“goo”不再包含在简单数据类型中时会发生什么?假设foo和goo代表相同类型的对象。也就是说,它们都是“Whazit”的实例,只是数据不同。所以现在事情可能看起来像这样......Thing-bar:int但是现在有一个新的模型叫做“Whazit”,看起来

  9. ruby-on-rails - 向 Rails 3 添加 Ruby 扩展方法的最佳实践? - 2

    我有一个要在我的Rails3项目中使用的数组扩展方法。它应该住在哪里?我有一个应用程序/类,我最初把它放在(array_extensions.rb)中,在我的config/application.rb中我加载路径:config.autoload_paths+=%W(#{Rails.root}/应用程序/类)。但是,当我转到railsconsole时,未加载扩展。是否有一个预定义的位置可以放置我的Rails3扩展方法?或者,一种预先定义的方式来添加它们?我知道Rails有自己的数组扩展方法。我应该将我的添加到active_support/core_ext/array/conversion

  10. ruby-on-rails - self 在 Rails 模型中的值(value)是什么?为什么没有明显的实例方法可用? - 2

    我的rails3.1.6应用程序中有一个自定义访问器方法,它为一个属性分配一个值,即使该值不存在。my_attr属性是一个序列化的哈希,除非为空白,否则应与给定值合并指定了值,在这种情况下,它将当前值设置为空值。(添加了检查以确保值是它们应该的值,但为简洁起见被删除,因为它们不是我的问题的一部分。)我的setter定义为:defmy_attr=(new_val)cur_val=read_attribute(:my_attr)#storecurrentvalue#makesureweareworkingwithahash,andresetvalueifablankvalueisgiven

随机推荐