我是一个着迷于产品和运营的技术人,乐于跨界的终身学习者。欢迎关注我的个人公众号「跨界架构师」
每周五11:45 按时送达
我的第「221」篇原创敬上
大家好,我是Z哥。
最近工作中正好在设计一个方案,以支持 CD 环节的第一个部署节点可以完全自动部署,并且整个环节中尽量减少人为干预的节点。
之前也没有这块的实战经验,摸着石头过河,想了一个方案,在这里分享给大家,欢迎你一起讨论,相互学习。
我目前所在的公司 CI/CD 流程是这样的。

相信大多数公司的 CI/CD 流程和上图差别不大,基本上都是一个逐渐推进的直线节点。
在这个节点不断推进的过程中,数据库和配置的变更如何自动化,往往是面临的最大问题。
我这次要做的事就是在图中的 QA 环境之前增加一个 Alpha 环境,并且该环境的部署需要完全自动化进行。
那么自动部署过程中,我们有哪些原则可以被提炼出来,可以指导我们将这件事做成,并且往正确的方向持续进行呢?
我的理解是以下两点:
■ 在自动部署之前,尽可能提前检测出部署后会导致该程序的上下游甚至整个系统不可用的风险。比如,通过静态代码检测。
■ 部署之后,尽可能广地识别上下游以及整个系统的异常,及时回滚。比如,通过冒烟测试。
基于此原则,我构思的方案是这个样子:

在具体实施层面,觉得需要做以下几件事,优先级从高到低排列:
1.配置和数据库变更文件的标准制定
2.能够识别配置和数据库变更文件的新增
3.能够将构建的镜像、变更文件打包到一起通知到运维与 DBA(条件允许的话,直接在系统层面打通)
4.在部署 Alpha 环境前的可用性检测。
5.每个程序提供健康检查接口,用于检测部署结果。
6.自动化的冒烟测试。用于检测 Alpha 环境的可用性,并触发回滚。
要做的细节工作还不有不少,但是核心工作就这么多。我们再来展开一下其中的每一件事。
首先,自动化的前提是先标准化,为了实现自动化,我们需要先将标准确定好。针对变更文件的标准,我大致想了下是这个样子。
方案1:分别在 gitlab 仓库里定义 infra_changes_conf 、 infra_changes_db 、deploy_dependencies 文件夹。
【建议】方案2:在 gitlab 仓库里定义infra_changes文件夹,其中统一存放配置和 DB 变更、依赖描述文件,用不同的前缀区分。
文件名格式为:[conf/db/depend]_JiraID_自增序号。Jira ID 是Jira上的故事、任务、Bug 的 ID。示例:
conf_XXXProject-2564_1.yaml
conf_XXXProject-2564_2.yaml
db_XXXProject-2564_1.yaml
db_XXXProject-2564_2.yaml
depend_XXXProject-2564_1.yaml
depend_XXXProject-2564_2.yaml
文件名最后的自增序号一般用于两种场景:
■ 前一次构建并发布 Alpha 环境成功,但因功能需求,需要额外增加配置并发新版。
■ 配置或者 db 变更需要区分程序运行前还是运行后。
conf_ 文件内容格式为 YAML 格式,结构如下:
runtime:before|after #程序运行前 or 运行后
store_type:config_map|apollo|nacos|... #配置的存储类型
service_name:xxxxxx #服务名
remove_keys:
-key1
-key2.a.b #多级key 以 Properties 格式定义
add_keys:
-key1:value1
key2.a.b:value2
update_keys:
-key1:value1
key2.a.b:value2
同样的,db_ 文件内容格式为 YAML 格式,它支持两种模式,结构分别如下:
runtime: before|after #程序运行前or运行后
db_type: mysql|mongodb|dynamodb|... #数据库的类型
ddls:
- sql1
- sql2
dmls:
- sql1
- sql2
depend_ 文件内容格式同样为 YAML 格式,结构如下
jira_ids:
- XXXProject-2564
- XXXProject-2564
相信你从文件格式中也能明白每一个属性的意义吧?
聪明的你可能已经根据前面的《文件名的定义》部分内容猜到了,就是通过 Jira ID 来识别。具体操作方式是:
1.研发将配置、DB变更文件与代码一起提交到Gitlab 仓库。
2.如果检测到 Gitlab 的 commit 信息中带 Jira ID,那么会触发构建,并且将该镜像与 commit 中的 Jira ID 关联。
3.然后根据 Jira ID 去找 infra_changes 目录中与该 Jira ID 相关的变更文件,将它们与镜像放到一起。
如果运维和DBA已经有相关的自动化操作系统的话,可以直接在系统层面进行打通。否则的话,直接发出一个飞书或者钉钉消息就好了。
这个目前能想到的好像只有静态代码扫描了。
健康检查的作用在于,在部署完之后,通过调用每个系统的健康检查接口来快速得到某个程序的自检结果。毕竟只靠冒烟测试的话,整个效率会比较低。
具体的检查项:
比如数据库连接是否正常,所依赖的外部系统是否已经就绪等等。
这个大家应该都知道,就不展开了。
大体上就这么多。等后面实际运用起来之后应该还会有一些迭代变化,到时候如果我觉得值得分享的话,再来和大家分享。
好了,总结一下。
这篇呢,Z 哥和你分享了我在目前团队中正在做的一个与 CI/CD 相关的事情。
为了确保整个自动化过程的尽可能稳定,我们需要基于两个原则不断思考和打磨整个过程。他们分别是:
■ 在自动部署之前,尽可能提前检测出部署后会导致该程序的上下游甚至整个系统不可用的风险。比如,通过静态代码检测。
■ 部署之后,尽可能广的识别上下游以及整个系统的异常,及时回滚。比如,通过冒烟测试。
在具体的实践过程中,主要有以下六个步骤:
1.配置和数据库变更文件的标准制定
2.能够识别配置和数据库变更文件的新增
3.能够将构建的镜像、变更文件打包到一起通知到运维与 DBA(条件允许的话,直接在系统层面打通)
4.在部署 Alpha 环境前的可用性检测。
5.每个程序提供健康检查接口,用于检测部署结果。
6.自动化的冒烟测试。用于检测 Alpha 环境的可用性,并触发回滚。
希望对你有所启发。
如果你有什么关于CI/CD的好想法,欢迎和我交流哈~
推荐阅读:
如果你喜欢这篇文章,可以点一下右下角的「爱心」,支持我的创作~
定期发表原创内容:架构设计丨分布式系统丨产品丨运营丨一些深度思考。
很好奇,就使用rubyonrails自动化单元测试而言,你们正在做什么?您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您?git中的预提交Hook?只是手动调用?我完全理解测试,但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的,并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您? 最佳答案 不确定您到底想听什么,但是有几个级别的自动代码库控制:在处理某项功能时,您可以使用类似autotest的内容获得关于哪些有效,哪些无效的即时反馈。要确保您的提
使用带有Rails插件的vim,您可以创建一个迁移文件,然后一次性打开该文件吗?textmate也可以这样吗? 最佳答案 你可以使用rails.vim然后做类似的事情::Rgeneratemigratonadd_foo_to_bar插件将打开迁移生成的文件,这正是您想要的。我不能代表textmate。 关于ruby-使用VimRails,您可以创建一个新的迁移文件并一次性打开它吗?,我们在StackOverflow上找到一个类似的问题: https://sta
我需要从一个View访问多个模型。以前,我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它,但这似乎不是“ruby方式”,我将需要在不久的将来访问更多模型。这可能会变得很脏,是否有针对这种情况的任何技术?注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展,本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向,这似乎很麻烦。最终从任何
我想要做的是有2个不同的Controller,client和test_client。客户端Controller已经构建,我想创建一个test_clientController,我可以使用它来玩弄客户端的UI并根据需要进行调整。我主要是想绕过我在客户端中内置的验证及其对加载数据的管理Controller的依赖。所以我希望test_clientController加载示例数据集,然后呈现客户端Controller的索引View,以便我可以调整客户端UI。就是这样。我在test_clients索引方法中试过这个:classTestClientdefindexrender:template=>
如果您尝试在Ruby中的nil对象上调用方法,则会出现NoMethodError异常并显示消息:"undefinedmethod‘...’fornil:NilClass"然而,有一个tryRails中的方法,如果它被发送到一个nil对象,它只返回nil:require'rubygems'require'active_support/all'nil.try(:nonexisting_method)#noNoMethodErrorexceptionanymore那么try如何在内部工作以防止该异常? 最佳答案 像Ruby中的所有其他对象
关闭。这个问题需要detailsorclarity.它目前不接受答案。想改进这个问题吗?通过editingthispost添加细节并澄清问题.关闭8年前。Improvethisquestion为什么SecureRandom.uuid创建一个唯一的字符串?SecureRandom.uuid#=>"35cb4e30-54e1-49f9-b5ce-4134799eb2c0"SecureRandom.uuid方法创建的字符串从不重复?
我收到这个错误:RuntimeError(自动加载常量Apps时检测到循环依赖当我使用多线程时。下面是我的代码。为什么会这样?我尝试多线程的原因是因为我正在编写一个HTML抓取应用程序。对Nokogiri::HTML(open())的调用是一个同步阻塞调用,需要1秒才能返回,我有100,000多个页面要访问,所以我试图运行多个线程来解决这个问题。有更好的方法吗?classToolsController0)app.website=array.join(',')putsapp.websiteelseapp.website="NONE"endapp.saveapps=Apps.order("
我有一个正在构建的应用程序,我需要一个模型来创建另一个模型的实例。我希望每辆车都有4个轮胎。汽车模型classCar轮胎模型classTire但是,在make_tires内部有一个错误,如果我为Tire尝试它,则没有用于创建或新建的activerecord方法。当我检查轮胎时,它没有这些方法。我该如何补救?错误是这样的:未定义的方法'create'forActiveRecord::AttributeMethods::Serialization::Tire::Module我测试了两个环境:测试和开发,它们都因相同的错误而失败。 最佳答案
我是Google云的新手,我正在尝试对其进行首次部署。我的第一个部署是RubyonRails项目。我基本上是在关注thisguideinthegoogleclouddocumentation.唯一的区别是我使用的是我自己的项目,而不是他们提供的“helloworld”项目。这是我的app.yaml文件runtime:customvm:trueentrypoint:bundleexecrackup-p8080-Eproductionconfig.ruresources:cpu:0.5memory_gb:1.3disk_size_gb:10当我转到我的项目目录并运行gcloudprevie
我想在Ruby中创建一个用于开发目的的极其简单的Web服务器(不,不想使用现成的解决方案)。代码如下:#!/usr/bin/rubyrequire'socket'server=TCPServer.new('127.0.0.1',8080)whileconnection=server.acceptheaders=[]length=0whileline=connection.getsheaders想法是从命令行运行这个脚本,提供另一个脚本,它将在其标准输入上获取请求,并在其标准输出上返回完整的响应。到目前为止一切顺利,但事实证明这真的很脆弱,因为它在第二个请求上中断并出现错误:/usr/b